AMD/ATI - Polaris (Arctic Islands): Baffin, Ellesmere - Polaris 12, 11 & 10 [Archiv] - Seite 12

fondness

2016-04-27, 18:58:05

2X Perf/Watt vs. Fiji, 2.5x vs. Hawaii.

Bei NV sagt 300mm^2 auch direkt aus, was hier möglich ist, wenn man 2X Perf/W anlegt, was genauso keine rote Zauberin erfordert.

Selbst nvidia spricht von weniger.

dargo

2016-04-27, 19:04:12

Hauptsächlich aber ist P10 ein viel energieeffizienterer Hawaii - auf den sich auch die 2X Performance per Watt beziehen werden
Das passt nicht mit den eigenen Folien zusammen.
http://www.pcgameshardware.de/screenshots/662x/2016/03/AMD-Capsaicin-2-pcgh.PNG

Hawaii kam Oktober 2013. Der Zeitachse nach bezieht sich AMD eher auf Tonga.

Sunrise

2016-04-27, 19:06:17

2X Perf/Watt vs. Fiji, 2.5x vs. Hawaii.
Das sagt bisher lediglich Koduri, von mir aus lass es 2.5x sein wenn du dich damit besser fühlst.

Selbst nvidia spricht von weniger.
Siehe oben, wenn es dir damit besser geht, dann glaube an weniger, ich tue es nicht.

fondness

2016-04-27, 19:13:51

Das sagt bisher lediglich Koduri, von mir aus lass es 2.5x sein wenn du dich damit besser fühlst.

Siehe oben, wenn es dir damit besser geht, dann glaube an weniger, ich tue es nicht.

Es steht auf den offiziellen Folien, deine persönlichen Anmachen sind letztklassig.

Sunrise

2016-04-27, 19:28:29

Es steht auf den offiziellen Folien, deine persönlichen Anmachen sind letztklassig.
Es gibt mittlerweile genug andere Quellen (AMD selbst) die lediglich von 2.0x sprechen, das weißt du so gut wie ich und AMD auch. Ich rede übrigens explizit von P10.

Aus irgendeinem Grund ignorierst du das aber gern.

Ich mag auch lieber blau und jetzt?

Screemer

2016-04-27, 19:41:02

Die ziehst Aussagen von AMD als bindend heran und ignorierst im selben Atemzug Aussagen von NV und hebst die Erwartungen auf deren seite auf ein völlig unsinniges Level. Cool :up:

iuno

2016-04-27, 19:42:30

Polaris 10 XT wird wohl so knapp über 390X rauskommen im besten Fall. Gegner wird warscheinlich GP104-150 sein. Wobei hier AMD im Vorteil ist, da der Chip deutlich kleiner und günstiger ist.
Ich schätze so ein Polaris 10XT Board auf ~300-350€. Was auch fair und geerechtfertigt ist.
[...]
Polaris 10 finde ich sehr interessant für Notebooks. Das Teil wäre der absolute Knaller in Entry Lavel Gaming Notebooks wo nVidia für Monate nichts entgegen zu setzen hätte. Für ca 800€ würde ich sofort so ein Notebook kaufen.
Und was fuer ein Vorteil soll das genau sein?
Der 150er ist Abfall, der Quasi eh anfaellt, AMD stellt nach deiner Theorie den staerksten Ausbau, den sie dann fuer lange Zeit haben, dagegen. Zudem kann Nvidia dann mit den grossen deutlich mehr Marge einfahren und ist in dem Bereich konkurrenzlos. Das ist in meinen Augen alles andere als ein Vorteil fuer AMD, voellig egal ob der Chip etwas kleiner ist.

Und was haelt Nvidia davon ab, GP104 ins Notebook zu bringen?
Rein gar nichts. Wenn sie da durch P10 Gefahr sehen, kommt GM204 schnellstens weg und GP104 auch ins Notebook. Ist dch ueberhaupt kein Problem, da sind die Margen ja sogar noch groesser. Da sollte dann auch der 150er oder max 200er fuer P10 reichen. In der aktuellen Generation hat man da bis zu einem voll aktivierten GM204 eingebaut, ich sehe da ueberhaupt kein Problem seitens Nvidia.

fondness

2016-04-27, 19:50:44

Es gibt mittlerweile genug andere Quellen (AMD selbst) die lediglich von 2.0x sprechen, das weißt du so gut wie ich und AMD auch. Ich rede übrigens explizit von P10.

Aus irgendeinem Grund ignorierst du das aber gern.

Das stimmt nicht, ich habe oben nicht ohne Grund 2X Perf/Watt vs. Fiji, 2.5x vs. Hawaii geschrieben. Es ist eben nicht so, dass alle 28nm GPUs dieselbe Perf/Watt haben.

Sunrise

2016-04-27, 19:58:15

Die ziehst Aussagen von AMD als bindend heran und ignorierst im selben Atemzug Aussagen von NV und hebst die Erwartungen auf deren seite auf ein völlig unsinniges Level. Cool :up:
Weil man nach den Jahren gelernt hat, bestimmte Dinge in Frage zu stellen und anders zu interpretieren. Man nimmt sich eben auch nicht nur eine Aussage und malt sich dann ein Bild, sondern mehrere. Das nennt sich Lebenserfahrung. Wir können ja gerne Wetten abschließen, habe ich mit Ailuros immer gerne gemacht.

Beide Seiten werden etwa die doppelte Energieeffizienz hinbekommen, AMD wird wohl minimal mehr hinzugewinnen können. Fertig. Da gibts auch anhand der historischen Diegrößen keine anderen gigantischen Abweichungen, das ist alles relativ gut abschätzbar.

Sunrise

2016-04-27, 20:02:35

Das stimmt nicht, ich habe oben nicht ohne Grund 2X Perf/Watt vs. Fiji, 2.5x vs. Hawaii geschrieben. Es ist eben nicht so, dass alle 28nm GPUs dieselbe Perf/Watt haben.
Du beziehst dich auf meine Beiträge, dementsprechend auf meine Inhalte. Ich schreibe ganz klar von P10 in jedem meiner Beiträge, die Aussagen kommen alle von AMD, wo ist also die Unklarheit?

Brillus

2016-04-27, 20:02:36

Wer glaubt, dass Polaris 10XT eine Fury X oder 980Ti schlägt, dem ist nicht mehr zu helfen. Da würde ja auch eine Radeon Pro Duo absolut keinen Sinn machen und man könnte eine Dual Polaris 10 Board bringen.

Polaris 10 XT wird wohl so knapp über 390X rauskommen im besten Fall. Gegner wird warscheinlich GP104-150 sein. Wobei hier AMD im Vorteil ist, da der Chip deutlich kleiner und günstiger ist.
Ich schätze so ein Polaris 10XT Board auf ~300-350€. Was auch fair und geerechtfertigt ist.

Damit hätte AMD auf jeden Fall für den Rest des Jahres den Preis Leistungs Kracher und auch was die Energieeffizienz angeht oben mit dabei sein.

Polaris 10 finde ich sehr interessant für Notebooks. Das Teil wäre der absolute Knaller in Entry Lavel Gaming Notebooks wo nVidia für Monate nichts entgegen zu setzen hätte. Für ca 800€ würde ich sofort so ein Notebook kaufen.

Ein 800€ Notebook wo allein die GraKa 300€ sein soll, won't happen.

Wobei ich auch auf nette P10 Notebooks hoffe, so Ende des Jahres habe ich vor neu zu kaufen. Hoffe das dann auch Zen drausen ist .Ich erwarte aber eher so im 1300€ Bereich.

fondness

2016-04-27, 20:10:14

Du beziehst dich auf meine Beiträge, dementsprechend auf meine Inhalte. Ich schreibe ganz klar von P10 in jedem meiner Beiträge, die Aussagen kommen alle von AMD, wo ist also die Unklarheit?

Natürlich P10, was denn sonst? Von meiner Seite gibt es keine Unklarheiten, du warst es, der auf meinen Einwand mit einem abwertenden "wenn es dir besser geht" antwortete. Die 2.5x Perf/Watt beziehen sich im übrigen auf Polaris und da gibt es eh nur zwei Chips, die sich in punkto Perf/Watt wohl kaum groß unterscheiden werden. Diskussionwürdig ist nur der Bezugspunkt - deshalb auch die unterschiedlichen Angaben mit 2.5x vs. 2.0 Perf/Watt.

AffenJack

2016-04-27, 20:12:37

Die ziehst Aussagen von AMD als bindend heran und ignorierst im selben Atemzug Aussagen von NV und hebst die Erwartungen auf deren seite auf ein völlig unsinniges Level. Cool :up:

Es gibt keinerlei Aussagen von Nvidia bezüglich Perf/W im Gamingbereich. Es gibt Folien die weniger als eine verdopplung der Gflops/W anzeigen. Wenn die SM aber wie bei GP100 gebaut sind, könnte durchaus die Perf/Gflop auch ansteigen.

Bei AMD wiederrum gibt es die 2,5 fache Perf/W die wohl für Hawaii gilt und 2x für Fiji. Aber auch das sind immer bis zu Werte. Ob höhergetaktete Desktopskus dies werden halten können weiß man nicht. Es hängt sowieso viel zu viel vom takt ab. Selbst Hawaii kann sparsam sein, wenn er etwas niedriger getaktet ist. Es wird einfach von AMD abhängen was für GPUs sie da bringen werden.

Sunrise

2016-04-27, 20:14:14

Die 2.5x Perf/Watt beziehen sich im übrigen auch ganz klar auf Polaris und da gibt es eh nur zwei Chips, die sich in punkto Perf/Watt nicht groß unterscheiden werden.
Nochmal: AMD sagt öffentlich auch lediglich 2.0x Perf/W bei deren Quellen. Hör doch mal bitte mit dieser Zahlenverduselei auf. Ja, die Zahl 2.5x gibt es auch, zufrieden? Keine der Quellen hat irgendwie mehr Relevanz, die kommen alle von AMD, selbst Lisa gibt im Call nur 2.0x an. Das war jetzt mein letzter Beitrag dazu.

Die Mitte ist für mich näher an der 2, auch wenn P11 wohl besser dasteht und ggü. Fiji kann es auch mehr sein.

fondness

2016-04-27, 20:17:04

Nochmal: AMD sagt öffentlich auch lediglich 2.0x Perf/W bei deren Quellen. Hör doch mal bitte mit dieser Zahlenverduselei auf. Ja, die Zahl 2.5x gibt es auch, zufrieden? Keine der Quellen hat irgendwie mehr Relevanz, die kommen alle von AMD, selbst Lisa gibt im Call nur 2.0x an. Das war jetzt mein letzter Beitrag dazu.

Siehe meine Edit oben. Ich habe im übrigen nie bestritten, dass es beide Zahlen gibt. Daher auch meine Aussage mit 2.5x vs. Hawaii, 2.0x vs. Fiji.

|MatMan|

2016-04-27, 20:28:25

Ich habe im übrigen nie bestritten, dass es beide Zahlen gibt. Daher auch meine Aussage mit 2.5x vs. Hawaii, 2.0x vs. Fiji.
Schreib es bitte noch 10x!
Oh man von 2,0 zu 2,5 sind es gerade mal 25% Unterschied. Wieviel soll das bei einer Marketing Angabe genau wert sein?

Botcruscher

2016-04-27, 20:33:38

GP104 kommt ganz sicher mobil. AMD wird so oder so über den Preis gehen müssen. P11 ist da das deutlich interessantere Produkt. Billiger Mobilmassenmarkt.

VooDoo7mx

2016-04-27, 21:22:28

Und was fuer ein Vorteil soll das genau sein?
Der 150er ist Abfall, der Quasi eh anfaellt, AMD stellt nach deiner Theorie den staerksten Ausbau, den sie dann fuer lange Zeit haben, dagegen. Zudem kann Nvidia dann mit den grossen deutlich mehr Marge einfahren und ist in dem Bereich konkurrenzlos. Das ist in meinen Augen alles andere als ein Vorteil fuer AMD, voellig egal ob der Chip etwas kleiner ist.

Und was haelt Nvidia davon ab, GP104 ins Notebook zu bringen?
Rein gar nichts. Wenn sie da durch P10 Gefahr sehen, kommt GM204 schnellstens weg und GP104 auch ins Notebook. Ist dch ueberhaupt kein Problem, da sind die Margen ja sogar noch groesser. Da sollte dann auch der 150er oder max 200er fuer P10 reichen. In der aktuellen Generation hat man da bis zu einem voll aktivierten GM204 eingebaut, ich sehe da ueberhaupt kein Problem seitens Nvidia.

Vorteil meine ich immer auf das jeweilige Preissegment bezogen. Bei P10 XT vs GP104-150 hat AMD den Vorteil, dass der Chip deutlich kleiner und somit billiger ist. Mehr Gewinnmarge.
Somit sehe ich AMD im Vorteil bis der GP106 kommt.
Im Preissegment darüber wird AMD bis Vega die Arschkarte haben. Fury X tut sich schon gegen eine Stock 980Ti schwer. Gegen eine GP104-400 wird das Teil chancenlos sein bis Vega aufschlägt.

Und mit den Notebooks meine ich Polaris 11 und nicht 10. Mein Fehler.
Polaris 11 könnte in Entry Level Gaming Notebooks wo normalerweile GTX950M/960M verbaut ist, ganz krass abräumen. Da hat nVidia erst mal nichts entegen zu setzen. So ein Gerät wäre dann auch für mich interessant. Wenn AMD liefern kann.
Und das GP104 in Notebooks kommt, ist so klar wie das Amen in der Kirche. Auch hier wird AMD nicht mithalten können. Jedoch könnten auch hier Polaris 10 Mobile Ablegler eine sehr gute Alternative bieten zu den meist überteurten nVidia Varianten a la GTX980M.

Ein 800€ Notebook wo allein die GraKa 300€ sein soll, won't happen.

Wobei ich auch auf nette P10 Notebooks hoffe, so Ende des Jahres habe ich vor neu zu kaufen. Hoffe das dann auch Zen drausen ist .Ich erwarte aber eher so im 1300€ Bereich.

Mein Fehler in den Beitrag, ich meinte Polaris 11. Sorry.

OBrian

2016-04-27, 23:54:41

Es ist ja auch möglich, daß zuerst die 2,5x nicht nur angepeilt war, sondern auch erreicht wurde, man dann aber sich gesagt hat "wir müssen diese Super-Effizienz nicht sofort verballern, indem wir komplette Chips mit moderaten Taktraten verkaufen". Stattdessen gehen die kompletten an Apple und in Profi-Karten und der "normale", unprivilegierte Nicht-Apple-Kunde bekommt teildeaktivierte mit höherem Takt, wo die Effizienz schlechter ist, eben nur noch (knapp?) 2,0x. In einem späteren Refresh kann man dann immer noch was tunen. Also praktisch die gleiche Strategie wie bei Tonga.

mczak

2016-04-28, 02:04:22

GP104 kommt ganz sicher mobil. AMD wird so oder so über den Preis gehen müssen.
Bei weitem nicht jedes Notebook hat Platz für 120W+ GPUs. Selbst die 120W (wenn man den Speicher dazurechnet) gehen vermutlich bloss mit auch schon relativ stark deaktiviertem GP104-Chip (so wie bei GTX 980M auch, da ist immerhin ein Viertel der SMM inaktiv - gibt ja auch ganze GM204 in Notebooks, die liegen dann aber bei 165W).
Und darunter ist es rein eine Frage welcher Chip effizienter ist, denn das sind dann Performanceregionen die sowohl GP104 wie Polaris 10 relativ locker (ohne die Taktraten zu pushen) erreichen müssten - der eine halt stärker deaktiviert.
Ich habe aber keine Ahnung welcher Chip effizienter sein wird, mit Maxwell hatte nvidia da natürlich klare Vorteile.

Lurtz

2016-04-28, 08:54:31

"The reason Polaris is a big deal," continued Taylor, "is because I believe we will be able to grow that TAM significantly. I don't think Nvidia is going to do anything to increase the TAM, because according to everything we've seen around Pascal, it's a high-end part. I don't know what the price is gonna be, but let's say it's as low as £500/$600 and as high as £800/$1000. That price range is not going to expand the TAM for VR. We're going on the record right now to say Polaris will expand the TAM. Full stop."
http://arstechnica.co.uk/gadgets/2016/04/amd-focusing-on-vr-mid-range-polaris/

Heißt das man gibt den Highendkampf im Grafikkarten- wie im CPU-Markt auf oder wie soll man das verstehen?

Nightspider

2016-04-28, 09:07:18

Wieso sollte es das heißen?
Zumal Vega ja schon als stärkerer Chip angekündigt ist.

iuno

2016-04-28, 09:35:13

Das habe ich doch schon gestern gepostet, aber die Diskussion ob man jetzt Faktor 2 oder 2,5 nimmt war da wichtiger :P
http://arstechnica.co.uk/gadgets/2016/04/amd-focusing-on-vr-mid-range-polaris/
Wenn das mal nicht zu gewagt ist :rolleyes:

Wenn man die Aussage ernst nehmen kann, wird P10 guenstiger verkauft als 970/290 aktuell gehandelt werden (sonst ergibt das gesamte Zitat keinen Sinn). Ich denke, die Performance Richtung Fiji sollte man endgueltig abschreiben.

Kleine Zusatzinfo:
Im Artikel wird nicht nur erwaehnt, dass P10 mit der 980 Ti vergleichbar sei, sondern es wird auch noch der Eindruck erweckt, dass man die entsprechende Frage zum zitierten Absatz im Bezug auf die 980 Ti formuliert hat. Das Interview war aber auf der VR World Congress expo in Bristol, also am 12. April. Damals gab es diese angeblichen Infos zu den Benchmarkwerten noch nicht.
Natuerlich heisst das nicht, dass man sich aus dem High-End verabschiedet. Zwei Vega Chips sind angekuendigt, die mit HBM ueber Polaris liegen werden. Das das noch dauert, wissen wir alle.
Das kann man aber imho durchaus als die Bestaetigung dafuer sehen, dass P10 - zumindest aus AMDs Sicht - nicht direkt mit GP104 konkurriert (was wir uns ja schon lange dachten).

Die Frage ist, ob AMD wirklich so viel weiss, wie sie glauben zu wissen. Erst hat Raja davon gesprochen, dass sie insgesamt viel frueher dran sind und Nvidia nur Chips fuer Autos baut und jetzt das. Ich denke, mindestens der 150er wird preislich durchaus konkurrenzfaehig platziert werden 600$ dafuer? No way! 1000$ fuer den grossen? Als ob die Preise durchgaengig so stark steigen oder eine Titan mit einem 4er Chip kommt.
Mglw. ist der 150er aber auch gerade Nvidias Antwort auf P10 und AMD wusste davon einfach nichts. Vielleicht sind sie einfach davon ausgegangen, dass GP100/2 direkt kommt (als Titan fuer 1000$) oder 104 noch hoeher angesiedelt ist und es keine mit P10 konkurrierende Variante gibt. Dann haette immerhin Rajas Aussage fuer diesen bestimmten Sektor (P10/GP106) gepasst.

Nakai

2016-04-28, 10:20:33

Man ist zeitlich früher im Bezug auf OEMs dran. Vor allem P11 wird ein ziemliches OEM-Produkt werden. Es gibt deutlich mehr SKUs (im Treiber) und dementsprechend schon viele Einsatzmöglichkeiten.

P10 kommt erstmal nur in zwei Varianten (laut Treiber).
Die geleakte SKU (sisoft) sieht nach der PRO-Variante aus. Die geleakte P11 (benchlife?) sollte auch die Pro-Variante sein.

So sieht es aus:

P10 Pro 2304 SPs
P10 XT 2560 SPs (noch nicht sicher)

Zu P11 äußere ich mich nicht.

Was ich mitbekommen habe (großer Laster mit Salz) kommt eine P10-Version mit einem sehr niedrigen Preis daher (200~250$/€). Evtl ist es auch eine P11, aber dann ist der Preis sehr hoch. Ich denke das wird die Pro-Variante sein. Dementsprechend würde ich eine XT nicht über 350€/$ schätzen. Ebenso schätze ich diesbezüglich die Leistung von P10 ein. Und Tonga und Fiji bleiben in irgendeiner Form erstmal bestehen. Die 4000 Pkt von P10 im 3D Mark kann ich mir nicht vorstellen. Es sollte eher etwas zwischen 3000~3500 sein.

€: Ahja, interpretiert nicht zuviel in meine Aussagen rein. ^^

Screemer

2016-04-28, 10:33:10

Ich wundere mich eh schon die ganze Zeit, was denn aus AMDs kolportierten Vorsprung wurde. Wenn man derzeit so liest, dann kommen die gp104 Varianten sogar vor den polarischips. Ich ging bisher von nem paperlaunch der nv Produkte aus um AMD damit in die Parade zu fahren. Allerdings schwinden meine Zweifel immer mehr und mittlerweile gehe ich eher davon aus, dass zumindest die ddr5 Versionen zeitnah zur Vorstellung verfügbar sind. Die gddr5x Variante kann man ja dann noch nach schieben.

Ailuros

2016-04-28, 11:14:53

Ich wundere mich eh schon die ganze Zeit, was denn aus AMDs kolportierten Vorsprung wurde. Wenn man derzeit so liest, dann kommen die gp104 Varianten sogar vor den polarischips. Ich ging bisher von nem paperlaunch der nv Produkte aus um AMD damit in die Parade zu fahren. Allerdings schwinden meine Zweifel immer mehr und mittlerweile gehe ich eher davon aus, dass zumindest die ddr5 Versionen zeitnah zur Vorstellung verfügbar sind. Die gddr5x Variante kann man ja dann noch nach schieben.

Ich hab schon eine Bestaetigung einer zuverlaessigen Quelle dass es ziemlich viel Dampf zwischen NV und TSMC in letzter Zeit gab, damit TSMC nicht deren Herstellung verzoegert.

Sonst waere eine These dass sie Pascal etwas unterschaetzt haben und auf den grossen Polaris SKUs zu hoeheren Frequenzen sich gezwungen sahen als anfangs vorgesehen welches vielleicht etwas vom originalen perf/W Ziel etwas abknabberte. Das dumme ist halt dass die Kurve des Verbrauchs um einiges steiler steigt wenn man etwas an der Frequenz schraubt. Muss natuerlich nicht stimmen, aber es ist momentan die einzige spekulative These die mir dafuer einfallen koennte.

Es war beim GTX680 launch ja auch nicht anders; NV plante anfangs etwas um einiges bescheideneres mit einem ziemlich kleinen PCB, geringerer Leistung und relativ niedrigem Preis. Als sie sahen dass die 7970 doch noch in Reichweite ist, wurde das PCB neu ausgelegt, Frequenzen erhoeht und der turbo Takt dazugesteckt. Dass die TDP dann auf 195W gestiegen ist, konnte ihnen auch wurscht sein.

Palpatin

2016-04-28, 11:35:24

Die 4000 Pkt von P10 im 3D Mark kann ich mir nicht vorstellen. Es sollte eher etwas zwischen 3000~3500 sein.

€: Ahja, interpretiert nicht zuviel in meine Aussagen rein. ^^
Sehe ich auch so. Mit 2560 Shader ok, sehr hoher Takt und Architekturverbesserung evtl 4000 Pkt möglich, aber mit dem 256 bit SI und normalem DDR5? Never.

Sunrise

2016-04-28, 11:38:34

...Tonga und Fiji bleiben in irgendeiner Form erstmal bestehen.

€: Ahja, interpretiert nicht zuviel in meine Aussagen rein. ^^
Tonga ist doch so ziemlich (mit Hawaii, wenn auch nicht in Gänze, aufgrund der Profikarten) mit das Erste, was durch P10 ersetzt wird.

Tonga ist genauso "unfertig und unausgegoren" wie Fiji. Viel zu großer Die und es kommt nicht ansatzweise das hintenraus was man sich wünschen würde.

P10 ist nicht nur deutlich kleiner, sondern wird für diese Märkte (Desktop, Apple iMac, usw.) quasi ein Sofortersatz. Je schneller der alte Mist weg ist, um so besser.

Dass ist nicht wie bei NV, bei AMD geht es in erster Linie darum, endlich mal ein vernünftigeres P/L-BOM zu erreichen, damit etwas verdient werden kann und der Marktanteil möglichst ausgebaut wird, was schwer genug gegen NV werden wird.

Unicous

2016-04-28, 11:38:37

Sonst waere eine These dass sie Pascal etwas unterschaetzt haben und auf den grossen Polaris SKUs zu hoeheren Frequenzen sich gezwungen sahen als anfangs vorgesehen welches vielleicht etwas vom originalen perf/W Ziel etwas abknabberte. Das dumme ist halt dass die Kurve des Verbrauchs um einiges steiler steigt wenn man etwas an der Frequenz schraubt. Muss natuerlich nicht stimmen, aber es ist momentan die einzige spekulative These die mir dafuer einfallen koennte.

Das ist die inherente Problematik bei FinFET. Die Spannungen gehen deutlich runter und auch die Leakage, aber dafür geht eben auch das clock ceiling runter, auch wenn einige trojanische Pferde das nicht wahr haben wollen.:rolleyes: Da Pascal nicht so eng gepackt ist, wie möglich ( und davon konnte man im Vorhinein ja nicht unbedingt ausgehen) ist Nvidia offensichtlich bei Pascal einen Kompromiss bei den Parametern eingegangen um die Frequenzen doch noch einmal erhöhen zu können. Ich gehe aber davon aus, dass OC deutlich schwieriger sein wird und wir noch mehr Einheitsbrei sehen werden. Und ich kann mir beim besten Willen nicht vorstellen, dass sie die Frequenzen bei Volta nochmals steigern können. Das würde nämlich auch bedeuten, dass Intel 14nm noch mehr verkackt hat als man mittlerweile annimmt obwohl sie formal gesehen die deutlich besseren Metriken fahren.

Wenn AMD wieder einmal voll auf Packdichte fährt vermute ich, dass die nicht Frequenzen doch nicht so stark steigen (in Relation GCN -> Maxwell) wie ich gedacht habe. Das könnte auch den Stellschrauben geschuldet sein, die Samsung bzw. TSMC bei ihren jeweiligen Prozessen verstellt haben.

Könnte tatsächlich dazu kommen, dass AMD sogar effizienter ist, dafür aber nach oben hin die Luft knapp wird. Interessant wäre, wenn Vega bei TSMC gefertigt wird, dann könnte man Indizien sammeln wie sich die Prozesse auf die gleiche Architektur auswirken.

edit:

Tonga bzw. die Endprodukte sind nicht unausgegoren sondern meiner Meinung nach, wie Fiji, aus der Not geboren. Wenn die 20nm designs in Produktion gegangen wären, hätte sich Tonga zwischen die 280X und die entsprechende 20nm GPU schieben können (vllt. hätte es sogar Tonga@20nm, wer weiß). So hat man Tonga künstlich beschnitten um als Lückenbüßer mit neuen Features Tahiti als sidegrade zu ersetzen und musste auch noch Fiji reinschieben... den wirklich unausgegorenen Chip, der an 28nm krankt und das mit HBM ausgleichen muss.

Nakai

2016-04-28, 11:42:52

Sonst waere eine These dass sie Pascal etwas unterschaetzt haben und auf den grossen Polaris SKUs zu hoeheren Frequenzen sich gezwungen sahen als anfangs vorgesehen welches vielleicht etwas vom originalen perf/W Ziel etwas abknabberte. Das dumme ist halt dass die Kurve des Verbrauchs um einiges steiler steigt wenn man etwas an der Frequenz schraubt. Muss natuerlich nicht stimmen, aber es ist momentan die einzige spekulative These die mir dafuer einfallen koennte.

Es gibt jedenfalls drei GP104 SKUs, was stark dafür spricht, dass GP106 kein P10-Konkurrent wird. Es sieht danach aus, dass P10 ein ziemlich netter VR-Chip wird und ein gutes Stück Performance bietet. Womöglich liegt GP104 näher an P10, als NV eigentlich wollte. Dementsprechend wird man GP104 mit GDDR5X schon etwas hochprügeln und dementsprechend gibt es Raum für 3 SKUs.

GP104-150 ~ P10-Pro
GP104-200 ~ P10-XT
GP104-400 ~ P10+20%

Das spricht auch, dass GP106 weder mit P10 noch mit P11 konkurrieren wird.

AMD hat ihre Polaris-Chips wohl etwas anders eingeordnet, diesmal.

€:

Tonga ist doch so ziemlich (mit Hawaii, wenn auch nicht in Gänze, aufgrund der Profikarten) mit das Erste, was durch P10 ersetzt wird.

Tonga ist genauso "unfertig und unausgegoren" wie Fiji. Viel zu großer Die und es kommt nicht ansatzweise das hintenraus was man sich wünschen würde.

P10 ist nicht nur deutlich kleiner, sondern wird für diese Märkte (Desktop, Apple iMac, usw.) quasi ein Sofortersatz. Je schneller der alte Mist weg ist, um so besser.

Dass ist nicht wie bei NV, bei AMD geht es in erster Linie darum, endlich mal ein vernünftigeres P/L-BOM zu erreichen, damit etwas verdient werden kann und der Marktanteil möglichst ausgebaut wird, was schwer genug gegen NV werden wird.

Tonga ist ein ähnlicher Testballon wie Fiji. Man hat nicht mehr die finanziellen Ressourcen, dementsprechend wurden in Tonga und Fiji schon Sachen eingebaut, welche erst jetzt langsam kommen (zB Hardware Scheduler). Ich würde P10 schon ein gutes Stück oberhalb Tonga ansetzen. Dementsprechend wird man Tonga noch weiter "anbieten". Der Chip wird erst 2 Jahre alt.

Sunrise

2016-04-28, 11:45:44

Und ich kann mir beim besten Willen nicht vorstellen, dass sie die Frequenzen bei Volta nochmals steigern können.
Geht mir genauso. Daher wird wohl GP104 wieder lange leben, mit ca. 300mm^2 ist das auch bisher mit GK104 perfekt gelungen.

Wenn Vega über Polaris gesetzt wird, dann gilt für Polaris wohl Ähnliches.

Botcruscher

2016-04-28, 11:50:05

Wie soll ein 300+mm² mit GDDR5x und mehr Takt nur 20% schneller werden?!

Nakai

2016-04-28, 11:54:25

Wie soll ein 300+mm² mit GDDR5x und mehr Takt nur 20% schneller werden?!

Welche Fantasiezahl hättest du hören wollen?

Nochmal GDDR5X liefert erstmal 25% mehr Bandbreite als GDDR5 (8 Gbps -> 10 Gbps), theoretisch.

Palpatin

2016-04-28, 11:58:15

GP104-400 ~ P10+20%

Wenn ich das mit deiner P10 Einschätzung von 3000-3500 Punkte im Firestrike Ultra kombiniere, glaubst du das GP104-400 nicht wirklich an der 980TI vorbeikommen wird?
Kann ich mir irgendwie nicht vorstellen.
Würde bei GP104-400 4100-4600 Punkte schätzen.
GP 104-200 3400-3800
GP 104-150 3200-3600 (evtl nur 4GB RAM).

Nakai

2016-04-28, 12:13:34

Ich würde GP104 etwas oberhalb einer GM200 einordnen. 30%+ würde ich niemals schätzen. Die Packdichte von GP104 wird ungefähr bei 25MioTransen/mm2 sein, ähnlich zu GP100. Man wird eine ähnliche Transistorenzahl wie GM200 haben, aber wohl mit einem schon höherem Takt daherkommen. P10 würde ich leicht oberhalb Hawaii ansehen. Pi mal Daumen liegt GM200 etwa 20~25% oberhalb Hawaii, vor allem bei neueren Titeln.
Von GP104 gegenüber GM200 würde ich das erstmal noch nicht erwarten.

Du kannst auch gerne 25% vor P10 nehmen.

reaperrr

2016-04-28, 13:10:29

Mal was zu den zu erwartenden Preisen:
Es wurde oft genug darüber berichtet, dass die Kosten pro Transistor mit den neuen Prozessen gegenüber 28nm nicht gesunken sind. Anders ausgedrückt, 330mm² in 16FF+ sollten teurer sein als 600mm² in 28nm. Die einzige Kostenersparnis gegenüber GM200 liegt wohl in günstigeren PCBs und Kühlsystemen, aber durch die verdoppelte Kapazität der Speicherchips und 5X bei der GTX 1080 könnte selbst da nicht viel von übrig bleiben.

Ich wäre positiv überrascht, wenn die GTX10x0 ähnlich "günstig" werden wie die GTX9x0 zum Launch, vor allem, was die GTX1070 ggü. der GTX970 angeht.

HOT

2016-04-28, 13:41:45

Das was die mMn grad bei AMD ist eine kluge Strategie für Unterlegene. Die stapeln bewusst tief, bringen erst Produkte auf dem Sweet Spot raus und überlassen es den OEMs und Kartenherstellern, was sie daraus machen. Im Prinzip ist das eine ähnliche Strategie wie bei Maxwell, nur dass man von vornherein ein anderes Marktsegment anpeilt. Man versucht positive Stimmung bei der Kundschaft zu erzeugen. Ich halte das für einen recht guten Weg. Supersparsame Referenzkarten, die grade so das Performancesegment erreichen, das man gewollt hat mit erschwinglichen Preisen und Partnerkarten, die sich mit den NV-Karten anlegen können, dafür aber weniger effizient sind aber dafür auch mehr kosten dürften. Langfristig hat man allerdings damit den Kostenvorteil. Nur so, wie das früher gehandhabt wurde, sollte man das nicht wiederholen. Und was wichtig ist: Die brauchen sehr große Mengen sofort verfügbar, damit man die OEMs überzeugen kann.

iuno

2016-04-28, 13:47:34

Nur, dass Maxwell (GTX 980) zum Release das schnellste war das es gab, und trotzdem noch dieser angesprochene Spielraum da war. Das bleibt von Launch Reviews im Gedaechtnis.
GP104 die neue Spitze, P10 wird irgendwo raus kommen. Analogien zum Maxwell Launch sehe ich da weniger.

Flusher

2016-04-28, 14:21:22

Nur, dass Maxwell (GTX 980) zum Release das schnellste war das es gab, und trotzdem noch dieser angesprochene Spielraum da war. Das bleibt von Launch Reviews im Gedaechtnis.
GP104 die neue Spitze, P10 wird irgendwo raus kommen. Analogien zum Maxwell Launch sehe ich da weniger.

Die erste Maxwell Karte war die GTX 750 TI

iuno

2016-04-28, 14:30:02

Ja, Maxwell 1.0, was eine untergeordnete Rolle spielt.
Deshalb habe ich auch extra 980 dazu geschrieben :rolleyes:

btw: die Fachpresse ist auch wieder gut dabei, die Erwartungen ordentlich hochzuschrauben:
Damit scheint Taylor die bisherigen Gerüchte zu günstigen Grafikkarten mit Leistungen im Rahmen einer Radeon R9 Fury X oder Geforce GTX 980 Ti zumindest ansatzweise zu bestätigen.
http://www.gamestar.de/hardware/grafikkarten/amd-radeon-r9-480x/news-artikel/amd_polaris,988,3271665.html
:facepalm: Ziemlich unglaublich, dass da suggeriert wird, er habe etwas dergleichen so gesagt, wenn ganz klar von 970/290 die Rede ist.

Dural

2016-04-28, 15:02:21

Welche Fantasiezahl hättest du hören wollen?

Nochmal GDDR5X liefert erstmal 25% mehr Bandbreite als GDDR5 (8 Gbps -> 10 Gbps), theoretisch.

Von GTX980 zu GP104 GDDR5X sind es aber schon 40% mehr Bandbreite ;)

Botcruscher

2016-04-28, 16:03:29

btw: die Fachpresse ist auch wieder gut dabei, die Erwartungen ordentlich hochzuschrauben.
Spekulatius halt. Zwischen minimal spekulierten 290(x) und FX/980TI liegen großzügig 40%. Bei 2560SP und irgendwelchen OC Versionen durchaus im Möglichen. Bandbreite ist für den Zweck ist echt genug da. Mit dem Ziel Richtung Nano/390X wäre das Soll schon erfüllt. Preis ist bei dem Ding viel entscheidender. Da hat sich seit Jahren quasi nichts bewegt.

Nakai

2016-04-28, 16:08:47

Von GTX980 zu GP104 GDDR5X sind es aber schon 40% mehr Bandbreite ;)

Richtig und wieviel ist es von GM200 aus?

2560 SPs plus ~20% höhere Taktraten sind milchmädchenhaft etwa 50% von GM204 aus. Wenn wir Glück haben sind es sogar mehr als 2560 SPs, aber dann ist der Takt noch eher fragwürdig. Man kann eher davon ausgehen, dass die Packdichte von den Gamer-Pascals etwas weniger wird, als die von GP100.

iuno

2016-04-28, 16:15:32

Spekulatius halt.
Das ist keine Spekulation sondern einfach schlechte redaktionelle Arbeit. Da hat wer offenbar den Originalartikel nicht aufmerksam erfasst, zugegebenermassen hat AT das da auch ungluecklich geschrieben, hatte ich ja schon erwaehnt.
Trotzdem ist es voellig falsch einfach zu behaupten, Taylor haette irgendwas in Richtung Fury X/980 Ti "ansatzweise bestaetigt". Wenn man anfaengt, seine Aussagen zu interpretieren, kommt man sogar genau beim Gegenteil heraus, aber selbst dann waere es noch dreist das eine "Bestaetigung" zu nennen, wenn das ueberhaupt gar nicht erst zur Debatte stand.

Thunder99

2016-04-28, 16:59:07

Wenn Fury X erreicht werden sollte müsste man ja drastisch die Effizienz und Auslastung der ganzen GCN Architektur verbessern. Nicht unmöglich aber dennoch eher unwahrscheinlich, oder?

Kann denn überhaupt AMD wie nvidia so etwas (siehe Kepler zu Maxwell) in der "kurzen" Zeit?

Der_Korken

2016-04-28, 17:08:06

Wenn Fury X erreicht werden sollte müsste man ja drastisch die Effizienz und Auslastung der ganzen GCN Architektur verbessern. Nicht unmöglich aber dennoch eher unwahrscheinlich, oder?

Kann denn überhaupt AMD wie nvidia so etwas (siehe Kepler zu Maxwell) in der "kurzen" Zeit?

Was heißt "kurze Zeit"? Die erste GCN-Generation ist bis zum Sommer 4,5 Jahre alt. Mal zum Vergleich: Der Zeitraum von GCN 1.0 bis Polaris ist in etwa so lang wie der Zeitraum vom R600 bis zu GCN 1.0. Das Problem ist eher, dass sich mit nachfolgenden GCN-Iterationen fast nichts gebessert hat in Bezug auf Energieeffizienz oder Leistung/SP. Bei letzterem war Fiji sogar ein krasser Rückschritt (bis auf wenige Ausnahmen).

Palpatin

2016-04-28, 17:09:18

Wenn Fury X erreicht werden sollte müsste man ja drastisch die Effizienz und Auslastung der ganzen GCN Architektur verbessern. Nicht unmöglich aber dennoch eher unwahrscheinlich, oder?

Kann denn überhaupt AMD wie nvidia so etwas (siehe Kepler zu Maxwell) in der "kurzen" Zeit?
kurze Zeit? Die GCN Architektur ist 2011 erschienen. Nur von der Anzahl der Shader würde ich hier keine Performance Rückschlüsse ziehen, zumal auch der Takt nicht bekannt ist.
256bit und GDDR 5 sehe ich hier nach wie vor als einzigen Anhaltspunkt. Damit wird man nicht auf Fury X oder 980TI aufschließen können.
Wenn P10 zwischen 980 und 980ti landet zu nem guten Preis hat man alles richtig gemacht.
Landet man zwischen 980 und 970 sehe ich bis Vega schwarz für AMD.

Agent117

2016-04-28, 17:09:38

Zustimmung! Unabhängig von der schlechten Berichterstattung - Polaris 10 mit nur GTX970 bzw. 390 Leistung zu einem Preispunkt von 250€, dies könnte man Taylors Aussage ja durchaus entnehmen, macht doch langfristig keinen Sinn.
Man beerbt ein effizientes gut zu kühlendes Produkt wie die GTX970 mit einen noch effizienteren zum etwas billigeren Preis. Wirkliche Akzente setzen kann man doch nur wenn man die Leistung der vorherigen 500€ Klasse, also Nano, Fury und mind. GTX 980 in das 300€ Segment bringt. Nur GTX 970 Leistung kann ich mir höchstens für Salvage Varianten von Polaris 10 vorstellen, die werden dann vlt auch für 250 verkauft.

Ein mMn realistisches Lineup sähe wie folgt aus:
Fury X 500€
P10XT 350€
P10Pro 275€
(Tonga auf Effizient getrimmt?) 180€
P11XT 140€
P11Pro 120€

Die Fury X kann man noch ggf. noch weiter laufen lassen; eine gewisse Daseinsberechtigung hat sie vlt noch für UHD trotz schlechter Effizienz.

Pappenheimer

2016-04-28, 17:18:40

ist es unrealistisch darauf zu hoffen das im sommer ein karte etwas über der nano mit 8gb vram rauskommt?

ich hoffe darauf und meine gtx 970 fliegt raus.

reaperrr

2016-04-28, 17:25:27

Die Fury X kann man noch ggf. noch weiter laufen lassen; eine gewisse Daseinsberechtigung hat sie vlt noch für UHD trotz schlechter Effizienz.
Wenn es eine kaum langsamere Karten mit besserem Feature-Set, halbem Verbrauch, doppeltem Speicher und 150 $/€ niedrigerem Preis gibt, wird die Fury X kaum noch jemand kaufen.

Lohnt sich nicht, dafür ist Fiji auch einfach zu teuer in der Herstellung.

Edit:
(Tonga auf Effizient getrimmt?) 180€
Tonga ist so groß, dass P10 in der Herstellung nicht viel teurer sein dürfte. Eine "P10LE" wäre unterm Strich sinnvoller, als Tonga weiterlaufen zu lassen.

Sunrise

2016-04-28, 17:38:45

@reaperr:
Jup! Genau das sind die Punkte, AMD wischt frisch durch und bietet endlich mal wieder was aus einem Guss, das für AMD profitabler, besser im Markt positionierbar und günstiger (muss nicht, aufgrund des Marktanteils aber förderlich) angeboten werden kann.

Agent117

2016-04-28, 17:43:45

Wenn es eine kaum langsamere Karten mit besserem Feature-Set, halbem Verbrauch, doppeltem Speicher und 150 $/€ niedrigerem Preis gibt, wird die Fury X kaum noch jemand kaufen.

Lohnt sich nicht, dafür ist Fiji auch einfach zu teuer in der Herstellung.

Edit:

Tonga ist so groß, dass P10 in der Herstellung nicht viel teurer sein dürfte. Eine "P10LE" wäre unterm Strich sinnvoller, als Tonga weiterlaufen zu lassen.
Mit Fiji und den herstellungskosten könntest du Recht haben, der springende Punkt ist da ja, wie hier schon öfters diskutiert, das packing. Über Kosten weiß man aber nichts genaues.

Tonga dürfte aber etwas billiger sein denn man sagt dass die Kosten pro Transistor in 14nm noch etwas höher sind und die Packdichte sich ungefähr verdoppelt.
Die Frage ist ob er auch nur ansatzweise konkurenzfähig ist. Ich könnte mir da höchstens so etwas wie die M295X vorstellen. 2048SP mit 900Mhz a ca. 140W.

Nochmal zu P10: Wenn die 2560SP und 1150Mhz stimmen ist doch schon klar dass er mindestens die 390X erreicht, auch ohne Architekturverbesserungen.
Limitiren könnte höchstens die Speicherbandbreite aber wäre ja schon blöd von AMD wenn die zu sehr limitiert.

Gipsel

2016-04-28, 17:45:55

Von GTX980 zu GP104 GDDR5X sind es aber schon 40% mehr Bandbreite ;)Dafür kann aber die GTX980 40% im Prinzip mehr individuelle Speicheradressen pro Zeiteinheit ansprechen (1,75 GHz statt 1,25 GHz Takt für Adressen und Kommandos; das ist vorbehaltlich der Banklimitierungen und Latenzen, die abhängig von den Zugriffsmustern wirken, also effektiv im Schnitt wohl etwas weniger). :wink:
Will sagen, die Effizienz des Speichersystems könnte etwas sinken. Das hängt allerdings auch stark von Cachesystem und -strategie ab. Bisher ist die L2-Cacheline-Größe bei nV traditionell 32 Byte. Das ist nicht übermäßig sinnvoll, wenn die Zugriffsgranularität mit GDDR5X 64Byte beträgt (statt noch 32Byte mit GDDR5). AMD setzt schon länger überall auf 64Byte Cachelines (L1 und L2, bei nV ist das unterschiedlich), sollte also tendenziell weniger umstellen müssen bzw. hat einen Teil des "Preises" für die höhere Bandbreite von GDDR5X bereits gezahlt.

Dural

2016-04-28, 18:01:04

richtig, aber ich mache mir bei Pascal wegen der Bandbreite keine sorgen. Maxwell geht so extrem gut mit der Bandbreite um, da wird Pascal wohl kaum schlechter sein. Un wer weis, eventuell hat NV ihr cache system ja angepasst.

Gipsel

2016-04-28, 18:30:49

Un wer weis, eventuell hat NV ihr cache system ja angepasst.Das würde ich mal ganz stark vermuten. Allerdings sind 32 Byte-Cachelines im Prinzip etwas effizienter als größere, was die Bandbreitennutzung angeht (für den Preis der etwas aufwendigeren Verwaltung). Bei linearem Zugriff ist das ziemlich egal, aber es sind eben theoretisch auch Situationen denkbar, wo 10 GBps GDDR5X etwas schlechtere Performance zeigt als 7 GBps GDDR5. Im Schnitt natürlich nicht (oder irgendwer hat etwas ganz falsch gemacht), aber die sture Bandbreitenrechnerei ist einen Tick zu einfach. Die kommt im Schnitt nicht komplett an (und wie gesagt bei nV tendentiell einen Tick weniger, weil sie bisher noch mit 32Byte-Cachelines unterwegs waren, AMD aber mit 64Byte-Cachelines). Dies müßte nV mit zusätzlichen Maßnahmen kompensieren, um den bisherigen kleinen Vorteil weiterhin aufrecht zu erhalten. Aber das sind sowieso Dinge, die sich von außen immer schlecht quantifizieren lassen, insbesondere wenn wenig bis keine Interna der Speicher- und Cachecontroller verraten werden (z.B. Mapping der Adressen auf die einzelnen Kanäle bzw. L2-Tiles) und das mit sehr vielen Dingen (z.B. dem Layout der verschiedenen Datenstrukturen im Speicher, dem Mapping von Screentiles zu Rasterizern und ROPs usw.) in Wechselwirkung steht, die man oft ebenfalls nicht wirklich kennt.

Skysnake

2016-04-28, 19:15:45

nVidia arbeitet aber wohl auch nicht durchweg mit 32Byte Cachelines, sondern wohl teils mit 128Byte, oder hat es zumindest. Genaues weiß man da leider nicht. Musste das leider vor kurzem selbst erst schmerzlich erfahren, dass da auch mal wieder viel fud unterwegs ist....

Gipsel

2016-04-28, 19:26:11

nVidia arbeitet aber wohl auch nicht durchweg mit 32Byte Cachelines, sondern wohl teils mit 128Byte, oder hat es zumindest.Ich habe ja geschrieben, daß es bei nV Unterschiede zwischen L1 und L2 gibt. L2 arbeitet (bisher, also vor Pascal) mit 32Byte, der L1 mit 128Byte (angelesen, nicht selbst getestet). Die Idee dahinter dürfte sein, daß eine Speicheroperation aus dem L1 sowieso immer einen ganzen Warp (32 Items) betrifft, die immer jeweils (typischerweise) 32Bit/4Byte fetchen. Keine Ahnung, wie die das bei L1<->L2-Transfers machen, oder ob die L1-Cachelines noch segmentiert sind. Aber zumindest bei Sachen, die nur im L2 stehen bzw. über den L2 unter Umgehung des L1 laufen (Routing von Daten zwischen GPCs?), dürften die kleineren Cachelines ab und zu was bringen.
Aber es stimmt natürlich: sehr viel Genaues weiß man nicht, was die Einschätzung erschwert. Das schrieb ich ja schon.

Leonidas

2016-04-28, 23:01:39

Sehe ich auch so. Mit 2560 Shader ok, sehr hoher Takt und Architekturverbesserung evtl 4000 Pkt möglich, aber mit dem 256 bit SI und normalem DDR5? Never.

Sicher keine Leistung ähnlich 4000 3DMarks in realen Spielen. Aber *nur* unter dem 3DMark13 - welches keine wirkliche Bandbreite abverlangt? Zumindest denkbar.

illidan

2016-04-28, 23:18:18

Gibt es ein Indiz dafür, dass Firestrike Ultra weniger Bandbreite als Spiele benötigt?

Btw. killt GM204 GK110 bei Compute und hat rein rechnerisch nur einen Bruchteil der Bandbreite (läuft auch nur mit 3Ghz effektivem Speichertakt bei Cuda).

maximus_hertus

2016-04-29, 00:16:37

Na ja, eine GTX 980 mit 256 Bit GDDR5 liegt ja auf Niveau der 390X. Sprich mit der entsprechenden Effizienz ist da was im Bereich der Fury Pro / Nano möglich, bzw. ein Durchschnittsperformancewert zwischen 390X und Fury drin, mit Ausreißern nach oben und unten.

Ja, nV ist nicht AMD bzw. umgekehrt, aber auch mit "nur" GDDR5 kann man einiges erreichen. Ist ja nicht mehr so lange hin, dann haben wir es schwarz auf weiß, was mit Polaris geht :)

Palpatin

2016-04-29, 09:17:26

Gibt es ein Indiz dafür, dass Firestrike Ultra weniger Bandbreite als Spiele benötigt?

Es gibt Spiele die noch weniger an der Bandbreite hängen wie Firestrike Ultra, es gibt aber auch Spiele die deutlich stärker an der Bandbreite hängen. Kann man recht einfach mit akutellen Karten prüfen in dem man die Taktraten anpasst.
Bei meiner 980GTX bringen 13% mehr Bandbreite 3% mehr Leistung im Firestrike und 10% mehr Leistung beim Witcher 3.

dargo

2016-04-29, 09:37:59

Mal ne kurze Frage... unter welchem Preset sollen angeblich diese 4.000 Punkte mit Polaris 10 im 3DMark erreicht worden sein?

HOT

2016-04-29, 09:57:11

Wenn AMD zusätzlich kein HBM einsetzt für Polaris, setzen sie wohl GDDR5X ein, ist doch ganz einfach. Eines hat AMD in seiner jüngeren Geschichte niemals getan: An der Bandbreite gespart, warum sollten sie jetzt damit Anfangen? Das ist Unsinn.
Und klar ist auch: Fiji ist ebenso im Abverkauf wie die 300-Serie. Es gibt FuryX für unter 600€ mittlerweile. Also kommt auch ein Polaris-Ersatz dafür. NV wird da etwas mehr Luft nach oben haben mit GP104 aber so weltbewegend wird das nicht sein. Ich würde eher sagen, dass sich gar nicht so viel am Status Quo ändert.
Und ein Vega mit 4K Shadern und deutlich besserer Auslastung durch Threading und Culling ist leistungstechnisch sicherlich mit Fiji nur schwerlich vergleichbar, zumal auch die Takte der XT deutlich höher liegen sollte. Das wird sicherlich ein sehr harter Konkurrent für GP104 (wenn man das überhaupt so sehen kann). Die peilen einfach unterschiedliche Märkte an mit ihren Chips. Da AMD offensichtlich auf Packdichte setzt (wahrscheinlich 35m statt 25m Transistoren pro mm²) haben sie nach oben hin einfach mehr Spielraum. Wie die Leistung dann letztendlich aussieht steht natürlich auf einem anderen Blatt, weil da viele Faktoren eine Rolle spielen. Und die Taktbarkeit wird natürlich leiden. Die Pascal schaffen OC-mäßig sicherlich die 2GHz, während die Polaris/Vega sicherlich ab 1,5GHz einfach dicht machen.

iuno

2016-04-29, 10:23:36

Mal ne kurze Frage... unter welchem Preset sollen angeblich diese 4.000 Punkte mit Polaris 10 im 3DMark erreicht worden sein?
Da gibt es keine Infos, 4k wurden aber ohnehin nicht erreicht sondern "etwas weniger"...
Eines hat AMD in seiner jüngeren Geschichte niemals getan: An der Bandbreite gespart, warum sollten sie jetzt damit Anfangen? Das ist Unsinn.
Und was ist mit Tonga? Hat ggue. Tahiti deutlich an Bandbreite abgebaut und deshalb alles andere als eindeutig besser.
Es sah immer nach massig Bandbreite aus, weil die Chips gegenueber der Konkurrenz nicht so performten, wie sie eigentlich sollten, rein von der Rohleistung her. AMD musste immer eine Klasse (FLOPs und Bandbreite) hoeher gegen Nvidia stellen. Gerade das soll sich ja mit Polaris aendern.

Ich finde ich es auch mehr als gewagt, einfach mal 1,5 GHz fuer Polaris/Vega anzunehmen, wenn es absolut keine Hinweise auf deren Taktbarkeit gibt. Bei NV ist das was anderes, weil der Trend mit Maxwell begonnen hat und sich bei der P100 Praesentation bestaetigt hat. Einen Trend zu hoeheren Frequenzen gab es bei den neueren 28 nm Chips bei AMD nicht und eine derartige Steigerung um einfach mal 50%(!) ist hoechst fragwuerdig

HOT

2016-04-29, 10:25:20

Tonga hat ein 384Bit Interface und ein ensprechendes Package (ist ja gedreht verbaut wie Tahiti aufgrund des Interfaces). Nur das PCB schränkt das Speicherinterface ein. Tonga ist also kein Beispiel dafür.
Ich nehm das so an, weil das in der Vergangenheit ähnlich war. Wenn Pascal Maxwell-DNA hat und Polaris GCN-DNA ist es doch ziemlich wahrscheinlich, dass die wieder unterschiedliche Maximaltakte machen. Und beim Prozess wird schon deutlich mehr drin sein, weil die Streuung ggü. 28nm deutlich geringer sein soll und lt. AMDs Aussage grade im Maximum weniger Strom verbraucht werden soll. Es sind keine 50%, da die 28nm-Chips im Mittel schon über 1000MHz takten. 40% halte ich aufgrund der Veränderungen durchaus für machbar. Bei NV ist das ja dann auch nicht weniger. Ich nehme diesbezüglich auch an, dass die Taktraten für die Salvage-Versionen eher konservativ sein werden und für die XTs dafür bis zum Maximum reichen. Die Pro-Vatianten bedienen die Effizienz, die XT die Performance. P10 Pro nur 125W bei sagen wir 1150MHz, P10 XT dann 175W bei 1,4GHz. In der Vergangenheit sind zudem die Taktraten im Mittel immer mit angestiegen und so ein großer Sprung wie von 28nm auf 14FF ist sicher nicht zu unterschätzen.
Ist bei NVidia ja auch so. Wie reden von GM200-Leistung+ (einem 600mm²-Chip mit durchschnittlich 1300MHz) auf einen 300mm²-Chip mit ca. durchschnittlich 1600MHz bei 1/3 niedrigerer TDP. Warum soll das bei AMD anders sein? Diese Doppelmoral in diesem Forum ist echt absurd.

iuno

2016-04-29, 10:28:49

Und? Ist voellig egal. AMD hat es durchgaengig beschnitten, damit ist die Aussage AMD habe nie an der Bandbreite gespart wiederlegt.

Unterschiedliche Maximaltakte, voellig klar, darum ging es aber nicht. Es ging darum, absolut fuer AMD einfach mal 1,5 GHz anzunehmen, obwohl es keinerlei Hinweise darauf gibt. Fertigung hin oder her, da liegt sehr vieles an der Architektur.
Wuerde es konkrete Hinweise geben, dass Polaris locker auf 1,5 GHz kommt, braeuchten wir gar nicht zu diskutieren, ob P10 bei 290 oder 390X+x% raus kommt, dann waere voellig klar, dass er an Fiji rankommt. Dem ist aber nicht so.

Ailuros

2016-04-29, 10:36:39

Wenn man eine Architektur fuer N Frequenz anlegt, dann wird das finale Produkt schwer sehenswerte Abweichungen von N haben.

HOT

2016-04-29, 10:42:22

Wenn man eine Architektur fuer N Frequenz anlegt, dann wird das finale Produkt schwer sehenswerte Abweichungen von N haben.
Hat man beim K8 und K10 gesehen, so ein Schwachsinn...
Und? Ist voellig egal. AMD hat es durchgaengig beschnitten, damit ist die Aussage AMD habe nie an der Bandbreite gespart wiederlegt.

Nein. Der Chip wurde so designt, das ist alles was zählt. Dass er so auf den Markt kam wie er ist ist doch unerheblich. Designt wurde er mit 384Bit, fertig. Der Rest ist einfach Rotstift. Das macht man nicht im Chipdesign, die Entscheidung ist später getroffen worden.

Unterschiedliche Maximaltakte, voellig klar, darum ging es aber nicht. Es ging darum, absolut fuer AMD einfach mal 1,5 GHz anzunehmen, obwohl es keinerlei Hinweise darauf gibt. Fertigung hin oder her, da liegt sehr vieles an der Architektur.
Wuerde es konkrete Hinweise geben, dass Polaris locker auf 1,5 GHz kommt, braeuchten wir gar nicht zu diskutieren, ob P10 bei 290 oder 390X+x% raus kommt, dann waere voellig klar, dass er an Fiji rankommt. Dem ist aber nicht so.
Jup, weil keine andere Möglichkeit bleibt als diese, denn es ist sonnenklar, dass Fiji mit ersetzt wird. Das geht sowohl aus deren Folie hervor als auch aus dem Abverkauf. Man kann nur noch darüber diskutieren, wie sie es gelöst haben bei Polaris.
Und das AMD das als Mainstream sieht spricht eher für Vega als gegen Polaris. AMD wertet damit NVs Positionierung des GP104 ab, das ist Marketingziel.

Leonidas

2016-04-29, 10:46:15

Mal ne kurze Frage... unter welchem Preset sollen angeblich diese 4.000 Punkte mit Polaris 10 im 3DMark erreicht worden sein?

3DMark 13 - FireStrike - Ultra

Ailuros

2016-04-29, 10:47:00

Hat man beim K8 und K10 gesehen, so ein Schwachsinn...

CPUs und GPUs haben nur in Deinem Hirn wohl etwas gemeinsam. Wenn eine GPU fuer 1GHz entwickelt wurde dann kann man sie eben nicht auf 1.5GHz takten ohne dass die Hitze bzw. Stromverbrauch durch die Decke haut.

dargo

2016-04-29, 10:47:10

Da gibt es keine Infos, 4k wurden aber ohnehin nicht erreicht sondern "etwas weniger"...

Das mit dem etwas weniger ist mir schon klar. Aber bezüglich Preset weiß man echt nicht was genommen wurde?

Mit meiner R9 390 erreiche ich in Extreme 4956 und in Ultra 2677 Punkte mit einem Hassi 4C/8T @3,7Ghz. Wenn diese knapp 4000 Punkte vom P10 sich auf Extreme beziehen wäre das echt hart. :freak: Wobei ich die Aussagekraft vom 3DMark eh in Frage stelle. Schließlich gibt es dort einmal den Physiktest der komplett auf die CPU geht und einmal den kombinierten Test mit Grafik und Physik. Je nachdem welche Gewichtung diese Tests auf die gesamte Punktzahl haben kann man den 3DMark wohl vergessen.

3DMark 13 - FireStrike - Ultra
Ja was denn nun? Der eine so, der andere so. :usweet:

Palpatin

2016-04-29, 11:00:44

Das mit dem etwas weniger ist mir schon klar. Aber bezüglich Preset weiß man echt nicht was genommen wurde?

Mit meiner R9 390 erreiche ich in Extreme 4956 und in Ultra 2677 Punkte mit einem Hassi 4C/8T @3,7Ghz. Wenn diese knapp 4000 Punkte vom P10 sich auf Extreme beziehen wäre das echt hart. :freak: Wobei ich die Aussagekraft vom 3DMark eh in Frage stelle. Schließlich gibt es dort einmal den Physiktest der komplett auf die CPU geht und einmal den kombinierten Test mit Grafik und Physik. Je nachdem welche Gewichtung diese Tests auf die gesamte Punktzahl haben kann man den 3DMark wohl vergessen.

Ja was denn nun? Der eine so, der andere so. :usweet:

Es geht um das Ultra Preset, deswegen auch der ganze Hype jetzt. Falls das Stimmt wäre der Hype allerdings auch berechtigt. Damit würde man mit P10 sehr nah an der 980ti landen.

iuno

2016-04-29, 11:01:54

Mein Fehler, Ultra stimmt natuerlich :redface:

Nein. Der Chip wurde so designt, das ist alles was zählt. Dass er so auf den Markt kam wie er ist ist doch unerheblich. Designt wurde er mit 384Bit, fertig. Der Rest ist einfach Rotstift. Das macht man nicht im Chipdesign, die Entscheidung ist später getroffen worden.
Ja, Jahre vorher hat man das noch so designt. Die Entscheidung, nur 256 Bit aufzumachen, wurde aber nicht von einem Marketing-Typen ohne technische Ahnung getroffen. Das geschah auch voellig bewusst und kann natuerlich problemlos auch Einfluss auf kommende Produkte haben.

dargo

2016-04-29, 11:06:12

Es geht um das Ultra Preset, deswegen auch der ganze Hype jetzt. Falls das Stimmt wäre der Hype allerdings auch berechtigt. Damit würde man mit P10 sehr nah an der 980ti landen.
Ok... dann sieht die Sache wieder ganz anders aus. Mit dauerhaften 1020Mhz an meiner R9 390 erreiche ich 2726 Punkte @Ultra-Preset. Mal angenommen P10 würde 3900 Punkte erreichen wären es +43%, mit 3800 Punkten +39%. Das wäre schon ganz ordentlich für die kleine GPU. Weiß man schon welche CPU verwendet wurde? Ich weiß immer noch nicht wie groß der Einfluss der CPU auf das Gesamtergebnis ist. Und beziehen sich diese <4000 Punkte eigentlich auf den vollen P10 oder Salvage?

Palpatin

2016-04-29, 11:16:41

Ok... dann sieht die Sache wieder ganz anders aus. Mit dauerhaften 1020Mhz an meiner R9 390 erreiche ich 2726 Punkte @Ultra-Preset. Mal angenommen P10 würde 3900 Punkte erreichen wären es +43%, mit 3800 Punkten +39%. Das wäre schon ganz ordentlich für die kleine GPU. Weiß man schon welche CPU verwendet wurde? Ich weiß immer noch nicht wie groß der Einfluss der CPU auf das Gesamtergebnis ist. Und beziehen sich diese <4000 Punkte eigentlich auf den vollen P10 oder Salvage?
CPU wird da keinen großen Einfluß haben, mit meinem alten Sandy und ner OCed 980@1,5 komme ich da auf ~3500.

iuno

2016-04-29, 11:25:41

Geht ja hierbei auch um den graphics score, hoffe ich?! Da sollte die CPU nicht allzu viel Einfluss haben.
edit: oder auch nicht, sonst passen die Werte ueberhaupt nicht: http://www.3dmark.com/hall-of-fame-2/fire+strike+3dmark+score+ultra+preset/version+1.1/1+gpu
980 Ti/Furies kommen mit durchaus "normalen" Taktraten beim graphics score weit ueber die 5k bis zu >7k fuer die extrem-OC, overall bleibt es jedoch deutlich unter 4k...
Vielleicht hat auch nur jemand WCCF "4k Firestrike Ultra" gesteckt und meinte damit den graphics score, dann waere das ganze schon nicht mehr so schoen ;D

dargo

2016-04-29, 11:31:46

Vielleicht hat auch nur jemand WCCF "4k Firestrike Ultra" gesteckt und meinte damit den graphics score, dann waere das ganze schon nicht mehr so schoen ;D
Das wäre dann echt... :ubash:

Hübie

2016-04-29, 11:57:38

Hö? Wo gabs denn 3D-Quark-Pünktchen von Polaris? Hab ich den Link übersehen?

Edit: Zum Vergleich, i7 3930k, GTX 980 Ti:

3DMark Score 5020
Graphics Score 4969 (Graphics Test 1: 27.77 fps; Graphics Test 2: 17.68 fps)
Physics Score 14707 (Physics Test 46.69 fps)
Combined Score 2627 (Combined Test 12.22 fps)

Botcruscher

2016-04-29, 12:00:22

Geistern mit ~3700 durchs Netz und wurden dann zu near 4000 aufgebläht.

HOT

2016-04-29, 12:00:53

CPUs und GPUs haben nur in Deinem Hirn wohl etwas gemeinsam. Wenn eine GPU fuer 1GHz entwickelt wurde dann kann man sie eben nicht auf 1.5GHz takten ohne dass die Hitze bzw. Stromverbrauch durch die Decke haut.
Wenn ein Chip für FinFETs neu designt wird, kann auch der Takt ein anderer sein. Die Architektur wird das nicht grundsätzlich limitieren - dann würd ja kein Chip über 1GHz schaffen, es gibt aber Pitcairns die schaffen 1,3. Entscheidend ist vielmehr die extreme Packdichte von 15Mio Transistoren/mm². Deshalb wird nach oben hin der Spannungsbedarf und die Stromaufnahme unberechenbar.
Ich habe K8 und K10 deshalb ausgewählt, weil das dort auch dauernd behauptet wurde, dass die Architektur das limitieren würde. Und das war ebenfalls Unsinn. Sicherlich hat die Architektur einen Einfluss auf die Taktbarkeit, aber auf den Maximaltakt? Wie will man das denn einschätzen. Wir kennen GCN bisland nur in 28nm HP TSMC.

[...]
Ja, Jahre vorher hat man das noch so designt. Die Entscheidung, nur 256 Bit aufzumachen, wurde aber nicht von einem Marketing-Typen ohne technische Ahnung getroffen. Das geschah auch voellig bewusst und kann natuerlich problemlos auch Einfluss auf kommende Produkte haben.
Man hat den Chip mit 384Bit designt, oder willst du das auch in Frage stellen? Denn darum gehts. Dass man ihn später im Markt anders positioniert als ursprünglich gedacht ist doch unerheblich. Aufgrund Maxwell muss er halt billiger sein als gedacht. Man designt keinen Chip, von dem man von Anfang an weiss, dass die Bandbreite nicht reicht.
Und man siehts ja auch. Tonga bleibt oft hinter Tahiti zurück, also reicht die Bandbreite tatsächlich nicht. Erst recht mit dieser Erkenntnis designt man Polaris garantiert nicht zu knapp. Das ist ne vollkommen absurde Annahme.

Hübie

2016-04-29, 12:02:00

Geistern mit ~3700 durchs Netz und wurden dann zu near 4000 aufgebläht.

Wo?

dargo

2016-04-29, 12:02:04

The Polaris 10 GPU is said to have 3DMark Firestrike Ultra performance around 4000 points which is about what a Radeon R9 Fury X and GeForce GTX 980 Ti score. By 4000 points, we don’t mean exactly 4000 but it’s actually a bit less than that.
http://wccftech.com/amd-polaris-10-desktop-polaris-11-notebook-gpu/

iuno

2016-04-29, 12:03:24

Geistern mit ~3700 durchs Netz und wurden dann zu near 4000 aufgebläht.
Wo?
Originalquelle wuerde mich auch mal interessieren, ich kenne da nichts ausser wccf und die haben nur <4k genannt

Schnoesel

2016-04-29, 12:17:34

Edit: Zum Vergleich, i7 3930k, GTX 980 Ti:

Zum Vergleich? was soll man vergleichen? Wir wissen weder deine Taktraten noch das Testsystem von Polaris geschweige denn überhaupt etwas über die Karte die angeblich gebencht wurde. Hier gibt es nichts zu vergleichen!

Ailuros

2016-04-29, 12:28:43

Wenn ein Chip für FinFETs neu designt wird, kann auch der Takt ein anderer sein.

Wenn er wirklich fuer hoehere Frequenzen entwickelt wurde ja; der Punkt war und ist dass wenn ein IHV fuer N Frequenzen entwickelt hat man sich eigentlich nur im unmittelbarem Bereich von "N" bewegen kann ohne den Verbrauch sehenswert zu beinflussen.

Fuer Polaris gibt es keine Indizien fuer extravagante Frequenzen; wozu auch?

mboeller

2016-04-29, 12:31:22

Ok... dann sieht die Sache wieder ganz anders aus. Mit dauerhaften 1020Mhz an meiner R9 390 erreiche ich 2726 Punkte @Ultra-Preset. Mal angenommen P10 würde 3900 Punkte erreichen wären es +43%, mit 3800 Punkten +39%. Das wäre schon ganz ordentlich für die kleine GPU. Weiß man schon welche CPU verwendet wurde? Ich weiß immer noch nicht wie groß der Einfluss der CPU auf das Gesamtergebnis ist. Und beziehen sich diese <4000 Punkte eigentlich auf den vollen P10 oder Salvage?

Immer schön die Füße still halten. :)

Das hier ist die Meldung:
http://wccftech.com/amd-polaris-10-desktop-polaris-11-notebook-gpu/

mehr ist, soweit ich weiß nicht bekannt und die "Qualität" der Webseite ist naja... zweifelhaft ... und aus dem kurzen Satz am Ende der Meldung wurden jetzt schon 3-4 oder gar mehr Seiten Diskussion gequetscht. ;D :freak:

dargo

2016-04-29, 12:34:07

Edit: Zum Vergleich, i7 3930k, GTX 980 Ti:

3DMark Score 5020
Graphics Score 4969 (Graphics Test 127.77 fps; Graphics Test 217.68 fps)
Physics Score 14707 (Physics Test 46.69 fps)
Combined Score 2627 (Combined Test 12.22 fps)

Ich glaube du hast dich beim Komma in den Graphics Tests vertan. ;)

Hübie

2016-04-29, 12:39:02

Zum Vergleich? was soll man vergleichen? Wir wissen weder deine Taktraten noch das Testsystem von Polaris geschweige denn überhaupt etwas über die Karte die angeblich gebencht wurde. Hier gibt es nichts zu vergleichen!

Was bekommst du so ein Dünnpfiff, man? Ich kann nix mit Punkten anfangen und wem es auch so geht hat hier einen Anhaltspunkt. Halt doch mal die Luft an. :rolleyes:

@dargo: was meinst du? :confused:

Edit: Ach. Ja copy-paste Fehler. Irgendwie wurde das zusammengerückt. Graphics Test 1 27 fps wurde zu graphics test 127 fps ^^

dargo

2016-04-29, 12:42:17

Ich glaube kaum, dass du in 4k bei Graphics 127fps und 217fps erreichst wenn ich dort 14fps und 10fps habe. ;)

Hübie

2016-04-29, 12:43:35

Siehe mein Edit :D

dargo

2016-04-29, 12:45:11

Jo... jetzt kommt das eher hin. :)

Zum Vergleich? was soll man vergleichen? Wir wissen weder deine Taktraten noch das Testsystem von Polaris geschweige denn überhaupt etwas über die Karte die angeblich gebencht wurde. Hier gibt es nichts zu vergleichen!
Öhm... viele Member haben da unter dem Avatarbild so ein Computersymbol. Der ist nicht umsonst da. ;) Seine 980TI taktet mit 1,4Ghz. Wenn ich sein Ergebnis auf eine Default 980TI runterrechne kommt das mit den ~4000 Punkten hin.

Hübie

2016-04-29, 12:47:19

Das wäre doch ein Traum. So eine Grafik bei der Ausgabe... :naughty: Unsere Kinder werden das erleben. Wir nur mit Brille und wackeligen Händen.

Sunrise

2016-04-29, 12:58:24

Sagen wir mal Polaris 10 XT kommt bei 1150MHz auf 4000 Punkte (Treiberarbeit wird es richten). Sollte das bei nur 130W TDP möglich sein wäre das ja geradezu sensationell. Wohl eher 175W TDP (die einer nano), oder?

Wenn der Preis stimmt aber sicher eine super Karte. Da sollte AMD jetzt schnellstmöglich die Lager der alten "Gurken" leeren und verkaufen was das Zeug hält.

dildo4u

2016-04-29, 13:03:20

Das mit dem etwas weniger ist mir schon klar. Aber bezüglich Preset weiß man echt nicht was genommen wurde?

Mit meiner R9 390 erreiche ich in Extreme 4956 und in Ultra 2677 Punkte mit einem Hassi 4C/8T @3,7Ghz. Wenn diese knapp 4000 Punkte vom P10 sich auf Extreme beziehen wäre das echt hart. :freak: Wobei ich die Aussagekraft vom 3DMark eh in Frage stelle. Schließlich gibt es dort einmal den Physiktest der komplett auf die CPU geht und einmal den kombinierten Test mit Grafik und Physik. Je nachdem welche Gewichtung diese Tests auf die gesamte Punktzahl haben kann man den 3DMark wohl vergessen.

Ja was denn nun? Der eine so, der andere so. :usweet:
Hätte gedacht die 390 würde meine 970 zersägen in 4k hab mich echt gewundert.

http://abload.de/img/3dmarkw9obo.png

dargo

2016-04-29, 13:16:19

Warum sollte die das beim uralten DX11?

dildo4u

2016-04-29, 13:21:35

4k sollte AMD's Treiber Schwäche glattbügeln.Und es gibt durchaus auch DX11 Games wo die 390 deutlich davon zieht.Z.b Farcry Primal,The Division und Star Wars: Battlefront.

Palpatin

2016-04-29, 13:24:19

Die 970 bricht hier erst bei 5k ein: http://www.3dcenter.org/news/erste-3dmark-werte-zu-radeon-r9-390x-fury-fury-x-aufgetaucht
In 8k ist die 390x dann sogar 200% vor der 980ti :eek:.

dildo4u

2016-04-29, 13:29:03

Die Fury X Werte scheinen nich zu stimmen.

Hier sind's 4000 glatt.
http://www.guru3d.com/articles-pages/amd-radeon-r9-fury-x-review,25.html

dargo

2016-04-29, 15:59:54

4k sollte AMD's Treiber Schwäche glattbügeln.Und es gibt durchaus auch DX11 Games wo die 390 deutlich davon zieht.Z.b Farcry Primal,The Division und Star Wars: Battlefront.
3DMark ist von 2013. :uconf3: Zudem... wo wird die Engine für aktuelle Konsolen verwendet?

Hübie

2016-04-29, 16:26:18

Ich finde es auch immer lächerlich wenn so einem leaker was zwischen die Finger kommt und dem Idioten nix anderes einfällt als 3D Quark zu starten. :rolleyes:

Thunder99

2016-04-29, 16:35:49

Der beste Stoff damit die Leute was zum labern und diskutieren haben :freak:

Es bleibt spannend bis zum nächsten Leak :D

fondness

2016-04-29, 16:59:39

Mal wieder etwas Futter:
http://videocardz.com/59468/amd-polaris-10-and-11-opengl-benchmarks-spotted
http://videocardz.com/59465/amd-radeon-r9-m480-based-on-polaris-11-gpu

Hübie

2016-04-29, 17:05:14

Einzig verwertbar sind TMU- und ALU-Durchsatz. Beides sieht nicht sehr rosig aus. :freak:

iuno

2016-04-29, 17:09:46

Die benches taugen natürlich nichts.
Die zweite news ist aber weitaus interessanter. Wenn das stimmt und 1000/1250 wirklich die finalen Taktraten sind deutet das schon darauf hin, dass die neuen chips viel effizienter mit der Bandbreite umgehen

uweskw

2016-04-29, 17:29:48

Die benches taugen natürlich nichts.
Die zweite news ist aber weitaus interessanter. Wenn das stimmt und 1000/1250 wirklich die finalen Taktraten sind deutet das schon darauf hin, dass die neuen chips viel effizienter mit der Bandbreite umgehen

1000MHz GPU-Takt bei 14nm FF bei der M480? Genau wie bei der M380. 1000MHz unter 14nm hätte ich eher bei dem kleineren Modell erwartet.
Klingt für mich eher als könnten die nicht wirklich hoch gehen mit dem Takt. Aus welchem Grund auch immer.

greetz
US

Botcruscher

2016-04-29, 17:59:33

Das ist die mobilversion.

N0Thing

2016-04-29, 18:19:35

Ich finde es auch immer lächerlich wenn so einem leaker was zwischen die Finger kommt und dem Idioten nix anderes einfällt als 3D Quark zu starten. :rolleyes:

So verkehrt ist das nicht. Der 3D Mark ist totoptimiert, man weiß genau wie die einzelnen Karten darauf reagieren, es wurde schon jede Karte damit getestet und man kann von dort aus auf andere Anwendungen schließen. Hat bei der letzten Generation zumindest ganz gut funktioniert.

Definitiv nicht schlechter, als einzelne Spiele zu nehmen, die mal der einen, mal der anderen Architektur besser liegen.

Hübie

2016-04-29, 18:43:47

Die Abweichungen im Einzelrating vom 3DMark ist signifikant zur Abweichung mehrerer Spiele (am besten savegame Tests bewerten, da ingame Benchmarks oft zu kurz oder nicht worst case wiederspiegeln).
Und gerade weil es totoptimiert wurde ist es quatsch.

Sunrise

2016-04-29, 18:56:55

1000MHz GPU-Takt bei 14nm FF bei der M480? Genau wie bei der M380. 1000MHz unter 14nm hätte ich eher bei dem kleineren Modell erwartet.
Klingt für mich eher als könnten die nicht wirklich hoch gehen mit dem Takt. Aus welchem Grund auch immer.

greetz
US
Ganz nah dran... Da steht ja auch M im Namen, Tonga hatte bei Apple im iMac soweit ich weiß um die 855MHz, das war sehr konservativ, damit man die 175W TDP nicht sprengt.

Wenn deine Designentscheidung ist, alles auf maximale Effizienz (bzw. Perf/W) zu setzen, dann willst und darfst du nur so hoch mit dem Takt, dass du die am Ende nicht durch Spannungen außerhalb des Sweet-Spots gegen die Wand fährst.

Ailuros hat es schon paarmal erwähnt, es ist eben so dass bei Ziel N-Frequenz und N-TDP (gilt für alles, auch GCN) wohl stärkere Limits sind, ansonsten geht die Verbrauchskurve steil nach oben.

Es wäre dennoch! sensationell gut, wenn AMD manchmal 980 Ti / Fury nano erreicht, bei maximaler Effizienz. Da kann dann jeder mit dem Chip und einem dafür optimierten PCB treiben (evtl. 3rd party Designs mit deutlich mehr Spielraum) wie die AIBs lustig sind. Ich würde selbst dann aber maximal etwa 20% on top erwarten. Mehr ist einfach unrealistisch, wenn man sich GCN anschaut.

fondness

2016-04-29, 19:11:29

Da steht ja auch M im Namen, Tonga hatte bei Apple im iMac soweit ich weiß um die 855MHz, das war sehr konservativ, damit man die 175W TDP nicht sprengt.

Tonga XT im iMac hat 100W TDP. Mehr wäre für eine M-Variante auch nicht vertretbar.

Unicous

2016-04-29, 19:23:23

Weder liegt die TDP bei 175W noch liegt sie bei 100W. Es wird angenommen, dass es 120-130W sind, offizielle Angaben gibt es nicht.

Sunrise

2016-04-29, 19:42:20

Tonga XT im iMac hat 100W TDP. Mehr wäre für eine M-Variante auch nicht vertretbar.
Was vertretbar ist hängt von der Apple-Kühllösung ab. Der iMac ist kein Mobilgerät, Strom ist zur Genüge vorhanden.

@Unicous:
Danke für die Korrektur.

Hübie

2016-04-29, 19:59:49

Weder liegt die TDP bei 175W noch liegt sie bei 100W. Es wird angenommen, dass es 120-130W sind, offizielle Angaben gibt es nicht.

This! Und soweit ich mich erinnere ist der Takt auch stets über 900 MHz.

Screemer

2016-04-29, 21:57:39

This! Und soweit ich mich erinnere ist der Takt auch stets über 900 MHz.
855mhz wie schon erwähnt wurde für die alte m295x (imac 5k 2014) und 909mhz für die neue m395x (iMac 5k late 2015).

N0Thing

2016-04-29, 22:44:52

Die Abweichungen im Einzelrating vom 3DMark ist signifikant zur Abweichung mehrerer Spiele (am besten savegame Tests bewerten, da ingame Benchmarks oft zu kurz oder nicht worst case wiederspiegeln).
Und gerade weil es totoptimiert wurde ist es quatsch.

Und warum ist es quatsch? :confused:
Der Benchmarks ist reproduzierbar, was sehr praktisch ist, wenn man nur das Ergebnis serviert bekommt und man braucht keinen Wundertreiber zu erwarten, der die Ergebnisse merklich verändert. Da sehe ich einen größeren Nutzen drin, als Angaben zu fps von einer unbekannten Savegamestelle.
Natürlich wären umfassende Benchmarks mit Savegames, Frameverläufen, usw. super, aber zum einen wollen wir ja nicht, dass unsere liebgewonnenen Redakteure arbeitslos werden und zum anderen ist das bei einem leak aus Asien auch nicht wirklich zu erwarten, oder? :D

Ist ja eh die Frage, ob die gemeldeten 3dMark-Ergebnisse echt sind.

Skysnake

2016-04-30, 09:22:56

Ich habe ja geschrieben, daß es bei nV Unterschiede zwischen L1 und L2 gibt. L2 arbeitet (bisher, also vor Pascal) mit 32Byte, der L1 mit 128Byte (angelesen, nicht selbst getestet). Die Idee dahinter dürfte sein, daß eine Speicheroperation aus dem L1 sowieso immer einen ganzen Warp (32 Items) betrifft, die immer jeweils (typischerweise) 32Bit/4Byte fetchen. Keine Ahnung, wie die das bei L1<->L2-Transfers machen, oder ob die L1-Cachelines noch segmentiert sind. Aber zumindest bei Sachen, die nur im L2 stehen bzw. über den L2 unter Umgehung des L1 laufen (Routing von Daten zwischen GPCs?), dürften die kleineren Cachelines ab und zu was bringen.
Aber es stimmt natürlich: sehr viel Genaues weiß man nicht, was die Einschätzung erschwert. Das schrieb ich ja schon.
Ja, da gibt es leider wirklich etwas widersprüchliche Infos.

Ich hatte in letzter Zeit auf der Arbeit mir das mal etwas genauer Angeschaut.

Es scheint so zu sein, das man mit 128Byte alginten Zugriffen die Beste Performanec rausbekommt, mit 32Byte dann aber nur einen geringen Performance hit bekommt. Es scheint also so zu sein, das man an sich 32Byte Cachelines hat, bei denen man aber bezüglich Latenz/Durchsatz noch etwas raus holen kann, wenn man es mit 128Byte alignment nutzt.

Es gibt da von nVidia auch eine Presentation, wo gezeigt wird, das man mit Floats z.B. gar nicht den maximalen Durchsatz für den Speicher erreichen kann, egal wie viele Threads man nutzt :freak:

Das ganze Memory-System ist da schon etwas komisch in meinen Augen. Den vollen Durchsatz bekommt man wohl nur wenn man 128Bit Datentypen verwendet :freak:

Kriton

2016-04-30, 16:15:04

Was vertretbar ist hängt von der Apple-Kühllösung ab. Der iMac ist kein Mobilgerät, Strom ist zur Genüge vorhanden.

Bei Apple geht es sicherlich eher um Kühlung.

Nakai

2016-05-01, 00:15:58

Weil es woanders auch schon angesprochen/angedeutet wurde:

Polaris ist eher eine GCN-Evolution in 14LPP und wird keine starken Verbesserungen am GCN-Core also den CUs haben. Der Treiber ist ziemlich eindeutig diesbezüglich. Die CUs werden hauptsächlich auf Stromsparfeatures optimiert. P10 wird ein richtiger Pitcairn-Nachfolger werden und ich würde P10 etwa auf Hawaii+~10% einordnen. Fiji und Tonga werden diesbezüglich völlig uninteressant werden.

Was wird nun Vega? Vega wird eine völlig neue Mikroarchitektur werden. GCN wird dann Geschichte sein. Es gibt einige Papers, welche die Nachfolge-Architektur gut auslegen. Und damit meine ich nicht nur das Patent, aber ich denke dahin wird die Richtung gehen. Ergo sehen wir zwei Vegas. V10 und V11.
Ich glaube V11 wird versuchen in GP104-Konkurrenz zu treten. Und V10 eben ein GP100/2-Konkurrent. Ich würde das nicht mehr als GCN abtun. Das wird eine neue Architektur. Man könnte eher sagen, dass Polaris eine GCN-Architektur auf Finfet ist, weil man eben im Semicustom parallelen Nutzen ziehen kann. Und was war Greenland?
Greenland wurde definitiv gecancelt und wäre wohl P9 geworden. Das ist aber hinfällig, weil Polaris einfach eine Umbenennung ist, ergo egal.
Es ist gut möglich, dass Fiji indirekt aus der Not entstanden ist, irgendwas im Highend zu haben. Wie dem auch sei, Greenland wird weg sein, womöglich aus Gründen, dass Vega deutlich näher ist als erwartet. Ich würde alles, was auf Linkedin bzgl einem 4096 SPs Chip mit einer Tonne Salz nehmen. Evtl wird Vega11 ein 4096 SP Chip. Und Vega10 dann mit ~5000 SPs daherkommen. Wenn Vega tiefergehende Änderungen hat, würde ich mit anderen Konstellationen rechnen.

Locuza

2016-05-01, 07:48:08

Der Greeland/Vega Teil mit der neuen Architektur liest sich für mich sehr unrealistisch, aber fangen wir zuerst mit Polaris an:

Mike Mantor (Corporate Fellow, Graphics Architect) von AMD:
"We looked at things like increasing the instruction buffer sizes, to get better single-thread-performance"
https://youtu.be/5g3eQejGJ_A?t=54s

AMD gibt auf dieser Folie 4 Stichwörter für GCN Gen 4 an:
http://cdn.wccftech.com/wp-content/uploads/2016/01/AMD-Polaris-5.jpg

- Primitive Discard Accelerator (Geometry-Engines)
- Hardware Scheduler (Da bin ich ratlos, bei den CUs kümmert sich schon die Hardware um das Scheduling, geht es um Verbesserung oder Hardware Scheduler an anderer Stelle?)
- Instruction Pre-Fetch (CUs?)
- Improved Shader-Efficieny (CUs, aber zu allgemein und nichtssagend, aber die größeren instruction-buffer sind hiermit wohl enthalten)
- Memory-Compression (Back-End bei den ROPs wahrscheinlich)

Starke Verbesserungen sind relativ, ich erwarte definitiv nichts neues was das Fundament angeht, aber AMD hat Hand angelegt um auch die Performance zu verbessern.

Wenn Vega eine "völlig neue µ-Architektur" sein soll, finde ich es extrem sportlich von AMD ein 4096-ALU GCN Gen 4 Projekt (Folgend der Hypothese das Greenland auch ein GCN Gen 4 Ableger war) zu canceln und dann eine neue Architektur zu entwerfen, die nur ein halbes Jahr nach den kleineren Polaris Ablegern folgt.
Sportlich AMD, sehr sportlich.
Natürlich arbeitet AMD nicht erst dann an neuer IP, wenn die neue IP aber völlig neu ist und nicht einmal ein Jahr entfernt, fände ich das merkwürdig.

Ich persönlich erwarte weiterhin das Greenland und Vega10 das gleiche sind oder Vega10 größtenteils auf Greenland aufsetzt, wo vielleicht etwas Feinschliff (GCN Gen 5?) aufgewendet wurde und andere IP-Blöcke erweitert/umgebaut (Rasterizer, ROVs?).
Das ist das einzige was ich mir vorstellen könnte, um die Kosten und das Zeitfenster noch in Grenzen zu halten.

Vega 10 erwarte ich über GP104 (4096 ALUs, 2048-Bit HBM2).
Von Vega 11 weiß man wohl nur das er existiert.
Ich denke Vega 10 wird sich mit einem DP:SP Ratio von 1:2 schon teilweise mit dem GP100 anlegen können, aber es wird ähnlich wie bei Tahiti und Hawaii sein, dass AMD mit Vega 11 noch einmal eine größere Schippe drauf legt, aber so einen Chip erwarte ich auch wesentlich später.

Ich denke nicht das Vega 10 und 11 auf einer völlig neuen µ-Architektur aufsetzen und AMD andere Chip-Größen und Performance-Level in Angriff genommen hat.

N0Thing

2016-05-01, 09:17:28

Allein aus Marketingsicht spricht meiner Meinung nach alles gegen eine neue µ-Architektur, das hätte man doch sicherlich schon auf der Roadmap vermerkt und nicht nur HBM2 als Feature angepriesen.
Von dem, was man bisher von AMD gehört hat, erscheint mir der Schritt bei GCN4 größer als der letzte Schritt zu GCN3. Vega kommt evtl. mit kleineren Verbesserungen, aber vor allem als größere Chips mit mehr Performance und HBM2.

Erst mit Navi könnte dann wieder eine größere Änderung am Design kommen, wofür meiner Meinung nach das Feature Scalability spricht.

uweskw

2016-05-01, 10:58:57

Warum muss AMD eigentlich die Architektur grundsätzlich ändern?
Ein Fury X ist mit 1050MHz ungefähr so schnell wie eine 980Ti mit 13-1400MHz in 28nm.
Sollten die es nicht durch das 14nm Verfahren und ein bisschen weniger Packdichte auch auf 1400-1500MHz bringen können?
Das ganze dann für 499,00€, wäre sofort gekauft...

gereetz
US

HarryHirsch

2016-05-01, 11:03:09

müssen sie das?

hat jemand ne kurze zusammenfassung aller specus am start?

fondness

2016-05-01, 11:04:02

Vega10 wird nicht ohne Grund als Fiji "done right" bezeichnet.

Der_Korken

2016-05-01, 11:12:23

Ein Fury X ist mit 1050MHz ungefähr so schnell wie eine 980Ti mit 13-1400MHz in 28nm.

Äh, das wäre mir neu. Das trifft vielleicht auf einzelne neue (DX12) Titel zu, im Schnitt legt sich die Fury X eher mit einer stock 980Ti an. Und klar müssen sie an der Architektur was ändern, da sie zum einen nicht gut nach oben skaliert (vgl. Rohleistung und reale Leistung von Hawaii vs Fiji) und zu viel Energie verbraucht. Man würde Nvidia bei letzterem einholen, wenn man die vorhandenen Chips auf 14nm shrinkt, aber AMD muss nicht Maxwell schlagen, sondern die neuen 14nm-Pascal-Chips und die werden nochmal deutlich schneller/effizienter werden als Maxwell.

Dural

2016-05-01, 11:12:48

Eine fury x ist so schnell wie eine 980ti mit 1400mhz? Hab ich was verpasst?

uweskw

2016-05-01, 11:52:03

Äh, das wäre mir neu. Das trifft vielleicht auf einzelne neue (DX12) Titel zu, im Schnitt legt sich die Fury X eher mit einer stock 980Ti an. ...

richtig, hatte falsche Benches im Kopf.

greetz
US

fondness

2016-05-01, 13:08:37

Angeblicher Polaris10/11-Die-Shot auf der AMD-Webseite:
http://www.amd.com/en-us/innovations/software-technologies/radeon-polaris#

http://s32.postimg.org/ggidbdvit/8677_gcn_image_770px.jpg (http://postimage.org/)

AMD hat schon in der Vergangenheit solche Estereggs versteckt, wäre also alles andere als überraschend und natürlich auch beabsichtigt.

/Edit: Damit ist wohl auch die Tesslationsschäche beseitigt:

Powerful async compute and new geometry capabilities enable unique support for DirectX® 12 and Vulkan™ in the best version of Graphics Core Next yet.

Die-Größe von Polaris10 soll bei 234mm² liegen.

http://videocardz.com/59487/amd-polaris-11-and-10-gpus-pictured

http://s32.postimg.org/v1srb35jp/AMD_Polaris_10_GPU_vs_Tonga_GPU.jpg (http://postimage.org/)

Thunder99

2016-05-01, 13:32:39

Projekt "F"

An Fury X Leistung glaube ich nicht. Wenn es hochkommt eher so fast Nano LV

dildo4u

2016-05-01, 13:36:44

Das ist doch der Chip in den neuen PS4k,die wird auf 4.2 Tflops geschätzt natürlich wird der Takt im Desktop ein wenig höher sein.

http://www.eurogamer.net/articles/digitalfoundry-2016-sonys-plan-for-playstation-4k-neo-revealed

Die alte PS4 APU kommt auf 328 mm²,228 mm² für die GPU.

http://www.extremetech.com/extreme/171375-reverse-engineered-ps4-apu-reveals-the-consoles-real-cpu-and-gpu-specs

Die Die dürfte in den PS4k sogar kleiner sein da Jaguar ja noch auf 14nm geshrinkt wird.

Complicated

2016-05-01, 14:04:18

Wie soll ein abgebildeter GPU Chip als APU in einer PS4K zum Einsatz kommen?

reaperrr

2016-05-01, 14:36:38

Außerdem muss der PS4K-Chip zu 100% rückwärtskompatibel mit der PS4 sein, daher wird wohl der selbe IP-Level wie beim PS4-Chip weiterverwendet.

Botcruscher

2016-05-01, 14:40:32

Die-Größe von Polaris10 soll bei 234mm² liegen.

236. Aber schön wenn es mal passt.

Das ist doch der Chip in den neuen PS4k,die wird auf 4.2 Tflops geschätzt natürlich wird der Takt im Desktop ein wenig höher sein.

Ganz sicher nicht. Die APU ist mit Sony beschriftet.

Ravenhearth

2016-05-01, 14:50:48

236. Aber schön wenn es mal passt.

Laut dem Foto bei 234 und laut der "Project F"-Angabe bei 232mm².

Botcruscher

2016-05-01, 14:53:54

Ja Verdreher. 2mm² Abweichung ist schon extrem gut für so viel Photoshop. PS: Bleibt die Frage was die 430 Blocks bei Projekt F sein sollen.

Sunrise

2016-05-01, 15:20:44

Das eine ist der Die, das andere ist inkl. Packaging. Auch vollkommen egal, bestätigt sollte jetzt aber endlich mal die etwa 250mm^2-Angabe sein und somit auch die Schätzungen und vehemente Widersprachen, bei einem Mainstream-/Performance-Chip.

Nakai

2016-05-01, 15:22:15

Der Greeland/Vega Teil mit der neuen Architektur liest sich für mich sehr unrealistisch, aber fangen wir zuerst mit Polaris an:

Mike Mantor (Corporate Fellow, Graphics Architect) von AMD:
"We looked at things like increasing the instruction buffer sizes, to get better single-thread-performance"
https://youtu.be/5g3eQejGJ_A?t=54s

AMD gibt auf dieser Folie 4 Stichwörter für GCN Gen 4 an:
http://cdn.wccftech.com/wp-content/uploads/2016/01/AMD-Polaris-5.jpg

- Primitive Discard Accelerator (Geometry-Engines)
- Hardware Scheduler (Da bin ich ratlos, bei den CUs kümmert sich schon die Hardware um das Scheduling, geht es um Verbesserung oder Hardware Scheduler an anderer Stelle?)
- Instruction Pre-Fetch (CUs?)
- Improved Shader-Efficieny (CUs, aber zu allgemein und nichtssagend, aber die größeren instruction-buffer sind hiermit wohl enthalten)
- Memory-Compression (Back-End bei den ROPs wahrscheinlich)

Starke Verbesserungen sind relativ, ich erwarte definitiv nichts neues was das Fundament angeht, aber AMD hat Hand angelegt um auch die Performance zu verbessern.

Das sind alles keine GCN-GFX-IPCore-Änderungen. Im Treiber hat Polaris keine Änderungen im Vergleich zum Vorgänger bei GFX-IP. AMD bezeichnet nur die CUs eben als GCN. Laut einem Linkedin wird Greenland/Vega10 als GFXv9.0 "beschrieben". Polaris/Fiji/Tonga ist v8.

Wenn Vega eine "völlig neue µ-Architektur" sein soll, finde ich es extrem sportlich von AMD ein 4096-ALU GCN Gen 4 Projekt (Folgend der Hypothese das Greenland auch ein GCN Gen 4 Ableger war) zu canceln und dann eine neue Architektur zu entwerfen, die nur ein halbes Jahr nach den kleineren Polaris Ablegern folgt.
Sportlich AMD, sehr sportlich.
Natürlich arbeitet AMD nicht erst dann an neuer IP, wenn die neue IP aber völlig neu ist und nicht einmal ein Jahr entfernt, fände ich das merkwürdig.

;D

Selbstverständlich geht das nicht von heute auf morgen, was klar sein sollte. Vega ist nicht einfach Polaris+HBM. Charlie hat sich gewundert, wieso Polaris "geslippt" ist. Greenland war ursprünglich ein Arctic Islands Chip (Greenland, Baffin, Ellesmere), von denen nun Baffin und Ellesmere als Polaris erscheinen. Aber wieso ist Greenland nun Vega? Kurz, den original Greenland gibt es nicht mehr, bzw. das Projekt wurde zeitig auf Vega-Basis umgestellt.
Womöglich hat das mit den Verzögerungen bzgl Finfet zu tun gehabt, wo Apple jegliches Volumen aufgekauft hat, was sehr gut zu Polaris und GF Finfet passt.

Dass sich einige Eckpfeiler einer neuen µ-Architektur auch nicht so ohne weiteres Änderung lassen, sollte klar sein. Der Sprung von IPv8 auf IPv9 für den GFX-Part spricht jedenfalls schon Bände.

Locuza

2016-05-01, 16:01:56

Das sind alles keine GCN-GFX-IPCore-Änderungen. Im Treiber hat Polaris keine Änderungen im Vergleich zum Vorgänger bei GFX-IP. AMD bezeichnet nur die CUs eben als GCN. Laut einem Linkedin wird Greenland/Vega10 als GFXv9.0 "beschrieben". Polaris/Fiji/Tonga ist v8.

The GFX block is big - command processors, graphics & compute pipelines, shader core/ISA, CBs/DB (ROPs)... I think texture cache/filtering is in there too but not sure ATM.
https://forum.beyond3d.com/threads/amd-polaris-arctic-islands-r-4-series-speculation-rumors-and-discussion.56719/page-50#post-1902488

Polaris bringt auf jeden Fall Änderungen in den oben genannten Fällen.
Es stellt sich die Frage was dazu geführt hat, dass Polaris im Treiber weiterhin als v8 ausgegeben wird und was AMD bei Greenland zu einer höheren Nummer bewegt hat.

Selbstverständlich geht das nicht von heute auf morgen, was klar sein sollte. Vega ist nicht einfach Polaris+HBM. Charlie hat sich gewundert, wieso Polaris "geslippt" ist. Greenland war ursprünglich ein Arctic Islands Chip (Greenland, Baffin, Ellesmere), von denen nun Baffin und Ellesmere als Polaris erscheinen. Aber wieso ist Greenland nun Vega? Kurz, den original Greenland gibt es nicht mehr, bzw. das Projekt wurde zeitig auf Vega-Basis umgestellt.
Womöglich hat das mit den Verzögerungen bzgl Finfet zu tun gehabt, wo Apple jegliches Volumen aufgekauft hat, was sehr gut zu Polaris und GF Finfet passt.

Dass sich einige Eckpfeiler einer neuen µ-Architektur auch nicht so ohne weiteres Änderung lassen, sollte klar sein. Der Sprung von IPv8 auf IPv9 für den GFX-Part spricht jedenfalls schon Bände.
Das liest sich verwirrend.
Also was soll Greenland anfangs dargestellt haben?
Zu Beginn als v8 Chip geplant, dann mit mehr Änderungen als v9 Greenland weitergeführt und jetzt umbenannt in Vega?
AMD muss schließlich wirklich zu Beginn schon die Pläne verändert haben, wenn man zeitlich mit einer neuen µ-Architektur (oh wie ist das neu doch selber immer extrem relativ) am Start sein will.

fondness

2016-05-01, 16:10:04

Ich glaube auch, dass viele die Änderungen bei Vega unterschätzen. Nicht ohne Grund bekommt Vega eine neue Major IP-Version, während Polaris offenbar Treiberintern weitgehend als GCN1.2-Chip durchgeht. Aber was sich genau dahinter verbirgt wird man noch abwarten müssen.

Complicated

2016-05-01, 16:14:20

Eventuell hat Vega die Zeit gehabt auf die Featurelevel Situation bei DX12 in Hardware zu reagieren wegen dem späteren Release der Highperformance-Klasse. Das könnte für Polaris als GFX IPv8 noch DX12 FL12.0 bedeuten.

Hübie

2016-05-01, 16:20:23

Ich glaube auch, dass viele die Änderungen bei Vega unterschätzen. Nicht ohne Grund bekommt Vega eine neue Major IP-Version, während Polaris offenbar Treiberintern weitgehend als GCN1.2-Chip durchgeht. Aber was sich genau dahinter verbirgt wird man noch abwarten müssen.

Wenn Vega, Fiji done right ist, dann dürfte das abseits der ALUs eine Menge Änderungen sein. Zumindest in mittleren Lastszenarien (<1440p) hat Fiji oft Probleme die Bandbreite auf die Strasse zu bekommen. Das kann ja kaum an den CUs liegen, welche (afaik) identisch zu Hawaii agieren, sondern muss ja beim Scheduler / Dispatcher / Operand collector usw liegen. Also alles was füttert. Registerspace dürfte auch hier wieder einiges heraus hauen.

Locuza

2016-05-01, 16:30:37

Ich denke Fiji hat ein Problem mit dem Command-Processor, mit dem Scheduling, mit dem Front-End und mit dem riesigen Shader-Array, welches entsprechenden Workload braucht.

Screemer

2016-05-01, 16:51:15

Eventuell hat Vega die Zeit gehabt auf die Featurelevel Situation bei DX12 in Hardware zu reagieren wegen dem späteren Release der Highperformance-Klasse. Das könnte für Polaris als GFX IPv8 noch DX12 FL12.0 bedeuten.

Ich gehe auch davon aus, dass polaris keine rovs und CR in Hardware unterstützt und das est mit vegs kommt.

Kartenlehrling

2016-05-01, 16:59:45

Liegt es wieder nicht nur am Treiber und der API ?

Zumindest in mittleren Lastszenarien (<1440p) hat Fiji oft Probleme die Bandbreite auf die Strasse zu bekommen.

Hier in dem Video zeigen sie es an einer Nano auf das genug optimierungspotential da ist.

https://youtu.be/dnKDFci2x2Q?t=392
AMD - It's Time to ROC

reaperrr

2016-05-01, 18:02:22

Das sind alles keine GCN-GFX-IPCore-Änderungen.

Doch, wie Locuza schon geschrieben hat.

Im Treiber hat Polaris keine Änderungen im Vergleich zum Vorgänger bei GFX-IP. AMD bezeichnet nur die CUs eben als GCN. Laut einem Linkedin wird Greenland/Vega10 als GFXv9.0 "beschrieben". Polaris/Fiji/Tonga ist v8.

Hier liegt dein Denkfehler.
Wie die Architektur treiberseitig angesprochen wird und wie die Hardware aussieht und das umsetzt sind nämlich durchaus zwei verschiedene Paar Schuhe. Ein AMD-Mitarbeiter hat im semiaccurate-Forum schon zu Protokoll gegeben, er wäre selbst erstaunt gewesen, dass treiberseitig quasi keine Änderungen nötig waren.
Hardware-seitig ist Polaris der bisher größte Architektur-Sprung von GCN im Spiele-relevanten Teil der IP.
Polaris ist intern IP9.0, aufgrund der vollen Rückwärtskompatibilität zu IP8.0-Befehlen hat man nur darauf verzichtet, dass auch treiberseitig so zu kennzeichnen. Greenland wäre im Treiber auch als IP8.0 behandelt worden, wenn AMD ihn nicht gestrichen hätte.

Vega ist nicht einfach Polaris+HBM.
Das wissen wir noch nicht. Es wird wahrscheinlich nicht Polaris ohne jegliche Änderungen sein, aber ich rechne eher mit sowas wie Polaris 1.1 + HBM2 als einer völlig neuen Architektur.

Charlie hat sich gewundert, wieso Polaris "geslippt" ist. (...)
Womöglich hat das mit den Verzögerungen bzgl Finfet zu tun gehabt, wo Apple jegliches Volumen aufgekauft hat, was sehr gut zu Polaris und GF Finfet passt.
Ich denke folgendes: AMD hat in einem Quartalsbericht 34 Millionen für die Portierung einiger Chips vom gecancelten GF-20nm auf 14LPP veranschlagt. Ich denke, damit waren Ellesmere und Baffin gemeint. Arctic Islands sollten mMn ursprünglich in GF-20nm in 2015 erscheinen, aber durch die Streichung von 20nm und die Verzögerungen bei HBM2 hat man eben Greenland gestrichen und nur Ellesmere+Baffin geshrinkt.

fondness

2016-05-01, 18:42:20

Ich denke folgendes: AMD hat in einem Quartalsbericht 34 Millionen für die Portierung einiger Chips vom gecancelten GF-20nm auf 14LPP veranschlagt. Ich denke, damit waren Ellesmere und Baffin gemeint. Arctic Islands sollten mMn ursprünglich in GF-20nm in 2015 erscheinen, aber durch die Streichung von 20nm und die Verzögerungen bei HBM2 hat man eben Greenland gestrichen und nur Ellesmere+Baffin geshrinkt.

Ja das erscheint mir auch schlüssig, und würde auch die zeitliche Nähe von Polaris und Vega erklären. Polaris sollte wohl mindestens ein halbes Jahr früher kommen, aber es war schlicht kein entsprechender Fertigungsprozess verfügbar.

Agent117

2016-05-01, 20:11:34

Das wird auch der Grund sein, es gab auch auf LinkedIn mal Angaben von auf 14nm portierten Designs.

Habe gerade mal die vertikalen Abstände der Perf/W Roadmap von AMD ausgemessen. Hier nochmal die Quelle.
http://images.anandtech.com/doci/10145/Roadmap2.jpg

Ausgehend von der 2,5 fachen Effizientzsteigerung von Polaris wird Vega nochmal um den Faktor 2 effizienter und Navi ebenfalls 2 Mal effizienter.
Die Vega Chips müssten also auch jenseits von HBM zulegen.

Natürlich ist die Vertikale Achse nicht beschriftet, was gewisse Unsicherheiten aufwirft.
Es gibt daher zwei Möglichkeiten.
1: Der Abstand zwischen zwei aufeinnanderfolgenden Architekturen steht für die Effizienzsteigerung relativ gemessen zwischen beiden Architekturen. Dann stimmen die Angaben für Vega und Navi oben.
2: GCN@28nm liegt bei sagen wir 100%, Polaris dann bei 250%, Vega bei 350% und Navi bei 450%. Dann wäre Vega 40% effizienter als Polaris und Navi um 30% als Vega.
Für Vega wären das dann der HBM-Vorteil und noch kleinere Verbesserungen; Navi sollte dann noch in 14nm kommen.
Lisa Su deutete ja mal an dass 14nm auch wieder 3-4 Jahre halten muss; andere Quellen sprachen jedoch von einer schnelleren 10nm Einführung.
Für bare Münze sollte man die Abstände aber generell nicht nehmen.

dargo

2016-05-01, 20:36:35

Die-Größe von Polaris10 soll bei 234mm² liegen.

http://videocardz.com/59487/amd-polaris-11-and-10-gpus-pictured

http://s32.postimg.org/v1srb35jp/AMD_Polaris_10_GPU_vs_Tonga_GPU.jpg (http://postimage.org/)
Oh... nett. Bei 45° gedrehten GPU kann Asus immerhin den Kühler nicht verkacken. :ulol:

Ravenhearth

2016-05-01, 21:38:34

Ausgehend von der 2,5 fachen Effizientzsteigerung von Polaris wird Vega nochmal um den Faktor 2 effizienter und Navi ebenfalls 2 Mal effizienter.

Äh ne? Das kommt allerdings hin:

2: GCN@28nm liegt bei sagen wir 100%, Polaris dann bei 250%, Vega bei 350% und Navi bei 450%. Dann wäre Vega 40% effizienter als Polaris und Navi um 30% als Vega.

Ich würde da von GCN 1.x als Basis für alle ausgehen.

Tesseract

2016-05-01, 21:55:55

Ich denke Fiji hat ein Problem mit dem Command-Processor, mit dem Scheduling, mit dem Front-End und mit dem riesigen Shader-Array, welches entsprechenden Workload braucht.

wie kommst du da drauf? der chip ist darauf ausgelegt HBM sinnvoll auslasten zu können, dabei aber nicht größer als ~600mm² zu sein, und das macht er eigentlich ganz gut. fiji hat nur ein großes problem und das ist der viel zu kleine vram. solange dieser nicht limitiert sollte der chip auf lange sicht (5+ jahre) eigentlich besser skalieren als seine zeitgenossen.

OBrian

2016-05-01, 23:41:31

Fiji in Form der Nano könnte (mit 8 GB) durchaus längere Zeit konkurrenzfähig bleiben, TDP ist ja gering genug für den Performancebereich. Wenn Vega z.B. klar oberhalb ansetzt, dann wird die Nano eben erst in der darauffolgenden "Generation" (oder sagen wir besser "Innovationsschub") ersetzt, sprich 2018.

Ist alles eine Frage, wann der Markt den erzielbaren Verkaufspreis soweit drückt, daß sich die Nano nicht mehr sinnvoll herstellen läßt. Aber da 14nm ja sehr teuer sein soll, ist ein alter Chip in 28nm sicherlich auch dann noch billiger, wenn er viel größer als ein vergleichbarer neuer ist. Und man muß auch sehen, wie lange man geschafft hat, den Preis von Hawaii hochzuhalten, bei dem 512bit-SI hat man sich ja auch gefragt, wie die wirtschaftlich weiterlaufen konnte, ging aber.

Hübie

2016-05-01, 23:42:56

Eher nicht. In 1080p limitiert nirgends der VRAM und hier dreht eine 980 Ti Kreise um Fiji. In 4k sieht das dann schon ganz anders aus.
Man wird hier nicht mit dem Finger auf einen Engpass oder so zeigen können, sondern auf die Komposition der Elemente wie Registerspace, L1 to ALU ratio, read only caches, Dispatcher usw usf.

Edit: Glaub ich hatte deinen Beitrag missverstanden, Tesseract. :D

Ravenhearth

2016-05-02, 00:06:54

Fiji in Form der Nano könnte (mit 8 GB) durchaus längere Zeit konkurrenzfähig bleiben, TDP ist ja gering genug für den Performancebereich. Wenn Vega z.B. klar oberhalb ansetzt, dann wird die Nano eben erst in der darauffolgenden "Generation" (oder sagen wir besser "Innovationsschub") ersetzt, sprich 2018.

Sollte Polaris 10 mindestens 390X-Performance erreichen, wovon im Moment ausgegangen wird, dann ist die Nano schon obsolet, denn im Vergleich mit der 390X ist die Nano kaum schneller (<10%). Billiger sollte P10 ebenfalls sein, denn 232mm² in 14nm sollten bereits billiger herzustellen sein als 596mm² in 28nm, von GDDR5 statt HBM+Interposer mal abgesehen. Außerdem sind die Nano-Chips ja selektiert und die Karte nutzt hochwertigere Bauteile. Weniger Strom sollte P10 auch verbrauchen (<150W).

Nightspider

2016-05-02, 00:12:45

Offtopic: Ich hoffe Polaris und Vega ermöglichen höhere Downsampling (Virtual Super Resolution) Modi/Auflösungen.

Hübie

2016-05-02, 00:17:39

Ergänzung zu oben: Fiji kann ja bis zu ~163.000 workitems (threads) abarbeiten. Die müssen aber auch verteilt werden. Und da denke ich, ist nicht alles im gleichen Maße gewachsen. Wohl ein trade off wegen der limitierten die area.

Thunder99

2016-05-02, 00:57:22

Offtopic: Ich hoffe Polaris und Vega ermöglichen höhere Downsampling (Virtual Super Resolution) Modi/Auflösungen.

Wenn nicht wäre das ein Armutszeugnis...

horn 12

2016-05-02, 01:07:30

Polaris sicherlich nicht, denn da mangelt es an Bandbreite
Damit bleibt Fiji bis Vega unangefochten, Wetten!

Tesseract

2016-05-02, 01:16:21

Ergänzung zu oben: Fiji kann ja bis zu ~163.000 workitems (threads) abarbeiten. Die müssen aber auch verteilt werden. Und da denke ich, ist nicht alles im gleichen Maße gewachsen. Wohl ein trade off wegen der limitierten die area.

muss es auch nicht. die dispatching-fähigkeiten sind von tahiti auf hawaii geradezu "explodiert". klar hätte man mit dem selben transistorbudget einen chip bauen können der mit heutigen spielen (und besonders APIs) etwas besser zurecht kommt, das hätte dann aber auch den maximalen throughput gedrückt wenn der chip nicht nochmal größer sein soll.

würde mich wundern wenn sich polaris in der hinsicht mehr als nur im detail von fiji unterscheidet.

HPVD

2016-05-02, 06:21:11

mal ne Frage: könnte Vega nicht PCIe 4.0 mitbringen?

das wurde bisher ja immer wieder verschoben aber irgendwann sollte es ja mal soweit sein...

vielleicht bietet ja auch ZEN und oder Cannonlake das passende Gegenstück.

edit:
erste Lebenszeichen von PCIe 4.0 in Form von erfolgreiche Funktionstests (non GPU) scheint es ja zu geben z.B.
März 2015 http://www.mellanox.com/page/press_release_item?id=1496
März 2016 http://www.cadence.com/cadence/newsroom/press_releases/Pages/pr.aspx?xml=031416_PCIe4

horn 12

2016-05-02, 07:53:16

Polaris wird wohl die Neueste Technik bieten im Gegensatz zu Pascal.
HDMI 2.0 kommt aber wohl erst mit Vega daher.

dargo

2016-05-02, 07:57:47

Eher nicht. In 1080p limitiert nirgends der VRAM und hier dreht eine 980 Ti Kreise um Fiji.
Nicht unter low level. ;)

Hübie

2016-05-02, 08:09:03

Das was es gibt kannst du durch die Bank nicht heranziehen weil entweder AMD die Finger tief in den Kuchen gesteckt hat, es externe Probleme wie UWP gibt oder das Backend einfach nur angepasst wird, aber aus dem DX12 Pool nix genutzt wird was wirklich neu ist. Low level ist bisher ein totaler Reinfall. Die Entwickler sind rar und die Einarbeitung dauert wohl doch noch etwas länger.

Locuza

2016-05-02, 08:39:58

wie kommst du da drauf? der chip ist darauf ausgelegt HBM sinnvoll auslasten zu können, dabei aber nicht größer als ~600mm² zu sein, und das macht er eigentlich ganz gut. fiji hat nur ein großes problem und das ist der viel zu kleine vram. solange dieser nicht limitiert sollte der chip auf lange sicht (5+ jahre) eigentlich besser skalieren als seine zeitgenossen.
Command-Processor:
http://www.anandtech.com/show/8962/the-directx-12-performance-preview-amd-nvidia-star-swarm/6

Der CP bei Hawaii war überfordert mit zu vielen Batches auf einmal, bei star swarm gab es 16% mehr Performance, wenn die CPU die Batches zusammengepackt hat und erst dann der GPU übergeben.
Es ist nicht dokumentiert um wie viel oder überhaupt der CP später besser geworden ist, aber ich denke das ist weiterhin ein Problem.
Das AMD einen neuen CP mit Polaris verbauen wird, unterstreicht schon einmal den Bedarf einer Verbesserung an dieser Stelle.

Rasterizer:
AMD hat 4 Stück davon und verwendet SIMD64, bei kleinen Auflösungen verliert AMD vermutlich immer einige %.

Geometry-Engines:
Da hat AMD auch 4 verbaut und das ist zu schwach ausbalanciert, besonders bei der Fury:
http://www.hardware.fr/articles/937-5/performances-theoriques-geometrie.html

Deswegen hat auch DICE ein Compute Triangle Culling Mechanismus implementiert, weil die Hardware einfach im Vergleich viel zu sehr hinten ansteht:
http://www.frostbite.com/2016/03/optimizing-the-graphics-pipeline-with-compute/

Vermutlich liegt eine Menge brach bei AMD, was den Dreiecksdurchsatz anbelangt und natürlich auch die Tessellation-Leistung.

Shader-Array:
Mit 4096 ist es massiv und wenn ich Sebastian Aaltonen im B3D richtig verstanden habe, braucht man mindestens 4 Wavefronts um die Latenzen zu verstecken.
65K Threads müssen dann effektiv verteilt werden.
Ich denke die ganze Pipeline von Fiji kommt da nicht hinterher.

Eine andere Balance hätte Fiji sicher höher gebracht, aber es wäre sicherlich auch schwerer zu realisieren gewesen.

Jetzt warten wir halt auf Vega aka Fiji done right.

maximus_hertus

2016-05-02, 09:03:43

Polaris wird wohl die Neueste Technik bieten im Gegensatz zu Pascal.
HDMI 2.0 kommt aber wohl erst mit Vega daher.

HDMI 2.0 und DP 1.3 sind doch schon offiziell bestätigt worden (für Polaris)?

R.I.P.

2016-05-02, 09:10:20

HDMI 2.0 und DP 1.3 sind doch schon offiziell bestätigt worden (für Polaris)?

http://www.amd.com/en-us/innovations/software-technologies/radeon-polaris#

Definitiv ja :D

victore99

2016-05-02, 11:25:14

Für mich interessant ist, wie wahrscheinlich der Raijintek Morpheus 2 auf ne neue HBM-Vega-Karte passt. Wäre definitiv mein Dream-Team :D
Was glaubt ihr? Passt das oder eher nicht?

HOT

2016-05-02, 12:27:34

Hm kann das sein, dass P10 384Bit Speicherinterface bringt? Das würde das Rätsel um die Performance lösen. Man kann schlecht erkennen, ob das Package ähnlich ist wie bei Tonga und ebenfalls gedreht verbaut wurde, was für 384Bit sprechen würde.

Ravenhearth

2016-05-02, 13:02:31

384 Bit auf wahrscheinlich 232mm²? In dem Preisbereich? Wohl nicht. Da wäre GDDR5X eine wesentlich bessere Alternative. Zumal Tonga auch gedreht verbaut wurde, obwohl die 384 bit dort afaik nicht nach außen geführt werden - das ist also kein Indiz.

Ailuros

2016-05-02, 13:07:57

Wie waere es wenn wir abwarten bis die inneren Architektur-Aspekte von unabhaengigen Quellen analysiert werden, bevor wir uns entscheiden welche SKU zu wenig Bandbreite haben koennte?

N0Thing

2016-05-02, 13:08:29

mal ne Frage: könnte Vega nicht PCIe 4.0 mitbringen?

das wurde bisher ja immer wieder verschoben aber irgendwann sollte es ja mal soweit sein...

Definitiv nicht, PCIe 4.0 ist noch nicht fertig spezifiziert, das soll voraussichtlich im Jahr 2017 geschehen. Vor 2018 würde ich mir keine große Hoffnungen machen, dass CPUs und GPUs mit PCIe 4.0 kommen.

http://www.eetimes.com/document.asp?doc_id=1326922&page_number=1

dargo

2016-05-02, 13:26:58

Das was es gibt kannst du durch die Bank nicht heranziehen weil entweder AMD die Finger tief in den Kuchen gesteckt hat, es externe Probleme wie UWP gibt oder das Backend einfach nur angepasst wird, aber aus dem DX12 Pool nix genutzt wird was wirklich neu ist.

Komisch... jahrelang hatte Nvidia die Finger im Kuchen, da war die Welt noch völlig in Ordnung. ;) UWP-Probleme ist nur eine Frage der Zeit und sollte in diesem Monat wenn MS den Zeitplan einhält Geschichte sein. Zudem beziehen sich die UWP-Probleme nur auf Win10-Store Games. Hat nichts mit low level ansich zu tun.

Low level ist bisher ein totaler Reinfall.
Das sehe ich ganz anders. In der Übergangsphase gibts immer gewisse Probleme, das war nie anders.

Tesseract

2016-05-02, 14:30:38

Eine andere Balance hätte Fiji sicher höher gebracht, aber es wäre sicherlich auch schwerer zu realisieren gewesen.

wie gesagt: eine andere balance hätte an anderen stellen sparen müssen. es hat einen grund warum fiji bei ähnlicher chipfläche und taktung ~33% mehr arithmetikleistung als ein GM200 hat. ich sehe ehrlich gesagt auch kein prinzipielles problem damit die CUs beschäftigt zu halten (was bei den VLIWs vor GCN noch ganz anders war), ganz besonders mit async compute und so vielen queues.

und wer weiß was z.B. star swarm da überhaupt macht ("With virtually every aspect of this test still being under development – OS, drivers, and Star Swarm – we would advise not reading into this too much right now"). gerade bei solchen extremfällen können sich kleine probleme, fehlende optimierungen oder einfach unterschiede in der architektur schnell sehr stark aufschaukeln. ich habe hier (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=10999712#post10999712) z.B. genau den umgekehrten fall wo hawaii in genau diesem szenario einfach schneller zu sein scheint als sogar die 980Ti. sind ebenfalls haufenweise objekte aber halt anders implementiert.

HOT

2016-05-02, 15:47:23

384 Bit auf wahrscheinlich 232mm²? In dem Preisbereich? Wohl nicht. Da wäre GDDR5X eine wesentlich bessere Alternative. Zumal Tonga auch gedreht verbaut wurde, obwohl die 384 bit dort afaik nicht nach außen geführt werden - das ist also kein Indiz.
Hey, die haben 512Bit auf 430mm² verbaut und da ist noch ne Menge Platz. Ich glaube, passen würde das schon. Nur würde der Chip sehr dicht gepackt sein müssen, damit das klappt. Die müssen auf die 232mm² ca. 6 Mia Transistoren unterbringen denke ich. Also ich halte das mittlerweile für eine gangbare Alternative. Kein GDDR5X aber dank 384Bit und 6-7Gbps GDDR5 reichts halt für Fiji. AMD hatte in der Vergangenheit immer für viel Bandbreite gesorgt. Ausnahme ist Tonga, dort ist aber auch nur das PCB auf 256Bit angepasst. Das Package sieht ja aus wie das von Tahiti, sollte ein ähnliches Pinout haben. Ist ja auch klar, man hätte sich ja auch kurzfristig für ein 384Bit PCB entscheiden können, wenn man es gewollt hätte. Das Package dürfte kostentechnisch eh keine Rolle spielen, warum sich die Möglichkeit verbauen, das macht keinen Sinn.
Dass Fiji abgelöst wird, sollte klar sein, da braucht man nur einen Blick in die Vergleichsportale werfen. Bei Fiji siehts genauso aus wie bei der 3xx Serie oder NVs 9xx-Serie. Massive Preissenkungen, große Preis-Varianzen.

Wenn P10 nur 6GB mitbringt ist das weniger als die 8GB des GP104. Noch ein Grund eher tiefzustapeln im Marketing.

Ich würd sagen, P10 Pro hat die Performance zwischen 290X und 390X und P10 XT knapp unter oder genau auf FijiXT. GP104 jeweils ca. 15-20% darüber.

R.I.P.

2016-05-02, 16:13:30

Ich würd sagen, P10 Pro hat die Performance zwischen 290X und 390X und P10 XT knapp unter oder genau auf FijiXT. GP104 jeweils ca. 15-20% darüber.

Mich würde es nicht wundern, wenn dank Dx12 in einigen Fällen eher Gleichstand herrschen wird :)

Gipsel

2016-05-02, 17:00:24

Der Greeland/Vega Teil mit der neuen Architektur liest sich für mich sehr unrealistisch, aber fangen wir zuerst mit Polaris an:

Mike Mantor (Corporate Fellow, Graphics Architect) von AMD:
"We looked at things like increasing the instruction buffer sizes, to get better single-thread-performance"
https://youtu.be/5g3eQejGJ_A?t=54s

AMD gibt auf dieser Folie 4 Stichwörter für GCN Gen 4 an:
http://cdn.wccftech.com/wp-content/uploads/2016/01/AMD-Polaris-5.jpg

- Primitive Discard Accelerator (Geometry-Engines)
- Hardware Scheduler (Da bin ich ratlos, bei den CUs kümmert sich schon die Hardware um das Scheduling, geht es um Verbesserung oder Hardware Scheduler an anderer Stelle?)
- Instruction Pre-Fetch (CUs?)
- Improved Shader-Efficieny (CUs, aber zu allgemein und nichtssagend, aber die größeren instruction-buffer sind hiermit wohl enthalten)
- Memory-Compression (Back-End bei den ROPs wahrscheinlich)

Starke Verbesserungen sind relativ, ich erwarte definitiv nichts neues was das Fundament angeht, aber AMD hat Hand angelegt um auch die Performance zu verbessern.Das von Mike Mantor ist ein netter Fund. Da ergeben sich tatsächlich ein paar Informationen, was man (wohl unter Anderem) an den CUs geändert hat, ohne die µArchitektur (also die ISA bzw. die Softwaresicht) zu beeinflussen.
Er spricht ja von den instruction buffern. Um das einzuordnen, ist vielleicht ein Blick auf den hierfür relevanten Teil seiner Präsentation zur GCN-Vorstellung hilfreich:

http://abload.de/img/gcn_ib_fetchgwd4z.png

Die genaue Implementation dieser instruction buffer, die im Prinzip eine Art kleiner L0-I$ darstellen, bleibt im Dunkeln. Es sind mehrere Möglichkeiten denkbar. Es könnte z.B. eine festverdrahtete Buffergröße für die maximale Anzahl an Waves vorhanden sein, z.B. 10 physisch getrennte einzelne Buffer von jeweils 32 Bytes pro vALU (also 10x32Bytes pro vALU, insgesamt 1,25 kB pro CU). Die feste Zuordnung würde die Verwaltung minimal halten (die paar hundert Bytes kosten kaum Fläche) und es ermöglichen, einen leeren IB mit einer Transaktion wieder komplett aufzufüllen, da die Bandbreite von einer CU zum L1-I$ 32 Bytes/Takt beträgt. Diese 32 Byte entsprechen 4 bis 8 Instruktionen.
Offenbar ist aber die bisherige Implementation suboptimal. Mike Mantor nennt mindestens zwei Szenarien, in denen die Performance leidet: Control Flow-Instruktionen und Issue von mehreren größeren Instruktionen back-to-back (GCN hat eine variable Instruktionsgröße, 4 Byte oder 8 Byte und kann voneinander abhängige arithmetische Instruktionen "back-to-back" zum issue bringen [also direkt hintereinander, ohne eine unabhängige Instruktion einer anderen Wavefront oder Leerlauf einzuschieben], da die Latenz exakt dem Durchsatz entspricht [4 Takte]). Dies läßt darauf schließen, daß eben ab und zu der L1-I$ nicht schnell genug neue Instruktionen an die IBs liefern kann, um Pipeline-Bubbles zu verhindern.
Theoretisch kann eine CU dauerhaft drei oder gar etwas mehr Instruktionen (+ "interne", also NOPs, wait, sleep, Barriers und ähnliches) pro Takt ausführen, im Peak bis zu 5 oder 6 (+ interne) pro Takt. Praktisch dürfte man im Mittel nur selten bei deutlich über zwei pro Takt landen (aber je nach Code könnten 2 Instruktionen pro Takt durchaus realistisch sein). Will sagen, die Bandbreite zum L1-I$ (32Byte/Takt, was eben die 4-8 Instruktionen sind) sollte eigentlich im Prinzip ausreichend sein (unter der Voraussetzung, daß die 32Byte/CU, die als "Peak" angegeben sind, wirklich allen CUs parallel zur Verfügung steht; wenn man Pech hat, halbiert sich das z.B. wenn alle 4 angeschlossenen CUs gleichzeitig was wollen, also die Bandbreite des L1-I$ selber nur 64Byte/Takt ist).

Aber wie triggert man das Fetchen neuer Instruktionen aus dem L1-I$? Die simpelste Möglichkeit wäre, schlicht zu warten, bis der IB einer Wave komplett leer ist (oder ein Sprung außerhalb des dort gepufferten Fensters erfolgt) und dann 32Byte auf einmal anzufordern. Da die Latenz des L1-I$ vermutlich nicht sehr niedrig ist (der muß immerhin 4 CUs versorgen, was die Zugriffszeit erhöhen dürfte), könnte das dazu führen, daß wenn ein IB leer läuft, die zugehörige Wavefront immer eine Weile aussetzen muß (andere Wavefronts können das dann auffüllen). Das Problem wird von "Kollisionen" verstärkt, also wenn mehrere IBs auf mehreren CUs mehr oder weniger gleichzeitig leer werden. Hier könnten die Verzögerungen dann relativ groß werden und insbesondere, wenn nicht sehr viele Waves auf einer CU laufen, dazu führen, daß die CUs immer mal wieder kurzfristig leer laufen.
Eine simple Vergrößerung der IBs verringert das Problem etwas (ein 64Byte Puffer hält schlicht doppelt so lange wie ein 32 Byte Puffer und die Chance ist etwas höher, daß ein Sprung immer noch im IB landet und nicht außerhalb). Aber es geht natürlich auch etwas cleverer. Man kann den Effekt der "Kollisionen" (also wenn mehrere IBs zeitnah leer werden) vermindern, in dem man nicht erst neue Instruktionen anfordert, wenn der IB komplett leer ist, sondern eben schon vorher, z.B. wenn man sich dem Ende des IBs auf weniger als 32Byte genähert hat. Dies wäre dann eine rudimentäre Form des Prefetches (das kann man natürlich ausbauen und z.B. bei Erkennung von unbedingten Sprüngen im Instruktionsstrom schon mal vorab das Ziel des Sprunges fetchen, bevor die Instruktion zur Ausführung kommt). Dadurch maskiert man die Latenz des L1-I$ (und auch die limitierte Bandbreite bei Kollisionen) besser, was insbesondere bei wenigen Waves auf einer CU helfen könnte.
Und man kann natürlich die Kapazität der IBs effektiver nutzen, beispielsweise indem man sie so organisiert, wie die Registerfiles. Es gibt nur ein einziges SRAM-Array für die IBs einer vALU welches dynamisch aufgeteilt wird. Jede Wave alloziert dann einen Bereich daran, der variabel groß ausfallen kann, bei wenigen Waves fällt der IB jeweils größer aus. Der Nachteil wäre, daß man nicht so einfach neue Waves starten kann, auch wenn z.B. noch Register frei sind. Die IBs wären dann eine weitere geteilte Ressource. Man müßte etwas warten, bis die vorhandenen Waves ihre IBs etwas geleert hätten und dann neu aufteilen. Ich bezweifle ein wenig, daß das wirklich sinnvoll wäre.
Die andere Alternative wäre ein echter L0-I$ (oder auch vier separate L0-I$, für jede vALU einen) statt je einem IB pro Wave. Aber auch hier lohnt vermutlich der Aufwand für die ganze Cachelogik nicht (ein Zugriff auf die IBs ist deutlich simpler). Denn im Endeffekt ist das eine kleine Menge an Puffern, über die wir hier reden. Eine GCN-CU hat 256kB Vektor-Register, 8kB Skalar-Register, 64kB LDS und 16kB vL1-D$ (plus anteilig mindestens 4kB sL1-D$ und 8kB L1-I$), also mindestens 356kB SRAM allein in diesen Strukturen. Da machen z.B. 40 Waves x 128Bytes = 5 kB für die IBs pro CU den Kohl auch nicht wirklich fett verglichen z.B. mit vier L0-I$ zu je 1kB pro CU, auch wenn letzteres theoretisch wohl minimal performanter wäre. Aber da so ein L0-I$ potentiell auch etwas Energie spart (verringerter Bandbreitenbedarf zum L1-I$ durch Reuse von Code zwischen Waves, was mit IBs nicht so einfach geht), könnte das ein Projekt für GCN Gen5 werden, was dann vielleicht 0,5% zur Energieeffizienzsteigerung beiträgt (falls sich das je lohnen sollte, aber nV meinte ja mal, es lohnt sogar irgendwann ein Cache fürs Registerfile). ;)
Wenn Vega eine "völlig neue µ-Architektur" sein soll, [..]Würde ich auch für sehr unwahrscheinlich halten. GCN ist von der Architektur her meiner Meinung nach noch lange nicht am Ende. Man fängt ja gerade erst langsam an, die Vorzüge zu erkunden. Das grundlegende Konzept von Skalar- plus Vektoreinheiten mit der expliziten Programmierung dieser Vektorarchitektur könnte sogar deutlich länger halten als die VLIW-Architektur(en).
Shader-Array:
Mit 4096 ist es massiv und wenn ich Sebastian Aaltonen im B3D richtig verstanden habe, braucht man mindestens 4 Wavefronts um die Latenzen zu verstecken.Nun, die 4 Waves pro vALU sind sicher eine praktische Erfahrung für einen akzeptablen Durchsatz. Die Latenzen der vALUs oder auch der sALU spielen zumindest theoretisch bereits mit einer einzigen Wavefront pro vALU keine große Rolle mehr (es gibt Ausnahmen, wo extra-Wartezyklen nötig sind). Mit Betonung auf theoretisch, man hat dann halt keine Möglichkeit, irgendwelche Wartezeiten zu überbrücken.
Zusätzlich besteht ein Shaderprogramm ja nicht nur aus vALU-Instruktionen. Mit einem Instruktionsmix limitiert man mit wenigen Wavefronts den Durchsatz, weil der zu einer vALU gehörende Scheduler durchaus das Absetzen mehrerer Instruktionen pro Takt unterstützt. Der Haken daran ist, daß diese mehreren Instruktionen aus mehreren einer vALU zugewiesenen Wavefronts stammen müssen (und nicht aus einer). Pro Wavefront kommt immer nur maximal eine Instruktion zur Ausführung. Das spart Dependency-Checks (weil die Instruktionen der unterschiedlichen Wavefronts automatisch unabhängig sind). Hat man also also z.B. einen 1:1 Mix von Vektor- und Skalarinstruktionen (immer schön abwechselnd), kann man im Prinzip den Durchsatz mit zwei Wavefronts verdoppeln. Üblicherweise hat man keinen 1:1 Mix von sich abwechselnden vALU- und sALU-Instruktionen. Außerdem gibt es vielleicht ab und zu eine LDS-Instruktion und (gegebenenfalls lange dauernde) Speicherzugriffe. Dann sind mindestens 4 Wavefronts pro vALU als Faustregel sicher nicht verkehrt.

TLDR: Es sind vermutlich weniger die Latenzen der ALUs (Latenzen von Speicherzugriffen sind ja sowieso eine andere Geschichte) als ungenutzte Möglichkeit zur parallelen Ausführung, die mehrere Wavefronts in jedem Fall (auch bei minimalen Speicherzugriffen) wünschenswert werden lassen.

Michalito

2016-05-02, 17:55:50

Fachchinesisch für Laien wie mich..

Nicht Böse gemeint.

Botcruscher

2016-05-02, 18:04:31

Wege zur Optimierung der Auslastung durch größere Zwischenspeicher und Prefetching.

Ravenhearth

2016-05-02, 18:21:45

Hey, die haben 512Bit auf 430mm² verbaut und da ist noch ne Menge Platz. Ich glaube, passen würde das schon. Nur würde der Chip sehr dicht gepackt sein müssen, damit das klappt. Die müssen auf die 232mm² ca. 6 Mia Transistoren unterbringen denke ich. Also ich halte das mittlerweile für eine gangbare Alternative. Kein GDDR5X aber dank 384Bit und 6-7Gbps GDDR5 reichts halt für Fiji.

Polaris 10 wird langfristig in den Bereich unter 200€ gehen. Mit 384 Bit geht das nicht. Das ist ein Pitcairn-ähnlicher Chip und kein zweiter Tahiti. Zumal ich es für unmöglich halte, 384 bit in 232mm² unterzubringen. Gipsel?

AMD hatte in der Vergangenheit immer für viel Bandbreite gesorgt. Ausnahme ist Tonga, dort ist aber auch nur das PCB auf 256Bit angepasst. Das Package sieht ja aus wie das von Tahiti, sollte ein ähnliches Pinout haben. Ist ja auch klar, man hätte sich ja auch kurzfristig für ein 384Bit PCB entscheiden können, wenn man es gewollt hätte. Das Package dürfte kostentechnisch eh keine Rolle spielen, warum sich die Möglichkeit verbauen, das macht keinen Sinn.

Nö. Tonga hat ein wesentlich kleineres Package als Tahiti, mangelns 384bit.

fondness

2016-05-02, 18:35:19

Mike Mantor (Corporate Fellow, Graphics Architect) von AMD:
"We looked at things like increasing the instruction buffer sizes, to get better single-thread-performance"
https://youtu.be/5g3eQejGJ_A?t=54s

Corporate Fellow ist nebenbei bemerkt der höchste Ingenieurposten den man innerhalb von AMD erreichen kann. Es gibt konzernweit nur vier Corporate Fellows, der Mann weiß also wie kein anderer wovon er spricht.

Bringhimup

2016-05-02, 19:44:04

CEs gibt konzernweit nur vier Corporate Fellows, der Mann weiß also wie kein anderer wovon er spricht.

Du meinst wohl, wie nur drei andere.^^

drkohler

2016-05-02, 20:08:42

Könnte man bitte aufhören, von Dieshots zu reden?
Was man sieht ist der Chipcarrier auf einem Board, nicht das Die. Das versteckt sich im Chipcarrier drin, und die Carrier sind i.A. genormte Grössen und nicht in beliebigen Grössen gebaut.
Man kann zwar annehmen, dass das Die "knapp" in den Chipcarrier passt, aber sicher ist das nicht. Hier mit der Mikrometerschraube an einem Chipcarrier rumzudiskutieren auf den Zehntel-mm^2 bringt meiner Meinung gar Nichts.

M4xw0lf

2016-05-02, 20:16:46

Du meinst wohl, wie nur drei andere.^^
Ich wollte genau die gleiche Korinthenkackerei bringen :ulol:

Gipsel

2016-05-02, 20:30:16

Könnte man bitte aufhören, von Dieshots zu reden?
Was man sieht ist der Chipcarrier auf einem Board, nicht das Die. Das versteckt sich im Chipcarrier drin, und die Carrier sind i.A. genormte Grössen und nicht in beliebigen Grössen gebaut.
Man kann zwar annehmen, dass das Die "knapp" in den Chipcarrier passt, aber sicher ist das nicht. Hier mit der Mikrometerschraube an einem Chipcarrier rumzudiskutieren auf den Zehntel-mm^2 bringt meiner Meinung gar Nichts.Watt?
Dieses grauschwarz glänzende rechteckige Ding auf dem Package ist sehr wohl direkt das aus dem Wafer geschnittene Die, was per FlipChip-Verfahren auf ein organisches Substrat gelötet wurde. Das sind keine Minichips, die irgendwie per Wirebonding verkabelt sind und in einem Plastik- oder Keramik-Package (dem Carrier) stecken. Das gibt es schon über ein Jahrzehnt nicht mehr (edit: also bei hinreichend komplexen Chips wie heute übliche CPUs und GPUs, ansonsten natürlich schon noch).

Edit:
Wikipedia kennt das Flip-Chip-Verfahren (https://de.wikipedia.org/wiki/Flip-Chip-Montage) als Spezialfall der Direktmontage (https://de.wikipedia.org/wiki/Direktmontage) von "nackten" Dies auf einem Träger.

Und bei solchen Fotos sieht man sowohl direkt das Die der GPU, das Silizium des Interposers (man beachte die farbige Erscheinung auf dem Interposer durch Interferenz an den dünnen Leitungen darauf je nach Einfallswinkel des Lichts und Blickwinkel!) als auch die 4 Stacks mit den Memory-Dies (bestehend aus jeweils 5 gestapelten und abgedünnten Dies):

http://www.pcper.com/files/news/2015-06-03/amdfijidie.jpg http://semiaccurate.com/assets/uploads/2015/06/AMD_Fiji.jpg

Und wenn man den Kühler von einer GPU abbaut, sieht das genauso aus. Nix Carrier.

Hübie

2016-05-02, 22:02:22

Ich zitiere jetzt mal nicht deinen ganzen Text, Gipsel:

Soweit es bei mir noch hängen geblieben ist selektiert doch eine SIMD 5 instructions aus 10 wavefronts pro CU und scheduled die dann. Oder gab es da Änderungen seit Tahiti? Glaub das war die letzt ISA die ich mir angesehen hatte. War irgendwie der Meinung die CUs hätten sich nicht geändert. Wieso wird dann 8 instructions als optimum angegeben? :|
Und wenn man das so ist wie du vermutest bräuchte es doch interleaving der IB sowie größere Puffer. Gab es da schon hints? Bin da nicht auf dem laufenden.

ps: Übrigens ist das einer deiner Beiträge die ich so unheimlich zu schätzen weiß :smile:

horn 12

2016-05-02, 22:42:31

So wie es scheint kommt Polaris FULL echt erst später, Mitte bis Ende Juli und womöglich hat Ailuros doch komplett recht gehabt
Salvage Part von Polaris kommt wohl in wenigen Wochen, zeitgleich mit Pascal!

Polaris Salvage gegen ----> GTX 1060
Polaris Full XT als Gegenspieler zur ----> GTX 1070
Bleibt nur die GTX 1080 unangefochten, und dafür für sehr hohen Preis von NV

Gipsel

2016-05-02, 23:09:16

Ich zitiere jetzt mal nicht deinen ganzen Text, Gipsel:

Soweit es bei mir noch hängen geblieben ist selektiert doch eine SIMD 5 instructions aus 10 wavefronts pro CU und scheduled die dann.Bis zu fünf/sechs (müssen alle unterschiedlichen Typs sein, also maximal 1 vALU-Op + 1 sALU/sMEM-Op + 1 LDS-OP + 1 vMEM-Op + 1 Export/GDS + 1 Branch/Message + 1 interne) aus bis zu 10 Waves (maximal eine pro Wave, wenn z.B. nur 3 Waves laufen, können natürlich maximal 3 ausgewählt werden).
Wieso wird dann 8 instructions als optimum angegeben? :|Das ist die Bandbreite des L1-I$ von 32Byte/Takt und CU, was im Optimalfall 8 Instruktionen sind, im schlechtesten Fall sind es nur 4 Instruktionen (die natürlich schneller abgearbeitet werden als 8 Instruktionen, was die Bandbreite des L1-I$ dann stärker belastet). GCN-Instruktionen sind entweder 4 oder 8 Byte lang, je nach Typ bzw. Variante (vALU-Instruktionen mit 3 Operanden sind z.B. 8 Byte lang).
Und wenn man das so ist wie du vermutest bräuchte es doch interleaving der IB sowie größere Puffer. Gab es da schon hints? Bin da nicht auf dem laufenden.Verstehe die Frage nicht ganz.
Die IBs werden nicht interleaved (bzw. gibt es kein zwingendes festen Muster wie bei den VLIW-Architekturen mit odd und even Waves, es ist dynamisch). Es werden in einem Schedulertakt aus den IBs (es gibt ja einen pro Wave) möglichst viele Instruktionen unterschiedlichen Typs (maximal eine Instruktion pro Wave/IB) selektiert und dann simultan zur Ausführung gebracht. Im Prinzip kann pro Schedulertakt einer vALU (also alle 4 Takte) je eine Instruktion aus einem IB ausgeführt werden. Das Issue der Instruktionen für eine Wavefront erfolgt dabei strikt in-order (completion kann teilweise out-of-order erfolgen, Speicherzugriffe sind z.B. von ALU-Instruktionen entkoppelt aber meist bleibt die completion zumindest innerhalb eines Instruktionstyps in-order [außer bei sMEM und bei Exports bleibt es nur innerhalb eines Exporttyps in-order]).

Z.B.:
Takt 0:
vALU-Op für Wave A, sALU-Op für Wave B, LDS-Op für Wave C
Die Ausführung dauert 4 Takte (in denen die anderen drei mal 10 IBs für die anderen vALUs drankommen, der Issue-Port für sALU kann jeden Takt eine neue Instruktion annehmen [von den anderen drei Blöcken in der CU]).

Takt 4 kommt "unser" Block wieder dran:
vALU-Op für Wave A, sALU-Op für Wave D, vMEM für Wave E

Takt 8:
sALU-Op für Wave A, vALU-Op für Wave B, Branch für Wave D

Tak12: sMEM für Wave A, vALU-Op für Wave B, wait_cnt für Wave C (das ist so eine "interne" Op, die der Scheduler selber "ausführt"), Export für Wave E

...

In dem Beispiel hätte man also über 3 Instruktionen/Schedulertakt im Schnitt (was sich in der Praxis schwer halten lassen wird) und Wave A läuft in dem Mini-Abschnitt mit maximaler Geschwindigkeit von 1 Op/Schedulertakt (4 Takte). Das in-order Scheduling erlaubt es dabei nicht immer (bzw. nur bei vielen Waves) halbwegs nahe an die maximale Parallelität, die der Code bietet, heranzukommen. Dafür ist die Verwaltung stark vereinfacht. Laufen IBs leer, vermindert das die nutzbare Parallelität zusätzlich (da aus weniger Waves Instruktionen gewählt werden können). Größere IBs bzw. ein Instruktions-Prefetch Verringern den Performanceverlust durch das Leerlaufen von IBs.

Steffko

2016-05-03, 00:45:15

So wie es scheint kommt Polaris FULL echt erst später, Mitte bis Ende Juli und womöglich hat Ailuros doch komplett recht gehabt
Salvage Part von Polaris kommt wohl in wenigen Wochen, zeitgleich mit Pascal!

Polaris Salvage gegen ----> GTX 1060
Polaris Full XT als Gegenspieler zur ----> GTX 1070
Bleibt nur die GTX 1080 unangefochten, und dafür für sehr hohen Preis von NV

Wo kommt das jetzt her? Und warum sollte AMD das machen?

horn 12

2016-05-03, 00:57:10

Die 110-130W TDP gelten bisher für die abgespeckte Variante mit 2304 Shader - wohl die normale 490.
Dabei geht es wohl um den Full-Chip mit 2560 Shadern. Der könnte z.B. wie bei der 380X später kommen. Dans wäre dann die 490X.

Leonidas

2016-05-03, 04:35:51

Quelle hierfür? (für den späteren Termin)

HPVD

2016-05-03, 06:44:52

http://www.amd.com/en-us/innovations/software-technologies/radeon-polaris#

Definitiv ja :D

=>
...Polaris architecture support HDMI® 2.0b and DisplayPort™ 1.3 for compatibility with a new generation of monitors that would make any gamer excited: 1080p 240Hz, 1440p 240Hz, 4K 120Hz—even 1440p ultrawide at 190Hz.

interessant dass da HDMI 2.0b steht.
Das kennt selbst wikipedia noch nicht...
siehe schöne Feature List Labelle:
https://en.wikipedia.org/wiki/HDMI

bringt vega dann schon DP1.4 und HDM 2.1?

Mit DP1.4 könnte dann als das auch gemeinsam ausgeben werden womit schon für Poloris geworben wird:
UHD+HDR+10bit Farben+@120Hz
...

HPVD

2016-05-03, 06:57:11

=>
interessant dass da HDMI 2.0b steht.
Das kennt selbst wikipedia noch nicht...
siehe schöne Feature List Labelle:
https://en.wikipedia.org/wiki/HDMI

...

oh, wenn man dem hier glauben schenkt, ist 2.0b der Vorgänger von 2.0a
und eigentlich nur ein 1.4 enhanced:
...kompatibel zu HDMI 2.0b (also HDMI 1.4 mit 4:2:0-Farbabtastung bei 4k@60Hz) und HDCP 2.2. HDMI 2.0a unterstützt u.a. 4k@60@4:4:4.

http://www.hifi-forum.de/viewthread-94-12978-19.html

das würde auch erklären,
wieso es hier bei 2.0 Erklärung von 2.0b gesprochen wird und 2.0a die Erweiterung ist
http://www.hdmi.org/manufacturer/hdmi_2_0/

Kartenlehrling

2016-05-03, 08:11:03

Beim HDR hat man sich nicht einigen können.

HDMI 2.0a und b ist ja "nur" HDR, 2.0a ist wohl das BBC/Technicolor/Philips HDR ein fester Metawert,
bei HDMI2.0b kommt noch die dynamische Metadaten dazu was Dolbyvision/Sony bevorzugen, was aber die Datenmenge noch erhöht.

Ich denke das kann man mit einem Firmware updaten.

Also
HDMI1.4c > 4096/24p 10bit 4:2:0
HDMI2.0b > 4096/60p 08bit 4:2:0
HDMI2.0a > 4096/30p 12bit 4:4:4

HPVD

2016-05-03, 08:26:40

Beim HDR hat man sich nicht einigen können.

HDMI 2.0a und b ist ja "nur" HDR, 2.0a ist wohl das BBC/Technicolor/Philips HDR ein fester Metawert,
bei HDMI2.0b kommt noch die dynamische Metadaten dazu was Dolbyvision/Sony bevorzugen, was aber die Datenmenge noch erhöht.

Ich denke das kann man mit einem Firmware updaten.

2.0b scheint wie zuvor beschrieben ja eher der Vorgänger von a mit geringer Farbabtastung zu sein..

dynamische metadaten scheinen erst mit 2.1 zu kommen:

HDMI 2.1 adds support for "dynamic metadata," according to a white paper written by Philips.[112]

In short: "HDMI 2.0a covers HDR EOTF signaling and static metadata. Dynamic metadata is to be covered in HDMI 2.1.

Quelle: https://en.wikipedia.org/wiki/HDMI

Solange wir da keine offizielle Quelle für die HDMI-Standards haben sind diese Details natürlich nur 90% sicher...
Sicher ist nur AMD schreibt von HDMI 2.0b Unterstützung für Polaris

Hübie

2016-05-03, 08:53:33

Bis zu fünf/sechs (müssen alle unterschiedlichen Typs sein, also maximal 1 vALU-Op + 1 sALU/sMEM-Op + 1 LDS-OP + 1 vMEM-Op + 1 Export/GDS + 1 Branch/Message + 1 interne) aus bis zu 10 Waves (maximal eine pro Wave, wenn z.B. nur 3 Waves laufen, können natürlich maximal 3 ausgewählt werden).

Ja klar, macht ja kein Sinn gleiche Instruktionen auf die SIMDs zu legen :D Preisfrage ist ob die auch vorher schon durch einen collector gesammelt und dann so verteilt werden, dass eben jede CU möglichst unterschiedliche Ops (instructions) laufen hat. Edit: Der operand collector braucht dann natürlich einen fence oder barrierer (weiß nicht welche Bezeichnung jetzt angebrachter wäre).

Das ist die Bandbreite des L1-I$ von 32Byte/Takt und CU, was im Optimalfall 8 Instruktionen sind, im schlechtesten Fall sind es nur 4 Instruktionen (die natürlich schneller abgearbeitet werden als 8 Instruktionen, was die Bandbreite des L1-I$ dann stärker belastet). GCN-Instruktionen sind entweder 4 oder 8 Byte lang, je nach Typ bzw. Variante (vALU-Instruktionen mit 3 Operanden sind z.B. 8 Byte lang).

Genau das meinte ich ja. Liest sich für mich nach einem Ungleichgewicht. Ich übertrage im optimalen Fall 8 instructions, kann aber nur <6 schedulen. Oder hängt jetzt was bei mir? :confused:

Verstehe die Frage nicht ganz.
Die IBs werden nicht interleaved (bzw. gibt es kein zwingendes festen Muster wie bei den VLIW-Architekturen mit odd und even Waves, es ist dynamisch). Es werden in einem Schedulertakt aus den IBs (es gibt ja einen pro Wave) möglichst viele Instruktionen unterschiedlichen Typs (maximal eine Instruktion pro Wave/IB) selektiert und dann simultan zur Ausführung gebracht. Im Prinzip kann pro Schedulertakt einer vALU (also alle 4 Takte) je eine Instruktion aus einem IB ausgeführt werden. Das Issue der Instruktionen für eine Wavefront erfolgt dabei strikt in-order (completion kann teilweise out-of-order erfolgen, Speicherzugriffe sind z.B. von ALU-Instruktionen entkoppelt aber meist bleibt die completion zumindest innerhalb eines Instruktionstyps in-order [außer bei sMEM und bei Exports bleibt es nur innerhalb eines Exporttyps in-order]).

Z.B.:
Takt 0:
vALU-Op für Wave A, sALU-Op für Wave B, LDS-Op für Wave C
Die Ausführung dauert 4 Takte (in denen die anderen drei mal 10 IBs für die anderen vALUs drankommen, der Issue-Port für sALU kann jeden Takt eine neue Instruktion annehmen [von den anderen drei Blöcken in der CU]).

Takt 4 kommt "unser" Block wieder dran:
vALU-Op für Wave A, sALU-Op für Wave D, vMEM für Wave E

Takt 8:
sALU-Op für Wave A, vALU-Op für Wave B, Branch für Wave D

Tak12: sMEM für Wave A, vALU-Op für Wave B, wait_cnt für Wave C (das ist so eine "interne" Op, die der Scheduler selber "ausführt"), Export für Wave E

...

In dem Beispiel hätte man also über 3 Instruktionen/Schedulertakt im Schnitt (was sich in der Praxis schwer halten lassen wird) und Wave A läuft in dem Mini-Abschnitt mit maximaler Geschwindigkeit von 1 Op/Schedulertakt (4 Takte). Das in-order Scheduling erlaubt es dabei nicht immer (bzw. nur bei vielen Waves) halbwegs nahe an die maximale Parallelität, die der Code bietet, heranzukommen. Dafür ist die Verwaltung stark vereinfacht. Laufen IBs leer, vermindert das die nutzbare Parallelität zusätzlich (da aus weniger Waves Instruktionen gewählt werden können). Größere IBs bzw. ein Instruktions-Prefetch Verringern den Performanceverlust durch das Leerlaufen von IBs.

Ach so. Meine Idee war jetzt halt dass sich die fetches schon überlappen, so dass man halt immer einen vollen Puffer hat.
Übrigens liest sich das alles sehr nach viel datamovemet, was den erhöhten

Energiebedarf wohl erklärt. GCN=flexibel, speicherbasiert und macht vieles eigentständig, Kepler+=unflexibler, latenzbasiert und vieles macht der Treiber was man nicht einsehen | beeinflussen kann.
Kann man so stehen lassen oder?

Komisch... jahrelang hatte Nvidia die Finger im Kuchen, da war die Welt noch völlig in Ordnung. ;) UWP-Probleme ist nur eine Frage der Zeit und sollte in diesem Monat wenn MS den Zeitplan einhält Geschichte sein. Zudem beziehen sich die UWP-Probleme nur auf Win10-Store Games. Hat nichts mit low level ansich zu tun.

Das sehe ich ganz anders. In der Übergangsphase gibts immer gewisse Probleme, das war nie anders.

Hatte ich ganz vergessen: Ich versteh nicht wieso du jedes Mal mit der AMD vs NVIDIA-Nummer kommst. :rolleyes: Dabei kannst du so gut argumentieren. Ich persönlich fand es nie toll das irgendein IHV seine Pfoten bei Spieleentwicklungen mit drin hat. Kannst dir gern meine Statements heraus suchen.
Und an Übergangsprobleme D3D9<->D3D11 kann ich mich beim besten Willen nicht erinnern. Es ging langsam, dank Konsolenschrott. Aber es lief auf Anhieb. Und wenn ich sehe was man selbst bei D3D11 herausholen kann ist es noch fragwürdig ob der Mehraufwand zu D3D12 gerechtfertigt ist. Beachte das Wort "NOCH"!!!

Ravenhearth

2016-05-03, 13:06:54

Solange wir da keine offizielle Quelle für die HDMI-Standards haben sind diese Details natürlich nur 90% sicher...
Sicher ist nur AMD schreibt von HDMI 2.0b Unterstützung für Polaris

Hab diese Tabelle gefunden:

55833

Level B ist HDMI 2.0b. Das scheint technisch näher an 1.4 zu liegen als an 2.0a, unterstützt aber HDCP 2.2. HDR ist damit doch gar nicht möglich?
Zumal 2.0b schon von Kepler und Maxwell 1.0 unterstützt wird (nach Treiberupdate), Maxwell 2.0 kann HDMI 2.0a.
Kann man nur hoffen, dass die Angabe auf der Website falsch ist.

Unicous

2016-05-03, 13:23:51

2.0b ist kam doch nach 2.0a oder spinne ich? Warum sollte AMD b unterstützen, aber nicht a?

Außerdem ist das doch eh "nur" eine Software Sache, ich verstehe gerade nicht, warum da so ein Aufriss drum gemacht wird.:confused:

Ravenhearth

2016-05-03, 13:34:14

Offensichtlich kam es davor, nicht danach. Und 2.0b -> 2.0a es ist eben NICHT nur eine Software-Sache wenn die Tabelle stimmt, 2.0a hat eine wesentlich höhere Bandbreite für HDR usw.

Pick

2016-05-03, 13:52:31

HDMI 2.0a
http://www.techporn.ph/wp-content/uploads/2016/01/AMD-Polaris-Architecture-Reveal-2.jpg

HDMI 2.0b
http://www.amd.com/en-gb/innovations/software-technologies/radeon-polaris

:confused:

Complicated

2016-05-03, 13:54:35

Ach so. Meine Idee war jetzt halt dass sich die fetches schon überlappen, so dass man halt immer einen vollen Puffer hat.
Übrigens liest sich das alles sehr nach viel datamovemet, was den erhöhten

Energiebedarf wohl erklärt. GCN=flexibel, speicherbasiert und macht vieles eigentständig, Kepler+=unflexibler, latenzbasiert und vieles macht der Treiber was man nicht einsehen | beeinflussen kann.
Kann man so stehen lassen oder?

Hier eine recht gute Präsentation über Frostbite+GCN die das anschneidet und Optimierungen für GCN empfiehlt.
http://www.frostbite.com/2016/03/optimizing-the-graphics-pipeline-with-compute/
Daraus lässt sich einiges ableiten.

Kartenlehrling

2016-05-03, 14:40:15

Hab diese Tabelle gefunden:

55833

Level B ist HDMI 2.0b. Das scheint technisch näher an 1.4 zu liegen als an 2.0a, unterstützt aber HDCP 2.2. HDR ist damit doch gar nicht möglich?
Zumal 2.0b schon von Kepler und Maxwell 1.0 unterstützt wird (nach Treiberupdate), Maxwell 2.0 kann HDMI 2.0a.
Kann man nur hoffen, dass die Angabe auf der Website falsch ist.

So wie sich das auch mit den Blu-Ray Laufwerke ( Nicht player) verhält, die Film- und MedienIndustrie will gar nicht so "offen" sein, es gibt ja nichtmal ein UHD-HDR Softwareplayer.
Also ich habe noch keinen Beitrag gesehen das bewiesen hat das Maxmell 2.0 eine UHD-HDR Blu-Ray abspielen kann oder Netflix UHD-HDR auf einen HDR tauglichen TV.

Ausserdem hat AMD doch eine HDR Demo gezeigt, (https://www.youtube.com/watch?v=MnvctltAKLE)die wird wohl bestimmt nicht von einer gtx960 berechnend.

Botcruscher

2016-05-03, 15:54:52

Die sollen mal lieber mit DP1.4 hin machen.

Pick

2016-05-03, 16:41:46

HDMI 2.0b, which is backwards compatible with earlier versions of the HDMI specification, is the most recent update of the HDMI specification. It also enables key enhancements to support market requirements for enhancing the consumer video and audio experience.

What are the key advanced features enabled by HDMI 2.0b?

Enables transmission of High Dynamic Range (HDR) video
Bandwidth up to 18Gbps
4K@50/60 (2160p), which is 4 times the clarity of 1080p/60 video resolution
Up to 32 audio channels for a multi-dimensional immersive audio experience
Up to 1536kHz audio sample frequency for the highest audio fidelity
Simultaneous delivery of dual video streams to multiple users on the same screen
Simultaneous delivery of multi-stream audio to multiple users (Up to 4)
Support for the wide angle theatrical 21:9 video aspect ratio
Dynamic synchronization of video and audio streams
CEC extensions provide more expanded command and control of consumer electronics devices through a single control point
HDMI 2.0b does not define new cables or new connectors. Current High Speed cables (Category 2 cables) are capable of carrying the increased bandwidth.

http://www.hdmi.org/manufacturer/hdmi_2_0/index.aspx

HDMI2.0b compatible with all previous HDMI specification version, it is by far the latest version of HDMI. And make key improvements to support the consumer electronics market for video and audio experience increasing demand.
http://www.hdmi.org/manufacturer/hdmi_2_0/index_cn.aspx

Unicous

2016-05-03, 16:42:53

Offensichtlich kam es davor, nicht danach. Und 2.0b -> 2.0a es ist eben NICHT nur eine Software-Sache wenn die Tabelle stimmt, 2.0a hat eine wesentlich höhere Bandbreite für HDR usw.

HDMI2.0b compatible with all previous HDMI specification version, it is by far the latest version of HDMI. And make key improvements to support the consumer electronics market for video and audio experience increasing demand.

:rolleyes:

bzw.

HDMI 2.0b, which is backwards compatible with earlier versions of the HDMI specification, is the most recent update of the HDMI specification. It also enables key enhancements to support market requirements for enhancing the consumer video and audio experience.
http://www.hdmi.org/manufacturer/hdmi_2_0/index.aspx

Seit wann kommt b vor a und seit wann wirft HDMI ihre Nomenklatur über Board. b rundet das Ganze einfach nach unten ab.

N0Thing

2016-05-03, 17:31:23

Seltsam, wofür braucht es denn HDMI 2.0b, wenn man mit 2.0a schon alles abgedeckt hat. :confused:
Oder ist die Tabelle einfach falsch/irreführend gekennzeichnet?

Gipsel

2016-05-03, 21:34:51

Ja klar, macht ja kein Sinn gleiche Instruktionen auf die SIMDs zu legen :DDas hat weniger mit einem "auf die SIMDs legen" zu tun, sondern ergibt sich daher, daß im Prinzip ein Scheduler für alle 4 SIMDs/vALUs in einer CU zuständig ist und Waves an eine vALU gepinnt sind. Der Scheduler geht immer schön reihum durch die SIMDs (round robin) und issued dann jeden Takt bis zu 5 Instruktionen. Die Issue-Ports für die verschiedenen Einheiten sind zwischen den SIMDs in einer CU geshared, bis eben auf die vALU. Und es gibt pro Instruktionstyp immer nur genau einen Port. Deswegen kann pro Takt eben immer nur eine Instruktion eines Instruktionstyps zur Ausführung kommen.
Preisfrage ist ob die auch vorher schon durch einen collector gesammelt und dann so verteilt werden, dass eben jede CU möglichst unterschiedliche Ops (instructions) laufen hat. Edit: Der operand collector braucht dann natürlich einen fence oder barrierer (weiß nicht welche Bezeichnung jetzt angebrachter wäre).Du hast vermutlich eine etwas falsche Vorstellung eines operand collectors (der holt im Prinzip alle für eine Instruktion benötigten Werte z.B. aus den Registerfiles oder aus dem result forwarding network). Und einzelne Instruktionen werden sowieso nie auf CUs verteilt. Was verteilt sind werden Wavefronts. Der Commandprocessor hat den Überblick über die von den aktuell laufenden Waves belegten Ressourcen in den CUs (bzw. bis runter auf das Level einzelner SIMDs), also wieviele Waves welchen Typs und welchen Kontextes auf jedem SIMD laufen (und mit welcher Priorität), wieviele Register in jedem SIMD belegt sind (Vektor- und Skalarregister) und wieviel vom LDS jeder CU belegt ist. Anhand dieser Informationen trifft der CP die Entscheidung, wohin die nächste Wave kommt. In der ausgewählten CU wird dann Speicher im LDS und Registerplatz alloziert und auf Veranlassung des CPs mit entsprechenden Startwerten initialisiert (z.B. mit Pointern auf vom Shadercode benötigte Datenstrukturen bzw. mit Resultaten von vorhergehenden Shaderstages und sowas; der Shadercode muß ja wissen, womit er arbeiten soll ;)). Dann wird der PC (program counter, heißt bei CPUs instruction pointer, ist also der Zeiger auf die aktuelle Stelle im Shadercode) für die Wave in der CU auf den Anfang des Shadercodes gesetzt und los geht's. Danach läuft der komplette Code für diese Wave auf diesem einen SIMD ab (das kann man nicht auf je nach Instruktion woanders hin verteilen, da woanders die ganzen Werte mit denen die Instruktionen arbeiten [Register, LDS] ja gar nicht vorliegen).
Wenn er dann fertig ist, werden die belegten Ressourcen wieder freigegeben und das dem CP gemeldet und eine andere Wave desselben oder eines anderen Shaders kann sie dann nutzen.
Der Instruktionsmix ist wie er ist. Den kennt der CP nicht, also können die Waves auch nicht entsprechend verteilt werden (und ich bezweifle auch, ob das viel bringen würde, dazu sind andere Einflußfaktoren zu groß).
Genau das meinte ich ja. Liest sich für mich nach einem Ungleichgewicht. Ich übertrage im optimalen Fall 8 instructions, kann aber nur <6 schedulen. Oder hängt jetzt was bei mir? :confused:Ist das ein Ungleichgewicht, wenn Dein Auto im Prinzip z.B. 200km/h fahren kann, aber Du Dich im Normalfall auf der Autobahn nur mit durchschnittlich 150km/h fortbewegst und auch häufig im Stadtverkehr mit 50km/h rumgondelst?
Wenn Du den Instruktionsfetch z.B. auf schon nur noch maximal 4 Instruktionen pro Takt begrenzt wäre, würde man die Peaks mit 4 oder gar 5 Instruktionen pro Takt nicht nutzen können. Wegen den Kollisionen beim Wiederauffüllen der IBs, sind doch offenbar schon 4-8 Instruktionen etwas knapp bemessen, stellt also in einigen Situationen (natürlich nicht immer) einen Flaschenhals dar, der die Performance mindert. Den Instruktionsfetch zu verbessern (z.B. mit Prefetching) stellt sicher, daß immer (oder zumindest häufiger) die volle Performance einer CU genutzt werden kann. Wenn die Ausführungseinheiten selber den Flaschenhals bilden, läuft der Chip in der Praxis näher an der theoretischen Performance, es steigert also die Performance pro SP.
Ach so. Meine Idee war jetzt halt dass sich die fetches schon überlappen, so dass man halt immer einen vollen Puffer hat.
Übrigens liest sich das alles sehr nach viel datamovemet, was den erhöhten

Energiebedarf wohl erklärt. GCN=flexibel, speicherbasiert und macht vieles eigentständig, Kepler+=unflexibler, latenzbasiert und vieles macht der Treiber was man nicht einsehen | beeinflussen kann.
Kann man so stehen lassen oder?Nicht wirklich.
GCN pinnt die Daten allgemein gesehen sehr nahe an die ALUs. Ein bestimmter Registerwert kann mit den normalen Operationen nur in genau einem einzigen SP landen (also genau einem "Slot" der vALU). Auch das Scheduling an sich ist clever streamlined und vermeidet im Prinzip übermäßigen Aufwand, weil Durchsatz und Latenz der Operationen mit dem Scheduling auf die vier SIMDs genau abgestimmt sind.
Und am Instruktionfetch oder so kann man das sowieso nicht festmachen. Auch Kepler/Maxwell/Pascal müssen ja die Instruktionen irgendwie zu den SMs bekommen. Da weiß bloß keiner (außerhalb von nV), wie das abläuft. Man hat also schlicht keinen Ansatz zum Vergleich.

mboeller

2016-05-04, 08:59:56

Seltsam, wofür braucht es denn HDMI 2.0b, wenn man mit 2.0a schon alles abgedeckt hat. :confused:
Oder ist die Tabelle einfach falsch/irreführend gekennzeichnet?

2.0a benötigt mehr Bandbreite = teurer

2.0b ist also die günstigere Alternative

Wahrscheinlich haben sich einige Hersteller beschwert, das 2.0a zu teuer ist (Hardware) und deshalb wurde der 2.0b als günstigere Alternative nachträglich gebracht nachdem die Hersteller lange genug gemeckert hatten.

Locuza

2016-05-04, 10:23:45

Keine Ahnung wohin damit, aber da hier die letzten Beiträge viel Wissen vermittelt haben, denke ich das hier der schönste Platz :D

It seems that people are still confusing terms "async compute", "async shaders" and "compute queue". Marketing and press doesn't seem to understand the terms properly and spread the confusion :)

Hardware:
AMD: Each compute unit (CUs) on GCN can run multiple shaders concurrently. Each CU can run both compute (CS) and graphics (PS/VS/GS/HS/DS) tasks concurrently. The 64 KB LDS (local data store) inside a CU is dynamically split between currently running shaders. Graphics shaders also use it for intermediate storage. AMD calls this feature "Async shaders".

Intel / Nvidia: These GPUs do not support running graphics + compute concurrently on a single compute unit. One possible reason is the LDS / cache configuration (GPU on chip memory is configured differently when running graphics - CUDA even allows direct control for it). There most likely are other reasons as well. According to Intel documentation it seems that they are running the whole GPU either in compute mode or graphics mode. Nvidia is not as clear about this. Maxwell likely can run compute and graphics simultaneously, but not both in the same "shader multiprocessor" (SM).

Async compute = running shaders in the compute queue. Compute queue is like another "CPU thread". It doesn't have any ties to the main queue. You can use fences to synchronize between queues, but this is a very heavy operation and likely causes stalls. You don't want to do more than a few fences (preferably one) per frame. Just like "CPU threads", compute queue doesn't guarantee any concurrent execution. Driver can time slice queues (just like OS does for CPU threads when you have more threads than the CPU core count). This can still be beneficial if you have big stalls (GPU waiting for CPU for instance). AMDs hardware works a bit like hyperthreading. It can feed multiple queues concurrently to all the compute units. If a compute units has stalls (even small stalls can be exploited), the CU will immediately switches to another shader (also graphics<->compute). This results in higher GPU utilization.

You don't need to use the compute queue in order to execute multiple shaders concurrently. DirectX 12 and Vulkan are by default running all commands concurrently, even from a single queue (at the level of concurrency supported by the hardware). The developer needs to manually insert barriers in the queue to represent synchronization points for each resource (to prevent read<->write hazards). All modern GPUs are able to execute multiple shaders concurrently. However on Intel and Nvidia, the GPU is running either graphics or compute at a time (but can run multiple compute shaders or multiple graphics shaders concurrently). So in order to maximize the performance, you'd want submit large batches of either graphics or compute to the queue at once (not alternating between both rapidly). You get a GPU stall ("wait until idle") on each graphics<->compute switch (unless you are AMD of course).
https://forum.beyond3d.com/posts/1911098/

Ailuros

2016-05-04, 10:30:47

Ich "liebe" sebbi schon immer aus meiner technofreak Laien-Perspektive ;)

Darf ich mal wieder laestern? https://www.guru3d.com/news-story/amd-radeon-r9-480-perf-is-close-to-r9-390x.html

Hat der Author selbst die geringste Ahnung von der Materie oder sollte er sich lieber gleich bei wccftech bzw. fudzilla bewerben? "Close" von den Resultaten die er selber zeigt ist wohl verdammt grosszuegig denn die Polaris wasauchimmer GPU liegt in den 3 tests in offscreen um 39, 50 & 42% hinter der 390X welches wohl nicht als "nahe" beschrieben werden kann. Wenn jetzt jeglicher Trottel NICHT wissen sollte dass onscreen in diesem Fall vsynced ist, sollte er auch gefaelligst die Finger vom keyboard lassen.

Das hat jetzt wirklich nichts mit Polaris chips per se zu tun, sondern der eigentlichen Unfaehigkeit von so manchem Kerl der sich als online Journalist praesentieren will....

R.I.P.

2016-05-04, 10:36:21

Ich "liebe" sebbi schon immer aus meiner technofreak Laien-Perspektive ;)

Darf ich mal wieder laestern? https://www.guru3d.com/news-story/amd-radeon-r9-480-perf-is-close-to-r9-390x.html

Hat der Author selbst die geringste Ahnung von der Materie oder sollte er sich lieber gleich bei wccftech bzw. fudzilla bewerben? "Close" von den Resultaten die er selber zeigt ist wohl verdammt grosszuegig denn die Polaris wasauchimmer GPU liegt in den 3 tests in offscreen um 39, 50 & 42% hinter der 390X welches wohl nicht als "nahe" beschrieben werden kann. Wenn jetzt jeglicher Trottel NICHT wissen sollte dass onscreen in diesem Fall vsynced ist, sollte er auch gefaelligst die Finger vom keyboard lassen.

Das hat jetzt wirklich nichts mit Polaris chips per se zu tun, sondern der eigentlichen Unfaehigkeit von so manchem Kerl der sich als online Journalist praesentieren will....

Was bedeutet eigentlich offscreen fps beim Test?

Hübie

2016-05-04, 10:47:23

Ich "liebe" sebbi schon immer aus meiner technofreak Laien-Perspektive ;)

Darf ich mal wieder laestern? https://www.guru3d.com/news-story/amd-radeon-r9-480-perf-is-close-to-r9-390x.html

Hat der Author selbst die geringste Ahnung von der Materie oder sollte er sich lieber gleich bei wccftech bzw. fudzilla bewerben? "Close" von den Resultaten die er selber zeigt ist wohl verdammt grosszuegig denn die Polaris wasauchimmer GPU liegt in den 3 tests in offscreen um 39, 50 & 42% hinter der 390X welches wohl nicht als "nahe" beschrieben werden kann. Wenn jetzt jeglicher Trottel NICHT wissen sollte dass onscreen in diesem Fall vsynced ist, sollte er auch gefaelligst die Finger vom keyboard lassen.

Das hat jetzt wirklich nichts mit Polaris chips per se zu tun, sondern der eigentlichen Unfaehigkeit von so manchem Kerl der sich als online Journalist praesentieren will....

Exakt das dachte ich als ich mir die drei Resultate angesehen habe. Man schaut doch zuerst auf offscreen... ;D

@R.I.P.: nicht auf native Auflösung beschränkt und kein v-blank (bei smartphone z.b. wird das auf kleine Auflösung skaliert wenn display res < render res ist).

dildo4u

2016-05-04, 10:47:40

Was bedeutet eigentlich offscreen fps beim Test?
1080p,das wurde eingeführt damit jedes Smartphone die selbe Auflösung testet.
Ansonsten wären Modelle mit 1080p vs 1440p Screen nicht Vergleichbar.

R.I.P.

2016-05-04, 11:37:12

Danke euch beiden

Leonidas

2016-05-05, 04:16:43

Bin auch wirklich erstaunt, das einige diese Mär geschrieben haben, nach dem Aufkommen dieser Ergebnisse. Da hat man sich wohl mehr von der Titelzeile anderer Meldungen insprieren lassen als denn die Ergebnisse wirklich angesehen.

Skysnake

2016-05-05, 10:42:39

Ich "liebe" sebbi schon immer aus meiner technofreak Laien-Perspektive ;)

Darf ich mal wieder laestern? https://www.guru3d.com/news-story/amd-radeon-r9-480-perf-is-close-to-r9-390x.html

Hat der Author selbst die geringste Ahnung von der Materie oder sollte er sich lieber gleich bei wccftech bzw. fudzilla bewerben? "Close" von den Resultaten die er selber zeigt ist wohl verdammt grosszuegig denn die Polaris wasauchimmer GPU liegt in den 3 tests in offscreen um 39, 50 & 42% hinter der 390X welches wohl nicht als "nahe" beschrieben werden kann. Wenn jetzt jeglicher Trottel NICHT wissen sollte dass onscreen in diesem Fall vsynced ist, sollte er auch gefaelligst die Finger vom keyboard lassen.

Das hat jetzt wirklich nichts mit Polaris chips per se zu tun, sondern der eigentlichen Unfaehigkeit von so manchem Kerl der sich als online Journalist praesentieren will....
Wobei die Ergebnisse offscreen für gerade mal 16CUs doch ziemlich gut sind. Polaris 10 sollte damit klar schneller sein als Hawaii.

Ailuros

2016-05-05, 11:04:26

Wobei die Ergebnisse offscreen für gerade mal 16CUs doch ziemlich gut sind. Polaris 10 sollte damit klar schneller sein als Hawaii.

Erstens redet der Author fuer die Resultate nirgends ueber Polaris11 sondern 10 und zweitens ging es wirklich nicht darum, sondern dass der Trottel sich an den vsynced onscreen Resultaten richtete fuer seinen Titel.

Es steht nirgends in den Resultaten wieviel clusters GPU N genau haben soll, noch gibt es selbst eine Indizie fuer eine Frequenz irgendwo, was wohl jegliche Schaetzung zur einfachen Kaffeesatz-leserei macht.

Dieser Kaffeesatz-Leserei zu liebe landet die 390X eine um 2.2x mal hoehere Fuellrate (Vorsicht die Resultate sind nie TMU*Frequenz weil u.a. alpha blending drinsteckt), ergo heisst es wenn zwischen diesem Polaris Dingsbums und der 390X das back end zu 100% identisch sein sollte (unlikely....) dann koennte die erste um 2.2 Mal eine niedrigere Frequenz haben. Klar genug?

iuno

2016-05-06, 14:14:46

Was hat es eigentlich fuer einen Sinn, den Chip diagonal auf dem Package zu verbauen?
Das hat AMD bei Tonga und Tahiti gemacht. Irgendwer hat hier mal das 384 Bit SI als Grund angefuehrt, vermutlich weil das PCB Layout dann einfacher wird? Aber Nvidia macht das ja mit ihren Chips ja auch nicht so.

Sorry, das ist schon etwas aelter (und eigentlich relativ unwichtig): http://videocardz.com/59487/amd-polaris-11-and-10-gpus-pictured

Jedenfalls verwendet AMD auf der neuen Polaris Infoseite (https://www.amd.com/en-us/innovations/software-technologies/radeon-polaris) folgendes Bild:
http://www.amd.com/PublishingImages/photography/product/770px/8677-gcn-image-770px.jpg

Das ist natuerlich wilde Raterei, aber womoeglich wird demnach auch P10 diagonal verbaut*. Koennte das doch noch auf ein vorhandenes 384-Bit SI hindeuten?

*Ich kann mich noch an solche Teaser-Bilder vom Package auf der AMD Homepage vor Fiji Launch erinnern, zumindest haben die sich damals als "richtig" herausgestellt.
http://videocardz.com/55561/editorial-how-big-is-fiji

Edit: oh, wurde hier ja auch schon angesprochen:
Hm kann das sein, dass P10 384Bit Speicherinterface bringt? Das würde das Rätsel um die Performance lösen. Man kann schlecht erkennen, ob das Package ähnlich ist wie bei Tonga und ebenfalls gedreht verbaut wurde, was für 384Bit sprechen würde.

Sorry, ich war zu lange abwesend, die Frage ist aber trotzdem noch aktuell ;)

Ravenhearth

2016-05-06, 15:16:29

Dass der Chip gedreht verbaut wird ist gar kein Indiz für 384 bit. AMD hat bspw. neben Tahiti folgende Chips gedreht verbaut: Cypress, Cayman, Pitcairn - und die haben alle 256 bit. Auch Tonga hat nur 256 bit nach außen geführt, weswegen das Package deutlich kleiner als bei Tahiti ist.

Edit: Zumal stark bezweifelt werden darf, dass 384 bit auf 232mm² überhaupt möglich sind. Von den Kosten ganz abgesehen.

HOT

2016-05-06, 15:49:50

Dass der Chip gedreht verbaut wird ist gar kein Indiz für 384 bit. AMD hat bspw. neben Tahiti folgende Chips gedreht verbaut: Cypress, Cayman, Pitcairn - und die haben alle 256 bit. Auch Tonga hat nur 256 bit nach außen geführt, weswegen das Package deutlich kleiner als bei Tahiti ist.
Das wird einfach davon abhängen wie man die I/O-Sachen im Chip plaziert, ob das gedreht verbaut werden muss oder nicht. Gibt es an 3 Seiten Speichercontroller, wird AMD das gedreht verbauen, wenn es nur an 2 Seiten Speichercontroller gibt, so wie bei Fiji und Hawaii, eben nicht. Und das Tonga Package führt nicht nur 256Bit nach außen, das ist kompletter Schwachsinn. Wie kommt man auf sowas? Nur weil das Package einen Tick kleiner ist? Das macht 0 Sinn, da das Package eh kein Kostenfaktor ist, es aber die Möglichkeiten einschränkt sich später trotzdem noch für 384Bit zu entscheiden, wenn es nötig ist. Und ich denke doch, dass das bei 232mm² möglich ist.

Agent117

2016-05-06, 15:57:30

Koennte das doch noch auf ein vorhandenes 384-Bit SI hindeuten?

Da AMD zur Tahiti Einführung sowas sagte wie man sei froh in 350mm² 384 Bit reinbekommen zu haben halte ich das - falls die 232mm² für P10 stimmen - für unmöglich.

http://cdn.wccftech.com/wp-content/uploads/2013/12/AMD-Hawaii-GPU.jpg

Kannst ja mal bei Pitcairn da gucken. Die blauen und orangenen Rechtecke sind das SI. Außerdem liegen da aber auch noch mind. der Display Controller und der PCI Express Bus am Rand. Man sieht auch dass Tahitis SI Blöcke größer sind; er unterstützt ja auch höhertaktenden Speicher.
Da der hier schon mehrfach anhand eines Bildes auf der AMD Homepage extrudierte P10 DIE-Shot zeigt, dass P10 recht länglich ist, bekäme man 6 64 Bit Blöcke vlt noch eher unter als bei Tonga aber das ist nur reine Spekulation meinerseits.

HOT

2016-05-06, 16:00:54

Dann schau dir mal die Mem-Controller auf Tahiti, dann auf Pitcairn, dann auf Hawaii an. Die sind stetig relativ stark geschrumpft. Wie haben nicht mehr 2011. AMD hat ja selbst in den Polaris-Folien bekanntgegeben, dass sie am Memory/Cache gearbeitet haben.

Ravenhearth

2016-05-06, 16:05:37

Und das Tonga Package führt nicht nur 256Bit nach außen, das ist kompletter Schwachsinn. Wie kommt man auf sowas? Nur weil das Package einen Tick kleiner ist? Das macht 0 Sinn, da das Package eh kein Kostenfaktor ist, es aber die Möglichkeiten einschränkt sich später trotzdem noch für 384Bit zu entscheiden, wenn es nötig ist.

Das Package ist nicht nur einen Tick, sondern deutlich kleiner! Ungefähr auf der Größe von Tahiti LE mit ebenfalls 256 bit. Wenn man später eine Version mit 384 bit rausbringen will, nimmt man halt ein anderes Package.

The chip die of the R9 285 is placed on a package that features just 256 pins, but there is no reason why the hardware can’t be set on a bigger package with more pins, allowing access to the full width of the memory bus.
Link (http://www.eteknix.com/amd-tonga-features-384-bit-memory-interface/)

Dann schau dir mal die Mem-Controller auf Tahiti, dann auf Pitcairn, dann auf Hawaii an. Die sind stetig relativ stark geschrumpft. Wie haben nicht mehr 2011. AMD hat ja selbst in den Polaris-Folien bekanntgegeben, dass sie am Memory/Cache gearbeitet haben.

Die MCs Hawaii sind nur wenig kleiner als bei Pitcairn. Imho sind 384 bit bei 232mm² definitiv nicht möglich. Aber vielleicht kann ja jemand was dazu sagen, der sich wirklich damit auskennt.

iuno

2016-05-06, 16:09:09

Dann schau dir mal die Mem-Controller auf Tahiti, dann auf Pitcairn, dann auf Hawaii an. Die sind stetig relativ stark geschrumpft.
Naja Pitcairn und Tahiti waren ja noch relativ "zeitgleich".
Zudem sieht es bei dem Bild so aus, als dass Hawaii die MCs von Pitcairn uebernommen hat bzw. wenigstens mehr damit gemeinsam hat. IIRC wurde aber irgendwie bei Hawaii Release auch behauptet, sie haetten daran gearbeitet und deshalb die MCs kleiner und sparsamer hinbekommen als bei Tahiti.
Jedenfalls sind die von Tahiti viel groesser. Wobei ich nicht weiss, wie genau das Bild ist immerhin wird da auch von 48 CUs bei Hawaii ausgegangen.
Interessanter waere da imho noch ein Vergleich mit einem 40 nm Chip, hier ist ja alles 28 nm, Polaris 14. Wenn die Frequenzen nicht wieder so hoch angelegt werden, koennte das mglw. schon nochmal geschrumpft sein?

Ravenhearth

2016-05-06, 16:27:31

Imho sind 384 bit bei Polaris 10 schon allein deswegen ausgeschlossen, weil das ein verkappter Mainstream-PC- und High-End-Notebook-Chip im Pitcairn-Bereich ist. Karten damit dürften auch ähnlich viel kosten, also bis $350 bei Release und in 1,5 Jahren vielleicht nur noch $200 (Vollausbau). Tahiti hatte 384 bit, weil der für ganz andere Preislagen und Märkte gedacht war, und schon bei Tonga hat sich das Aktivieren von mehr als 256 bit aufgrund der Kosten nicht gelohnt. Selbst wenn die Bandbreite bei Polaris 10 mit GDDR5 nicht ausreichen sollte, wäre GDDR5X wohl die bessere Alternative. Aber wenn bei Nvidia 10 Mbps und 256bit für 2560 Shader@1,8GHz ausreichen, dann sollte AMD es auch schaffen, 2560 Shader@1,15GHz mit max. 7 Mbps und 256bit zu versorgen.

Nakai

2016-05-06, 16:31:41

Man braucht kein GDDR5X, weil man nicht in diesen Leistungsregionen vordringen möchte. Wenn man GDDR5 auf max ausfahren möchte, also 8Gbps, dann hat GP104 etwa 25% mehr Bandbreite, was bei bestimmten Situationen etwa 25% maximale Mehrperformance bedeutet. Mit 1,6GHz hat GP104 einen hohen Takt. Ergo wird man etwas oberhalb meiner Einordnung landen, also somit wird man so 30% vor P10 liegen, schätze ich.

P10 sollte man schon auf Hawaii-Niveau einordnen können, eher ein Stück darüber.

Agent117

2016-05-06, 17:13:23

Naja Pitcairn und Tahiti waren ja noch relativ "zeitgleich".
Zudem sieht es bei dem Bild so aus, als dass Hawaii die MCs von Pitcairn uebernommen hat bzw. wenigstens mehr damit gemeinsam hat. IIRC wurde aber irgendwie bei Hawaii Release auch behauptet, sie haetten daran gearbeitet und deshalb die MCs kleiner und sparsamer hinbekommen als bei Tahiti.
Jedenfalls sind die von Tahiti viel groesser. Wobei ich nicht weiss, wie genau das Bild ist immerhin wird da auch von 48 CUs bei Hawaii ausgegangen.
Interessanter waere da imho noch ein Vergleich mit einem 40 nm Chip, hier ist ja alles 28 nm, Polaris 14. Wenn die Frequenzen nicht wieder so hoch angelegt werden, koennte das mglw. schon nochmal geschrumpft sein?

Das mit den 48CUs ist mit Sicherheit quatsch, sowas wurde seit RV770 bei jeden Chip gemunkelt und hat wenn überhaupt nur bei RV770 gestimmt.
Hawaii hat den MC von Pitcairn bekommen (kleinere Änderungen nicht ausgeschlossen). Tahitis MC ist der von Cayman und wurde nach Tahiti nicht mehr verbaut.
Wir hatten das hier vor ein par Monaten schon einmal. Bei einer Node Verkleinerung schrumpft bei einem MC nur der Logikteil. Der MC besteht jedoch vor allem auch aus Treibern die nach außen geführt werden müssen. Hier limitiert dann vor allem das Platinenlayout, ggf auch die Treiber selbst.
Heißt dass der MC bei einem Shrink nur geringfügig kleiner wird oder sogar gleich groß bleibt.

Skysnake

2016-05-06, 20:52:51

NAja, die Treiber kannste eventuell schon auch kleiner machen, aber die PADs werden nicht kleiner, und auch die ESD Struckturen nicht, genau wie die Widerstände.

OBrian

2016-05-06, 22:59:57

Die Frage ist doch, warum sollte man 384bit verbauen und dann nicht nutzen? Bestimmt nicht nur, "weil man es kann". Bei Tonga war es wohl Fehlplanung, d.h. der nachgeschobene Chip wäre sonst zu stark geworden für die anderen Chips drumherum. Aber bei Polaris gibt es eine neue Generation, wo alles von neu auf geplant wird, und das ist der erste Chip, ohne Eingrenzung durch seine Nachbarn. Sich dabei zu vertun, wäre sehr ungewöhnlich.

iuno

2016-05-06, 23:30:45

Imho sind 384 bit bei Polaris 10 schon allein deswegen ausgeschlossen, weil das ein verkappter Mainstream-PC- und High-End-Notebook-Chip im Pitcairn-Bereich ist. [...] Tahiti hatte 384 bit, weil der für ganz andere Preislagen und Märkte gedacht war, und schon bei Tonga hat sich das Aktivieren von mehr als 256 bit aufgrund der Kosten nicht gelohnt. Selbst wenn die Bandbreite bei Polaris 10 mit GDDR5 nicht ausreichen sollte, wäre GDDR5X wohl die bessere Alternative. Aber wenn bei Nvidia 10 Mbps und 256bit für 2560 Shader@1,8GHz ausreichen, dann sollte AMD es auch schaffen, 2560 Shader@1,15GHz mit max. 7 Mbps und 256bit zu versorgen.
Tahiti hatte vor allem auch DP Leistung, war fuer HPC bis Hawaii kam das Flaggschiff und brauchte sicher auch dadurch ordentlich Bandbreite.
Klar ist Tahiti vom Lineup her eine Klasse ueber P10, aber das ist fuer mich kein Argument. Juniper hatte 128 Bit, Cypress 256. Barts und Cayman dann beide 256 und Pitcairn/Tahiti dann 256/384. Wenn die Chips schneller werden (und P10 wird ja auf Hawaii Niveau gehandelt) muss halt auch mehr Bandbreite her, ist ja voellig klar. Nvidia hat da viel ueber den Takt gemacht, jetzt mit GDDR5X. Beides ist fuer P10 unsicher. Den Vergleich kann man nicht 1:1 ziehen, man muss ja nur mal schauen was Hawaii vs. GM204 oder Tonga vs. GM206 an Bandbreite braucht.

Wenn man GDDR5 auf max ausfahren möchte, also 8Gbps, dann hat GP104 etwa 25% mehr Bandbreite
Es ist aber nicht nur die Frage, ob man moechte, sondern auch, ob man kann. Haette AMD gekonnt, waeren sie vielleicht auch bei Hawaii mit 384 Bit und hoeheren Takten gefahren. Wie es aussieht, legt Polaris ja ohnehin wieder mehr an Packdichte als an Takt drauf. Ein SI was 8 Gbps mitmacht muessten die erstmal hinbekommen.

Das mit den 48CUs ist mit Sicherheit quatsch, sowas wurde seit RV770 bei jeden Chip gemunkelt und hat wenn überhaupt nur bei RV770 gestimmt.
Das ist voellig klar und wurde von mir nur aufgefuehrt, damit die Quelle nicht als voellig korrekt gehandelt wird.
Hawaii hat den MC von Pitcairn bekommen (kleinere Änderungen nicht ausgeschlossen). Tahitis MC ist der von Cayman und wurde nach Tahiti nicht mehr verbaut.
Wir hatten das hier vor ein par Monaten schon einmal. Bei einer Node Verkleinerung schrumpft bei einem MC nur der Logikteil. Der MC besteht jedoch vor allem auch aus Treibern die nach außen geführt werden müssen. Hier limitiert dann vor allem das Platinenlayout, ggf auch die Treiber selbst.
Heißt dass der MC bei einem Shrink nur geringfügig kleiner wird oder sogar gleich groß bleibt.
Es ist voellig klar, dass nicht der komplette MC um 100% schrumpft, er muss aber eben auch nicht genauso gross bleiben. Und letzteres wurde ja hier angefuehrt als Argument fuer die "Unmoeglichkeit" eines 384 Bit breiten SI.

Die Frage ist doch, warum sollte man 384bit verbauen und dann nicht nutzen? Bestimmt nicht nur, "weil man es kann".
Wer sagt denn, dass es nicht genutzt wuerde? AFAIK hat man von P10 XT noch rein gar nichts gesehen.

Dass Cayman und Pitcairn auch gedreht verbaut waren, hatte ich gar nicht auf dem Schirm :redface:

horn 12

2016-05-07, 04:50:20

Nun lässt AMD endlich die Katze aus dem Sack!

iuno

2016-05-07, 04:57:10

Wo denn?

soLofox

2016-05-07, 07:29:13

horn 12 ist für sein trollen bekannt, keine Sorge.

horn 12

2016-05-07, 07:46:20

Wollte nur sagen, dass AMD nun die Katze aus dem Sack lassen darf
Abwarten auf die Lieferbarkeit der GTX 1080 und 1070 wäre nochmals schlechter für AMD
Vor Allem falls Polaris 10 (XT) trotz alles Skepsis dochnoch Fury X erreichen sollte!

victore99

2016-05-07, 10:45:08

Ich kann mir keinen Reim drauf machen, Dass, wenn NV auf Clocks geht, der große Vega-Chip bei Packdichten-AMD nur 4096 Shader hat. Sorry, aber nein.
Darüber nochmal was mit 6144 Shadern sollte reinpassen. Dann noch ein entsprechend größeres HBM-Interface und die Runde sollte an AMD gehen.
Denn um gegen 4096 Vega-Shader und HBM beim kleinen Vega mit einem GP104 mit 256 bit und nur 2560 Einheiten anzustinken müsste man den GP104 schon verdammt hoch Takten oder AMD hat aus Fiji nichts lernen können.

iuno

2016-05-07, 11:25:38

@horn12: :facepalm:

Wie kommst du darauf?
Ich gehe von 4096 SP und 2 hbm stacks bei Vega 10 aus. V11 dann später mit entsprechend mehr CUs und 4 stacks. Alles andere macht für mich keinen Sinn

victore99

2016-05-07, 11:45:13

@horn12: :facepalm:

Wie kommst du darauf?
Ich gehe von 4096 SP und 2 hbm stacks bei Vega 10 aus. V11 dann später mit entsprechend mehr CUs und 4 stacks. Alles andere macht für mich keinen Sinn
Ich weiß nicht. 8G sieht für mich etwas mager aus für Vega.
Außerdem wäre das dann nicht linear (es sei denn AMD macht den Fehler auf 8k shader zu gehen). Ich weiß, kein Zwang, aber...
Wir wissen:
V10 ist Fiji done Right.
Also 4096SP.
Wenn dazu noch dasselbe IF kommt, haben wir 4 Stacks HBM.
Der Große dann eben 50% größer in allen Facetten und dann 6 Stacks. Klingt für mich als Neuling nicht unlogisch oder unmöglich.
Preis ist dann das andere :D

Der_Korken

2016-05-07, 11:57:08

4 HBM Stacks sind doch völlig übertrieben für V10. Mit zwei Stacks kommt man schon theoretisch auf 512GB/s, also doppelt so viel wie mit P10 (bei 8Gbps@256bit) oder 60% mehr als die Geforce 1080. 2x4GB halte ich auch nicht für zu wenig. Jedenfalls würde ein größerer Speicher für mich nicht einen hohen Aufpreis rechtfertigen. Die 980Ti kommt auch mit 6GB bestens aus.

HOT

2016-05-07, 12:50:54

Vega 10 Pro allein bringt bestimmt 10TFlops. Zudem die doppelte Speicherbandbreite der 1080, das wird überhaupt kein adäquater Gegner sein für Vega. Ich find die 1080/1070 gar nicht so toll. Die sind so knapp am Bandbreitenlimit designt, dass die sicherlich das ein oder andere Mal den Kürzeren ziehen werden, obwohl die Rechenleistung eigentlich reicht dank der astronomischen Taktraten und den daraus resultierenden Verbräuchen. Zudem hat GP104 eine noch niedrigere Packdichte als GP100, ca. 24Mio Transistoren pro mm². AMD hat sicherlich 30Mio - da gehen zwar wahrscheinlich dann kaum mehr als 1,5GHz sinnvoll, jedoch bekommt man die 4K Shader in knapp über 300mm². NV wird nächstes Jahr sicherlich noch einen Refresh bringen, um da wieder hinzukommen mit 12Gbps GDDR5X und 10TFlops, dann rutscht der GP104 aber ins Mainstream ab, wie die GTX770. Beim GK104 war die Speichermenge der Flaschenhals, beim GM204 die bescheuerte Speicherpartition und 4GB ist für eine 500€-Karte ebenfalls knapp, wenn auch kein Genickbruch, die 10x0 haben zwar 8GB, aber mit ziemlich niedriger Speicherbandbreite pro TFlop. Die können keine Karten ohne Flaschenhälse. Ein Schelm wer Böses dabei denkt.

iuno

2016-05-07, 13:05:26

Ich weiß nicht. 8G sieht für mich etwas mager aus für Vega.
Außerdem wäre das dann nicht linear (es sei denn AMD macht den Fehler auf 8k shader zu gehen). Ich weiß, kein Zwang, aber...
Wir wissen:
V10 ist Fiji done Right.
Also 4096SP.
Wenn dazu noch dasselbe IF kommt, haben wir 4 Stacks HBM.
Der Große dann eben 50% größer in allen Facetten und dann 6 Stacks. Klingt für mich als Neuling nicht unlogisch oder unmöglich.
Preis ist dann das andere :D
Bis Vega 2017 kommt sollten langsam auch 8Hi Stacks verfuegbar sein. Zur Not koennte V10 (XT) also auch mit nur zwei Stacks mit 16 GiB kommen. 6 Stacks fuer V11 sehe ich nicht. Selbst wenn V11 wirklich grob V10*1,5 ist, kann man 4 Stacks nehmen und laesst die dann halt nicht mit 2 Gbps laufen. Da spielt die Speichermenge dann auch eine Rolle.

@HOT: Dass V10 vor GP104 liegen sollte, war doch absehbar. Dass das so klar wird, wie du denkst, sehe ich aber nicht.
Ich find die 1080/1070 gar nicht so toll. Die sind so knapp am Bandbreitenlimit designt, dass die sicherlich das ein oder andere Mal den Kürzeren ziehen werden, obwohl die Rechenleistung eigentlich reicht dank der astronomischen Taktraten und den daraus resultierenden Verbräuchen.
Naja, ist halt eine 1080p Karte :P SCNR
Bis Vega 2017 kommt kann Nvidia (oder Partner) auch locker eine 1080 OC mit 11 oder 12 Gbps GDDR5X nachschieben. Wenn man dann Fury mit der 980 vergleicht muss das gar nicht so einseitig ausgehen, zumal Vega sicher HPC Faehigkeiten mitbringt. Interessant bleibt dann vor allem der Effizienzvergleich von der hochgepruegelten 1080 gegen die breite Vega.

Alles andere ist aber weiterhin Milchmaedchenrechnerei. AMD muss es erstmal auf 1,5 GHz bringen, was alles andere als sicher ist.
Erstmal muss aber Polaris zeigen, was AMD aus 14 LPP und den Architekturverbesserungen holt. GP104 salvage ist wieder recht stark beschnitten, trotzdem muss P10 XT da erstmal ran kommen, sonst wird es sehr schwer.

R.I.P.

2016-05-07, 13:11:02

Dass V10 vor GP104 liegen sollte, war doch absehbar.

Naja, ist halt eine 1080p Karte :P SCNR

Alles andere ist aber weiterhin Milchmaedchenrechnerei. AMD muss es erstmal auf 1,5 GHz bringen, was alles andere als sicher ist.
Erstmal muss Polaris zeigen, was AMD aus 14 LPP und den Architekturverbesserungen holt. GP104 salvage ist wieder recht stark beschnitten, trotzdem muss P10 XT da erstmal ran kommen, sonst wird es sehr schwer.

Abwarten und Tee trinken. Ich amüsiere mich gerade köstlich, wie sich im Pascal Thread alle die Köpfe einschlagen, obwohl es noch keine unabhängigen Tests gibt XD
Trotzdem müsste Amd jetzt ein paar Infos mehr rausrücken

Lurtz

2016-05-07, 13:16:40

Abwarten und Tee trinken. Ich amüsiere mich gerade köstlich, wie sich im Pascal Thread alle die Köpfe einschlagen, obwohl es noch keine unabhängigen Tests gibt XD
Trotzdem müsste Amd jetzt ein paar Infos mehr rausrücken
Viel Besorgnis erregender ist, dass die Leute in manchen Foren bei der GTX 1070 schon wieder schreien was für ein irre genialer Preis das wäre. Na das lässt ja hoffen für die Gen, nichts gelernt...

HOT

2016-05-07, 13:23:40

[...]

Naja, ist halt eine 1080p Karte :P SCNR
Bis Vega 2017 kommt kann Nvidia (oder Partner) auch locker eine 1080 OC mit 11 oder 12 Gbps GDDR5X nachschieben. Wenn man dann Fury mit der 980 vergleicht muss das gar nicht so einseitig ausgehen, zumal Vega sicher HPC Faehigkeiten mitbringt. Interessant bleibt dann vor allem der Effizienzvergleich von der hochgepruegelten 1080 gegen die breite Vega.

Alles andere ist aber weiterhin Milchmaedchenrechnerei. AMD muss es erstmal auf 1,5 GHz bringen, was alles andere als sicher ist.
Erstmal muss aber Polaris zeigen, was AMD aus 14 LPP und den Architekturverbesserungen holt. GP104 salvage ist wieder recht stark beschnitten, trotzdem muss P10 XT da erstmal ran kommen, sonst wird es sehr schwer.
Klar bringen die den in Richtung 1,5. Man wird ja auch mit Polaris Fiji ersetzen, das ist ziemlich klar, dafür muss man in die Nähe der 8TFlops kommen. Das wird man schon hinbekommen, sonst wäre das ziemlich sinnlos, das Fiji im Abverkauf ist.
Klar, NV schafft 2GHz mit FinFETs und bei AMD geht wieder gar nichts? Ist halt alles wie immer.

fondness

2016-05-07, 13:26:47

4 HBM Stacks sind doch völlig übertrieben für V10. Mit zwei Stacks kommt man schon theoretisch auf 512GB/s, also doppelt so viel wie mit P10 (bei 8Gbps@256bit) oder 60% mehr als die Geforce 1080. 2x4GB halte ich auch nicht für zu wenig. Jedenfalls würde ein größerer Speicher für mich nicht einen hohen Aufpreis rechtfertigen. Die 980Ti kommt auch mit 6GB bestens aus.

Naja, GP100 schafft mit 4 Stacks nur 720 GB/s, was theoretisch irgendwann möglich ist, interessiert erstmal nicht. 2 Stacks würde damit nur 360 GB/s ermöglichen, was etwas knapp werden könnte. Außer NV verwendet bewusst langsamer getakteten HBM als nötig, aber das glaube ich nicht.

Skysnake

2016-05-07, 13:31:38

Viel Besorgnis erregender ist, dass die Leute in manchen Foren bei der GTX 1070 schon wieder schreien was für ein irre genialer Preis das wäre. Na das lässt ja hoffen für die Gen, nichts gelernt...
Versteh ich jetzt auch nicht. Ich befürchte allerdings das so mancher nicht rafft, dass das ohne Steuer und $=€ ist...

Schnitzl

2016-05-07, 13:32:58

Viel Besorgnis erregender ist, dass die Leute in manchen Foren bei der GTX 1070 schon wieder schreien was für ein irre genialer Preis das wäre. Na das lässt ja hoffen für die Gen, nichts gelernt...
This.
Hatte schon befürchtet dass die 970 so schnell vergessen ist... ^^
Noch genialer ist nVidias neuester Trick mit der "Founders Edition" - meine Fresse ich hoffe nur dass AMD das nicht auch macht :motz:

Polaris für um die 200€ - mal schaun ob das was wird....
Ebenfalls hoffe ich dass AMD diesmal mit sowohl den Takten als auch mit den Frequenzen sich zurückhält! Nicht wieder so ausgequetschter Müll nur um noch an nVidia ranzukommen...

Complicated

2016-05-07, 13:33:13

Bei der Stackzahl wird eher entscheidend sein ob P10 auch in den Profisektor kommen soll. Sollte das der Fall sein, würden 4 HBM2-SIs anstatt 2 ein guter Kompromiss sein. Auch ist es möglich, dass es Preisunterschiede gibt zwischen 4-Hi und 8-Hi Stacks, die über den Aufpreis der zusätzlichen 4GB hinausgehen.

Ravenhearth

2016-05-07, 13:37:48

Sollten sich die ~1,15GHz für Polaris und auch für Vega10 bewahrheiten, dann könnte das für letzteren echt knapp werden. Vega10 hätte dann nur ein bisschen mehr Rohleistung als die 1080 und könnte dann auch nur unter der Annahme vorbeiziehen, dass die Effizienz der Recheneinheiten dann mindestens gleich gut wie bei Pascal ist und/oder die Bandbreite bei der 1080 merklich limitiert.

Ich hab grad ein GK104-Tahiti-Deja vu.

dildo4u

2016-05-07, 13:39:13

Versteh ich jetzt auch nicht. Ich befürchte allerdings das so mancher nicht rafft, dass das ohne Steuer und $=€ ist...
Der Euro ist wieder stärker geworden man bekommt Heute 970 für 290€ die kosten in den USA 300$.Siehe z.b Newegg.

Der_Korken

2016-05-07, 13:39:41

Naja, GP100 schafft mit 4 Stacks nur 720 GB/s, was theoretisch irgendwann möglich ist, interessiert erstmal nicht. 2 Stacks würde damit nur 360 GB/s ermöglichen, was etwas knapp werden könnte. Außer NV verwendet bewusst langsamer getakteten HBM als nötig, aber das glaube ich nicht.

Das war mir nicht bewusst. In dem Fall bräuchte man wirklich 3 Stacks mit 12GB oder man verbaut 4x2GB, sofern das preislich nicht viel teurer als 2x4GB ist.

iuno

2016-05-07, 13:46:26

GP100 braucht offenbar keine hoehere Bandbreite, das wurde auch ausfuehrlich im entsprechenden Thread geklaert. Mit den 1,4 Gbps treffen sie das, was sie wollten.
Das hat aber doch ueberhaupt keinen Einfluss darauf, ob 2017 bei Vega 2 Gbps moeglich sind oder nicht. Zumal dann neben Samsung auch Hynix liefern kann.

dildo4u

2016-05-07, 13:50:06

AMD Polaris: Can 'R9 480'/'R9 480X' Dominate Mainstream PC Graphics?

https://youtu.be/OMfGJf1KWWk

Unicous

2016-05-07, 13:52:44

Der Euro ist wieder stärker geworden man bekommt Heute 970 für 290€ die kosten in den USA 300$.Siehe z.b Newegg.

US retail-Preise mit EU retail-Preisen vergleichen.:facepalm:

Der Euro ist nicht einmal ansatzweise "stärker" geworden sondern bewegt sich auf dem gleichen Level wie vor einem Jahr bzw. vor zwei Jahren.:rolleyes: