AMD/ATI - VEGA (Vega10, Vega11, Vega12, Vega20) - 2017 [Archiv] - Seite 9

Nakai

2017-01-31, 20:45:03

Angeblich hat AMD übrigens "priority access" zum HBM2 von SKHynix. Könnte also eventuell sein, daß AMD die komplette Produktion von 2 GT/s HBM2 aufkauft und das deswegen wieder von der Webseite von Hynix verschwunden ist (wo es im September letzten Jahres noch draufstand), weil es eben für andere Kunden nicht verfügbar ist.

Dass GP100 nur 720GB/s hat, spricht auch hierfür. Wenn Vega den reellen Speicherverbrauch senken kann, Hut ab. Ich hoffe Vega bietet auch erweiterte Kompressionsalgorithmen, welche dazu genutzt werden können, um weniger Speicher anzufordern.

Botcruscher

2017-01-31, 21:07:10

Warum soll der "sonstige" HBM2 nicht den Takt schaffen?

Agent117

2017-01-31, 21:13:08

Mythos;11279869']Laut hexus gäbe es dann aber nur ne Bandbreite von 410GB/sek für Vega.

Vlt gibt es ja wirklich erstmal nur den langsameren Speicher für Vega. Dann stimmt womöglich auch der kürzliche vermeintliche Leak von Bethesda Games im Rahmen der Fallout 4 High Res Texturen und es kommt erstmal eine RX 490 als Salvage Part von Vega 10. Je nachdem wie weit Vega 11 entfernt ist vlt an sich gar keine so schlechte Sache um nochmal in aller Munde zu sein. Erst mit Vega 11 gibts dann die 500er Serie :)

iuno

2017-01-31, 22:45:42

Dass GP100 nur 720GB/s hat, spricht auch hierfür.
Nein, Nvidia kauft bei Samsung.

Ich glaube nicht daran, dass Hynix einfach Produkte aus dem Katalog nimmt, nur weil AMD bevorzugt beliefert wird. Sie koennten jedem anderen Kunden (verbaut doch sonst eh keiner) doch auch einfach so sagen "sorry, ausverkauft bis ..."

hynix kann sich wohl auch nicht entscheiden:
aus dem jeweiligen databook

Q3 2016:
http://i.imgur.com/T34eAaI.png

Q4 2016:
http://i.imgur.com/7mG8tim.png

Q1 2017:
http://i.imgur.com/3e3smbs.png[/URL]

Ich denke, wenn sie alles da haetten, gaebe es nicht so ein Theater mit dem Hin und Her im Katalog. Sicher macht es Sinn, erst zu fertigen wenn der Bedarf da ist. Aber wenn man irgendwo Erster (2 Gbps, 8Hi, wie auch immer) ist, laesst das Marketing das doch idR. auch raushaengen.

tm0975

2017-01-31, 22:53:45

AMD hat vega bereits vorgeführt, ich bin mir sicher, dass es für den speicher eine lösung geben wird. sie werden nicht nochmal aufgrand des speichers eine ganze gpu-serie in den sand setzen.

Radeon™ Instinct products are expected to ship in 1H 2017.

http://www.finanznachrichten.de/nachrichten-2017-01/39807192-amd-reports-fourth-quarter-and-annual-2016-financial-results-annual-revenue-increased-7-percent-fourth-quarter-revenue-grew-15-percent-year-over-ye-256.htm

Korvaun

2017-02-01, 07:23:53

Vega ist nun offiziell für Q2 2017 terminiert, also wirds wohl frühestens Juni ;)

Quelle:
https://www.computerbase.de/2017-01/amd-ryzen-auslieferung-maerz/

Dorn

2017-02-01, 07:52:38

Vega ist nun offiziell für Q2 2017 terminiert, also wirds wohl frühestens Juni ;)

Quelle:
https://www.computerbase.de/2017-01/amd-ryzen-auslieferung-maerz/

Hauptsache es gibt gleich von Anfang an gute Custom Grafikkarten und das in großen Mengen. Die Hoffnung stirbt zuletzt.

davidzo

2017-02-01, 09:15:20

Bin da gerade drüber gestolpert.: http://hexus.net/tech/news/graphics/102004-vega10-mass-production-can-start-quarter-sk-hynix-hbm2-ships/

..selber inhalt
Mythos;11279869']Laut hexus gäbe es dann aber nur ne Bandbreite von 410GB/sek für Vega.

Das muss überhaupt nichts heißen. Solche Produkte werden nicht nach Katalog gekauft.
Ich denke der Katalog ist bloß für die Aktionäre um einen überblick zu haben was für Produkte aktuell an whitelabel manufacturer verkauft werden könnten. reine OEM-produkte sind da eher nicht mit drin.

Für eine Implementierung von HBM2 wäre das viel zu spät für AMD auf irgendwelche Kataloge zu warten. Die brauchen samples schon viel früher und sind eher seit Jahren schon in Gesprächen mit SKhynix völlig unabhängig ob das nun laut Katalog lieferbar ist oder nicht.
Für große OEM-deals und Vega ist so einer, gilt der Katalog einfach nicht. Für kleinere Hersteller die eventuell nach dem Katalog gehen kommt eher der Flash in Frage. Bei Flash gibt es eine Vorschau im Katalog dann auch bis Jahresende.

Das erkennt man auch daran, dass LPDDR4X noch nicht im Katalog auftaucht, aber bereits in fortgeschrittener Serienproduktion sein muss. Es wird nämlich in Qualcomms Snapdragon 835 PoP verbaut der längst an alle smartphonehersteller gesamplet wurde. Samsung dürfte schon mitten in der Serienproduktion für das galaxy s8 sein in dem genau dieser Speicher verwendet wird. Nicht zu vergessen das Apple im Spätsommer die nächste Generation iOS Geräte mit höchstwahrscheinlich genau diesem DRAM-Modul launcht, das es laut Katalog nicht gibt.

HOT

2017-02-01, 10:21:54

Schau Dir mal lieber die Präsentation an, wo AMD die Chips gezeigt hat (und auch einen Würfel mit vier Vega10-Chips mit zusammen 100 TFlop/s FP16), dann schreibst Du vielleicht auch was Sinnvolleres. ;)
AMD plant bei der MI25 mit einem Vega 10 mit 12,5 TFlop/s FP32 und 25 TFlop/s FP16 und zwei 8Hi-Stacks mit jeweils 8 GB (insgesamt dann 16GB).
Dennoch bleiben viele Fragen offen, das überzeugt mich überhaupt nicht.
8er HiStacks sind nicht mal am Horizont zu sehen, ich halte das für ausgemachten Blödsinn. 16GB = 2 Chips, geht mMn einfach nicht anders.

gmb

2017-02-01, 10:49:50

AMD ist ein Jahr hinten dran, die haben richtig gepatzt in der Generation.

Leonidas

2017-02-01, 11:33:28

AMD ist ein Jahr hinten dran, die haben richtig gepatzt in der Generation.

Ich denke eher, die haben das exakt so geplant. Am Ende sieht alles wie der frühere HD3000/HD4000-Doppelschlag nach dem Fehlschlag der HD2000 aus:
1. Mit HD3000 kleinere Brötchen gebacken, aber Kredit gewonnen.
2. Mit HD4000 wieder angegriffen
Auch seinerzeit gab es ein Jahr Zwischenraum.

AMD dürfte das für die heutige Situation mit Polaris/Vega auch vorab gewusst haben. Sie haben es nicht kommuniziert - warum auch die Leute darauf hinweisen, das Vega erst viel später kommt? Eine echte Verspätung ist aber etwas gänzlich anderes.

Unicous

2017-02-01, 11:37:10

Natürlich war das geplant. Was denkt ihr denn.

AMD hat finanzielle Probleme und muss mit den Ressourcen haushalten. Sie haben die letzten Jahre überall gespart und jetzt wird wieder Geld in R&D (stetige Steigerung über die letzten Quartale) und product launches gesteckt. Wer behauptet, sie hätten gepatzt sollte wenigstens den Hauch von Indizien dafür haben.

Aber es stellt sich weiterhin die Frage: Was hat das mit Vega zu tun?:rolleyes:

Iruwen

2017-02-01, 12:26:44

Sie wirkten schon recht überzeugt mal wieder was Spannendes am Start zu haben. Ich will jetzt Reviews :(

Gipsel

2017-02-01, 14:06:34

Dennoch bleiben viele Fragen offen, das überzeugt mich überhaupt nicht.
8er HiStacks sind nicht mal am Horizont zu sehen, ich halte das für ausgemachten Blödsinn. 16GB = 2 Chips, geht mMn einfach nicht anders.Ignorierst Du einfach, was AMD offiziell gesagt und gezeigt hat? Die Karten konnte man bereits sehen, da ist nur ein Chip drauf. Das kann Du nicht einfach ignorieren.
Und zum 8Hi, dieses Bild ist jetzt mehr als ein Jahr alt:
https://i0.wp.com/vrworld.com/wp-content/uploads/2016/01/Samsung_HBM2.jpg?resize=550%2C434&ssl=1
Insofern ist 8Hi schon zu sehen. ;)

Korvaun

2017-02-01, 16:57:48

Natürlich war das geplant. Was denkt ihr denn.

AMD hat finanzielle Probleme und muss mit den Ressourcen haushalten. Sie haben die letzten Jahre überall gespart und jetzt wird wieder Geld in R&D (stetige Steigerung über die letzten Quartale) und product launches gesteckt. Wer behauptet, sie hätten gepatzt sollte wenigstens den Hauch von Indizien dafür haben.

Aber es stellt sich weiterhin die Frage: Was hat das mit Vega zu tun?:rolleyes:

Geplant... sagen wir lieber es ging nicht schneller wegen der knappen R&D-Ressourcen und der vielen anderen Produkte in der Pipeline (VEGA,ZEN, CustomChips für PS4Pro/Scorpio, Server-Chips, Chipsätze, etc...). Ich denke AMD hat nicht gerne nV 1 ganzes Jahr alles über RX480/GTX1060-Klasse kampflos überlassen.

Botcruscher

2017-02-01, 16:58:46

Alles eine Frage der Ausbeute. Mit jeder Schicht vervielfachen sich die potentiellen Fehler. Einzelne Laborsample sagen da wenig aus. Wenn das alles so reibungslos laufen würde hätte Samsung nicht noch viel Zeit in GDDR investiert.

Complicated

2017-02-01, 17:17:34

Da AMD Mitentwickler des HBM mit SKHynix gewesen ist glaube ich kaum dass man da einen Vergleich mit Samsung anstellen kann. Zumal Samsung auch eher an kostengünstigem HBM arbeitet als an 8Hi Stacks da sie andere Prioritäten haben mit ihren SoCs. Ich denke da ist AMD vor jedem anderen ausgestattet und informiert wann etwas verfügbar ist.

Unicous

2017-02-01, 17:20:21

@Korvaun

Ja. Geplant. Ich zitiere aus dem gestrigen Earnings Call:

Yes, I think our philosophy, first of all, is to be very disciplined about managing the OpEx. We did that, as you saw, in the 2014/2015 time frame. In 2016, we made some very targeted investments to products, which is -- with the launches that are happening in 2017, I would say they are going to pay off in terms of all the products we have on track to launch in 2017.
https://finance.yahoo.com/news/edited-transcript-amd-earnings-conference-042023719.html

Und wie wäre es wenn wir jetzt endlich mal zurück zum Thema finden würden?:rolleyes:

AffenJack

2017-02-01, 21:39:07

Alles eine Frage der Ausbeute. Mit jeder Schicht vervielfachen sich die potentiellen Fehler. Einzelne Laborsample sagen da wenig aus. Wenn das alles so reibungslos laufen würde hätte Samsung nicht noch viel Zeit in GDDR investiert.

Selbst mit nicht Massenproduktion kannst du sowas wie die Instinct launchen. Das Ding wird so teuer, dass auch schlechte Yields nix ausmachen und wenn man 4 High ordentlich herstellen kann, dann wird man auch zumindest teuer 8High hinkriegen. Beim Gamevega kann ich mir aber durchaus 8 Gb als Maximalausbau vorstellen. Allerdings empfinde ich dies nicht wirklich als schlimm, da ich nicht glaube, dass der Vramverbrauch noch weiter schnell steigt.

HOT

2017-02-02, 10:16:32

Ignorierst Du einfach, was AMD offiziell gesagt und gezeigt hat? Die Karten konnte man bereits sehen, da ist nur ein Chip drauf. Das kann Du nicht einfach ignorieren.
Und zum 8Hi, dieses Bild ist jetzt mehr als ein Jahr alt:
https://i0.wp.com/vrworld.com/wp-content/uploads/2016/01/Samsung_HBM2.jpg?resize=550%2C434&ssl=1
Insofern ist 8Hi schon zu sehen. ;)
Hm? Ne offene Instict? Wo das denn? Die hätt ich auch gern gesehen. Die Karte, die AMD offiziell gezeigt hat, war ein V10-Entwicklungsboard, das hat doch nix mit der Instinct zu tun (auch nicht mit der finalen Consumer-Karte. Die wird sicherlich wieder einigermaßen kurz).
Zudem heißt das doch nicht, dass 8er Stacks auch verfügbar sind. Ich denke eher nicht.

Complicated

2017-02-02, 10:32:39

Wenn es in die Kamera gehalten wird...

https://www.computerbase.de/2017-01/amd-vega-preview/
https://pics.computerbase.de/7/6/1/7/2/logo-630x354.707b7ad8.jpg

Gipsel

2017-02-02, 15:47:58

Hm? Ne offene Instict? Wo das denn? Die hätt ich auch gern gesehen. Die Karte, die AMD offiziell gezeigt hat, war ein V10-Entwicklungsboard, das hat doch nix mit der Instinct zu tun (auch nicht mit der finalen Consumer-Karte. Die wird sicherlich wieder einigermaßen kurz).Es gab schon vorher ein Event, bei dem die MI-Karten vorgestellt wurden. Und da gab es explizite Aussagen von AMD, daß ein einziger Vega10-Chip 25 Tflop/s in FP16 macht, was die Grundlage der Bezeichnungen bei den MI-Karten ist (ebenfalls eine explizite Aussage von AMD). Und es wurde von Raja Koduri offen ein kleiner "Würfel" mit erkennbar vier Vega10-Chips gezeigt (den hat er auf der Bühne hochgehalten) und als Leistungsangabe "100 TFlop/s" genannt (in dem Kontext klar als FP16 zu erkennen). Weiterhin wurden von AMD Serversysteme mit MI25 mitsamt entsprechenden Leistungsangaben genannt (bzw. auf den Folien auch gezeigt). Auch dort macht jede MI25-Karte 25TFlop/s in FP16 (also 12,5TFlop/s in FP32), also der Wert eines einzelnen Vega10-Chips. Und beim Zeigen der Folie (worauf 25TFlop/s pro MI25-Karte steht) hat Raja Koduri exakt diesen Wert als "per GPU" genannt. Auf einer anderen Folie wurde sogar was von der "MI25 GPU" geschrieben und daß die 120 GPUs in dem gezeigten Rack 3 PFlop/s schaffen würden.
Da gibt es schlicht nichts zu diskutieren.
Zudem heißt das doch nicht, dass 8er Stacks auch verfügbar sind. Ich denke eher nicht.Samples gibt es sicher, sonst hätte man keine Bilder davon machen können. Bis zum Launch sind es auch noch etwa 5 Monate (Consumer, MI25 keine Ahnung), da kann sich auch noch was ändern.
Und viele benötigt AMD ja nicht, die werden vermutlich keine Millionen von MI25-Karten verkaufen (und die werden so viel kosten, daß auch 8GB Stacks zum 10fachen Preis der 4GB-Stacks sich noch lohnen würden ;)). Und ebensowenig wird man viel von einem hypothetischem Vega 10-Topmodell mit 16GB absetzen, wenn man das mit einem entsprechenden Aufpreis versieht. Insofern bekommt man sicher genügend funktionsfähige 8GB-Stacks zusammen, wenn man das will.

iuno

2017-02-02, 18:33:35

Ohne weitere Spekulation moechte auch noch anmerken, dass wir keineswegs wissen, wie breit das SI bei Vega ueberhaupt ist. Und GP100 hat auch mit 4 Stacks.
So oder so wird AMD vorgeplant haben. Wenn es heisst, dass 16 GiB drauf sind, wird es auch so sein.
Und zu dem Einwand mit den kleineren Instinct Karten: die Liefern auch so viele FP16 TFLOPs wie im Namen steht ;D

Gipsel

2017-02-02, 19:06:47

Ohne weitere Spekulation moechte auch noch anmerken, dass wir keineswegs wissen, wie breit das SI bei Vega ueberhaupt ist. Und GP100 hat auch mit 4 Stacks.Ich glaube kaum, daß AMD nur für die MI25-Linie einen eigenen Interposer auflegt um mehr Stacks nutzen zu können. Das lohnt nun wirklich nicht.
Das Ding kommt sicher in jedem Markt mit genau zwei Stacks, so wie gezeigt.

Setsul

2017-02-02, 20:26:47

Ich möchte auch anmerken, dass man nicht einfach die Hälfte der SI stilllegen kann. Die hängen fest an L2 und ROPs. Bei der 970 kann man schön sehen was passiert, wenn man daran rüttelt.

y33H@

2017-02-02, 20:48:33

Im Falle der GTX 970 ist das volle 257 Bit breite SI samt 4 GByte aktiv, aber es fehlen 256 KByte L2 und die 8 ROPs für eine 32-Bit-Partition.

Setsul

2017-02-02, 21:18:22

Ja, es ist eben die umgekehrte Situation. Egal an welcher Seite man etwas wegnimmt, es funktioniert nicht gut.

Tamagothi

2017-02-02, 21:48:02

Und wie willst du das mit Tonga erklären? Es fehlen 128bit und Trotzdem funktioniert alles!

Setsul

2017-02-02, 22:23:13

Soweit ich weiß sind die ROPs entsprechend organisiert und der zu den abgeschalteten SI gehörende L2 ist einfach auch abgeschaltet.
https://www.hardwareluxx.de/images/stories/newsbilder/aschilling/2014/Tonga-XT-Blockdiagramm.png

Beides abschalten geht, nur eben nicht wenn man das eine behalten will.

Bei V10 die Hälfte des L2 abzuschalten wäre etwas ungeschickt. Mal ganz abgesehen davon, dass die MI25 doch 512GB/s Bandbreite haben soll. 4 Stacks HBM2 aber dann mit 1Gbps? Ja klar.
Und welche Karte soll sonst die 4 Stacks bekommen?

Gipsel

2017-02-02, 22:29:54

Und wie willst du das mit Tonga erklären? Es fehlen 128bit und Trotzdem funktioniert alles!Da wurde der zu den fehlenden 128Bit gehörende Teil des L2 ebenfalls deaktiviert.
Und bei Tahiti und Tonga gibt es als Besonderheit vier kleine Crossbars zwischen ROPs und Speicherinterface (die jeweils 2 RBEs also 8 ROPs mit drei 32bit breiten Speicherkanälen verbinden). Deswegen funktionieren ja überhaupt erstmal 32 ROPs (8 RBEs) an einem 384Bit Interface (12 32bittige Kanäle) ;).
Wenn die ROPs nicht mehr direkt am Speicher hängen sondern bei Vega am L2, dürfte die Methode aber nicht mehr so funktionieren. Aber damit konnte man eben das Speicherinterface in 128bit-Schritten (4x32) ausknipsen, ohne die ROPs zu beeinflussen oder eine schlechte Balance zu verursachen.

Edit:
Hiroshoge Goto geht offenbar von nur zwei etwas größeren Crossbars aus, das Prinzip ist aber das Gleiche. Ein AMD-Mensch (vergessen welcher) hatte das mal auf B3D erklärt.

iuno

2017-02-03, 11:32:21

Mal ganz abgesehen davon, dass die MI25 doch 512GB/s Bandbreite haben soll. 4 Stacks HBM2 aber dann mit 1Gbps? Ja klar.

Von 512 GiB/s war afaik nur bei der MI8 der Rede, bei der MI25 weiss ich nichts von einer offiziellen Angabe zur Bandbreite

http://instinct.radeon.com/wp-content/uploads/sites/4/2016/12/instinctPage_05.jpg

An L2$ hatte ich aber tatsaechlich nicht gedacht :ugly:

reaperrr

2017-02-03, 11:43:29

Von 512 GiB/s war afaik nur bei der MI8 der Rede, bei der MI25 weiss ich nichts von einer offiziellen Angabe zur Bandbreite

https://www.computerbase.de/2016-12/amd-vega-details/

Das letzte Detail über Vega ist einem AMD-Mitarbeiter dann eher ungewollt über die Lippen gerutscht: Beim Thema Speicher sprach er von 512 GB/s auf der MI25 - also demselben Wert, den die MI8 mit Fiji bietet.

Abgesehen davon hat bisher aber auch wirklich alles - jede geleakte Folie oder Roadmap, egal ob Fake oder nicht, jeder gezeigte Chip - ganz klar entweder nur zwei Stacks und damit maximal 512GB/s, oder direkt 512GB/s gezeigt.

Ich verstehe ehrlich gesagt nicht, wieso das überhaupt immer noch angezweifelt wird.

Pirx

2017-02-03, 11:54:34

Wieso ist die Mi25 dann egtl. so lang? edit wegen den 300W, aber wieso 300W wenn "selbst" der eine Fiji nur 175 hatte? Und würden sich 300 W, die fast nur von einem Chip kommen, wirklich wegkühlen lassen? edit2: wobei die Mi25, anscheinend im Gegensatz zu Mi6 und Mi8 zwei Slots braucht...

iuno

2017-02-03, 11:54:37

:up:
wie gesagt, ich habe es nur so in die Runde geschmissen. Ist ja schoen, wenn es so ausgeschlossen werden kann, mir war diese Aussage bisher nicht bekannt.

@Pirx: das Teil wird passiv gekuehlt, irgenwo muss man die 300 W auch abfuehren koennen.

Botcruscher

2017-02-03, 12:46:38

Wieso ist die Mi25 dann egtl. so lang? edit wegen den 300W, aber wieso 300W wenn "selbst" der eine Fiji nur 175 hatte? Und würden sich 300 W, die fast nur von einem Chip kommen, wirklich wegkühlen lassen? edit2: wobei die Mi25, anscheinend im Gegensatz zu Mi6 und Mi8 zwei Slots braucht...

Bauhöhe ist ziemlich sicher gleich. Da ist der typische Radialquirl und DHE drauf. Auf der Platine selber ist ja weitestgehend nur noch Ausgabe und Stromversorgung. Letztere braucht auch bei 300W nicht den Platz.

Pirx

2017-02-03, 12:57:07

Bauhöhe ist ziemlich sicher gleich. Da ist der typische Radialquirl und DHE drauf. Auf der Platine selber ist ja weitestgehend nur noch Ausgabe und Stromversorgung. Letztere braucht auch bei 300W nicht den Platz.
Radialquirl? Gibts da nicht, die (ziemlich starken afaik) Lüfter sind im Gehäuse. http://www.startlr.com/the-reference-counter-with-120-accelerators-radeon-instinct-mi25-has-a-capacity-of-3-pflops/

MI25 ist höher http://semiaccurate.com/2016/12/12/amd-launches-radeon-instinct-ai-card-lineup/

y33H@

2017-02-03, 13:31:26

das Teil wird passiv gekuehlt, irgenwo muss man die 300 W auch abfuehren koennen.Nö, die wird im Rack durchgepustet.

Botcruscher

2017-02-03, 13:37:22

Die Frage bezog sich doch aber auf die Platine? Für das Serverrack gibt es ganz sicher keine andere Referenzplatine. Für die Baumform mit DHE muss man doch nur eins und eins zusammenzählen. Die kommt für den Workstation Markt ganz sicher.

das Teil wird passiv gekuehlt, irgenwo muss man die 300 W auch abfuehren koennen.
Passiv im Sinne von 4 doppelten Hochleistungslüftern.

http://www.techarp.com/articles/first-amd-naples-radeon-instinct-design/

N0Thing

2017-02-03, 14:11:33

Passiv im Sinne von kein eigener aktiver Lüfter. Auch jede passive Wald- und Wiesengrafikkarte in einem Desktop ist auf einen Luftstrom durch das Gehäuse angewiesen, da wird der Begriff passiv auch nicht auf die Goldwaage gelegt.

robbitop

2017-02-03, 14:38:52

Die Länge der Mi25 sieht (vor dem Hintergrund, dass Platinen dank HBM sehr sehr kurz werden) schon ein wenig nach Dual-GPU aus. Gerade in Bezug auf Computeanwendungen ist mGPU auch kein großes Hindernis.

MechWOLLIer

2017-02-03, 15:12:44

Es ist aber keine. Mi25 hat eine Vega-10-GPU.

Brillus

2017-02-03, 19:49:31

Vielleicht stimmen ja die spekulationen, dass sie noch SSD(s) an Board hat.

Den Wortwitz konnte ich mir nicht verkneifen

deekey777

2017-02-03, 23:00:40

The AMD Vega Memory Architecture Q&A With Jeffrey Cheng (http://www.techarp.com/articles/amd-vega-memory-architecture-qa/)

Keine Ahnung...

iuno

2017-02-03, 23:15:08

Nö, die wird im Rack durchgepustet.
Klar, trotzdem muss ein Kuehlkoerper drauf

HOT

2017-02-03, 23:26:31

Das mit den schnellen Flash Speichern auf der Karte ist ne interessante Theorie und könnte sowohl TDP als auch die Länge der Karte erklären - und das dauernd von HBM-Cache gesprochen wird.

BlacKi

2017-02-03, 23:38:19

er hat ja eigentlich auch ausgeschlossen das es DRam sein wird.

ab hier fand ich es interessant wie oft oder wahrscheinlich hbc in spielen in den nächsten jahren angewandt wird. https://youtu.be/dPxV_2j5A2A?t=989

es liegt in der hand der entwickler.

Botcruscher

2017-02-03, 23:39:32

Karten mit SSD und "externem Speicher" wurden doch in dem Werbefilm über Rendering wieder explizit genannt.
Womöglich installieren wir ja bald die Spiele auf der Grafikkarte.:freak:

Skysnake

2017-02-03, 23:43:47

hmm das ist wirklich interessant. Es wird wohl wirklich byte adressable. Das wäre schon ziemlich cool und ein klarer Vorteil gegenüber nVidia. Allerdings hat er etwas um das Thema herumgeschwurbelt ob das jetzt oder später kommt.

Btw. ist das hinten der Charlie?

Ansonsten kann ich die Aussage bezüglich den Adressräumen nicht so ganz teilen. Man muss richtig mappen, dafür braucht es halt entsprechende Umsetzer die programmierbar sind, aber wenn das da ist, dann sehe ich da eigentlich kein Problem mehr für einen einzigen flachen Adressraum.

Gipsel

2017-02-04, 00:27:17

ab hier fand ich es interessant wie oft oder wahrscheinlich hbc in spielen in den nächsten jahren angewandt wird. https://youtu.be/dPxV_2j5A2A?t=989

es liegt in der hand der entwickler.Ja. Die können mit Vega mehr Speicher belegen, als physisch auf der Karte vorhanden ist (Rest liegt dann im Arbeitsspeicher bzw. im Extremfall in memory mapped files auf der Platte). Der HBCC+Treiber/OS managen das. Die Entwickler müssen also mehr und größere Assets benutzen. Sie haben es in der Hand. ;)

MechWOLLIer

2017-02-04, 10:04:19

Btw. ist das hinten der Charlie?

Off Topic: Ja, ist er. Und diese scheiß Kühlung in dem Zelt:freak:

Gipsel

2017-02-04, 11:15:54

Ich finde es viel interessanter, dass der AMD-Mitarbeiter die Entwicklung mit Low-Level APIs als sinnbefreit empfindet. ;DTut er nicht (aber es wundert mich nicht, daß Du sowas reindeutest :rolleyes:). Er sagt, daß es mit Vega für die Entwickler potentiell einfacher wird, nicht daß DX12 sinnlos ist (was es natürlich nicht ist).

Troyan

2017-02-04, 11:30:29

Er sagt es ziemlich eindeutig und es ist eine klare Distanzierung von dem, was Entwickler unter DX12 und Vulkan durchführen müssen:
The message we want to give to the game developers is give us the data. You dont have to worry about data management yourself because we are able to handle a lot of data ourself. And data management is quite complex and i have been working on memory management a long time and it is not easy to get it right and to get it performant. And with DX12 the various memory heaps are exposed to the game developers and they have to manage this and this is overhead to them to manage all of that data movement. We think it is a better approach for the GPU just to be able to access the large amount of data. So it is a mindset change[...]

Minute 17:19.

Man muss schon sehr viel Gutmütigkeit zeigen, um diese klare Ansage nicht als Distanzierung wahrzunehmen.

Technisch gesehen, ist es auch der einzige Weg, den AMD gehen kann. Mit DX12 und Vulkan existiert keine Notwending für ein "HBC" Feature.

Unicous

2017-02-04, 11:41:55

Man muss schon sehr viel Hinterhältigkeit zeigen und niedere Hintergedanken haben um in diese Aussage die eigenen Vorstellungen und Agenda hineinzuprojezieren.

Botcruscher

2017-02-04, 11:43:03

Distanzieren kann man sich nur von Zielen. Wo bitte schön hatte low level das Ziel den Entwickler zum Speicherschieber zu degradieren?!? Hier werden schlicht unerwünschte Eigenschaften wegoptimiert.

y33H@

2017-02-04, 11:43:30

Off Topic: Ja, ist er. Und diese scheiß Kühlung in dem Zelt :freak:Zumal draußen auch noch kalt-nasses Regenwetter war ;D nix mit sunny california ^^

Gipsel

2017-02-04, 11:46:41

@Troyan:
Du verstehst offenbar schlicht die Zusammenhänge nicht. Und um zu der Aussage zu kommen, mit DX12 existiere keine Notwendigkeit für ein HBC Feature oder DX12 wäre sinnlos, muß man sich schon ganz schön das Gehirn verknoten.
Insofern ist hier dazu EOD und es ist auch OT.

Wenn Du dem weiter fröhnen willst, mach einen eigenen Thread auf. Titelvorschläge wären:
"Warum niemand DX12 benötigt und es sinnlos ist", "Warum niemand je mehr Daten benutzen wird als in den VRAM passen", "Warum Caches bei heterogenen Speicherarchitekturen sinnlos sind", "Wozu benötigt man virtuellen Speicher, wenn doch der Entwickler Speicherbereiche für sein Programm allozieren kann" oder irgendwas anderes in der Preisklasse. :freak:

Skysnake

2017-02-04, 12:17:18

Off Topic: Ja, ist er. Und diese scheiß Kühlung in dem Zelt:freak:
ich bin echt überrascht, wie kompetent er rüber kommt. Scheint wirklich nicht auf den Kopf gefallen zu sein. Etwa genau die Frage war mir auch direkt durch den Kopf gegangen.

Digidi

2017-02-04, 13:26:59

Warum Diskutiert Ihr alle noch mit Troyan, man sieht doch sehr deutlich von wem sein Gehirn gewaschen wurde.

Verstehe ich das Richtig früher mussten die Spielentwickler selbst entscheiden wie sie den Speicher belegen wollen und jetzt macht das Vega praktisch per Hardware?

Ich verstehe auch nicht so ganz wie das neue Speicherinterface mit so vielen anderen Speicherarten kommunizieren kann. Hat nicht jedes Interface seine eigene Sprache?

Gipsel

2017-02-04, 14:26:03

Verstehe ich das Richtig früher mussten die Spielentwickler selbst entscheiden wie sie den Speicher belegen wollen und jetzt macht das Vega praktisch per Hardware?

Ich verstehe auch nicht so ganz wie das neue Speicherinterface mit so vielen anderen Speicherarten kommunizieren kann. Hat nicht jedes Interface seine eigene Sprache?Geht ja auch nicht direkt. Dazu benötigt es des Zusammenspiels von IOMMU der GPU und CPU, des Betriebssystems (+Treiber vermutlich).
Lokaler VRAM und virtueller Speicher der CPU (wozu z.B. auch die eventuell auf Festplatte ausgelagerten Pages oder die Inhalte von memory mapped Dateien gehören) bilden aus GPU-Sicht einen großen virtuellen Adressraum (dafür unterstützt Vega ein Bit mehr Adressraum als die aktuellen x86er-CPUs). Vega kann vermutlich bei einem Pagemiss im lokalen VRAM Pagemigration aus dem Hauptspeicher durchführen (ohne die komplette GPU anhalten zu müssen, die entsprechende Wave wartet dann nur wegen der höher als üblichen Latenz deutlich länger). Ganz grob ähnlich wie beim Zugriff auf einen Speicheradresse, die gerade auf Festplatte ausgelagert wurde (die wird dann auch vom OS von der Platte geladen), nur hoffentlich etwas schneller ;). Schmeißt man eventuell noch eine Handvoll Prefetch-Algorithmen im "HBCC" dazu und voila!
Zumindest würde ich vermuten, daß das so funktionieren soll.

Das entbindet auch die Entwickler nicht davon bei DX12/Vulkan expliziter als mit den alten Schnittstellen den Speicher zu managen, es gibt ihnen aber vermutlich Flexibilität und bessere Performance bei größeren Datenmengen. Wenn man den VRAM als Cache ansehen will, ist es der Schritt von einem reinen grobkörnigem Softwaremanagement durch den Entwickler (hohe Latenzen und Turnaroundzeiten) auf eine feinkörnigere kombinierte Soft-/Hardwarelösung, die sowohl schneller arbeiten und den Entwickler entlasten kann (der natürlich trotzdem nicht aus den Augen verlieren darf, was er da macht und wieviel Speicherplatz lokal vorhanden ist).

Skysnake

2017-02-04, 15:06:07

Es gibt Block-Devices und Byte-Adresseable. Mehr Varianten gibt es an sich nicht.

Im schlimmsten Fall braucht man halt einen Treiber/Firmware, damit man weiß, wo was liegt.

Man sollte das auch nicht komplett falsch verstehen. Das was AMD da meint ist wohl Datentransfer auf Cacheline-size. Ist quasi eben genau das Gleiche wie bei den CPUs. Da wird zur Not halt geswapped wenn der RAM ausgeht. Der Programmierer muss sich darum nicht kümmern, was aber natürlich nicht bedeutet, das er keine Speicherverwaltung machen muss. Siehe z.B. C/C++ und Fortran.

Complicated

2017-02-04, 15:31:59

Vor allem soll Ihnen wohl die Angst vor dem Aufwand genommen werden und sie davon abhalten Gameworks zur Erleichterung zu nutzen. Das flexiblere Memorymanagement gibt Ihnen die Luft, die sie offensichtlich brauchen um schnell abliefern zu können und nimmt die Notwendigkeit hier immer mehr teuren VRAM verbauen zu müssen in Hardware. Das optimieren per Patch ist hier dann kein großes Problem mehr....

BlacKi

2017-02-04, 15:38:33

tja, wenn vega der einzigste chip ist bei dem extra speicher genutzt werden kann, dann ist es eher ein mehraufwand und keine erleichterung. für diesen mehraufwand bietet amd seine hilfe an.

wie hoch schätzt du denn die marktanteile von vega nächstes jahr ein? 5%?10%? lächerlich. bis der extra speicher wirklich von den entwicklern genutzt wird wird vega seinen nachfolger am markt haben. das kenne ich irgendwo her. achja. mit dx12 2015 und mantle 2013.

y33H@

2017-02-04, 15:43:55

ich bin echt überrascht, wie kompetent er rüber kommt. Scheint wirklich nicht auf den Kopf gefallen zu sein. Etwa genau die Frage war mir auch direkt durch den Kopf gegangen.Charlie ist eigen, aber definitiv kompetent, er weiß idR sehr genau wovon er redet. Und er hat eine grandiose Meme-Sammlung ^^

Gipsel

2017-02-04, 16:16:09

tja, wenn vega der einzigste chip ist bei dem extra speicher genutzt werden kann, dann ist es eher ein mehraufwand und keine erleichterung.Erstmal machen die Entwickler alles genauso. Es ist also überhaupt kein Aufwand.

Complicated

2017-02-04, 16:20:16

Die Radeon Pro SSG macht ja ähnliches, nur mit direkt angebundenen SSDs und ohne HBM. Allerdings kann man sicher die Programmierung darauf testen als Entwickler.

BlacKi

2017-02-04, 16:24:22

Erstmal machen die Entwickler alles genauso. Es ist also überhaupt kein Aufwand.
kannst du das weiter ausführen? ich kann dir leider nicht folgen.

Gipsel

2017-02-04, 18:11:54

kannst du das weiter ausführen? ich kann dir leider nicht folgen.Du redest doch von Spielen, oder? Und da wird erstmal nichts angepaßt werden, genau so wie auch existierende Spiele damit laufen und auch profitieren können, insbesondere in Situationen, wo es jetzt drastische Performanceeinbrüche gibt, wenn der VRAM ausgeht. Im krudesten Fall meldet der Treiber einfach mehr VRAM, als HBM installiert ist. Der HBCC/Treiber managen dann den Transfer zwischen Arbeitsspeicher und VRAM wie oben schon angedeutet.

vinacis_vivids

2017-02-07, 19:45:48

Wenn man den letzten größeren Sprung von AMD beobachtet.

HD4870 - 1GiB, 115,2 GB/s, 1,2 TFlops, 55nm, 256mm²
HD5870 - 1GiB, 153,6 GB/s, 2,7 TFlops, 40nm, 334mm²

Dann kommen 70-100% Mehrleistung heraus. Also eine tendenzielle Verdopplung der Leistung mit höheren Auflösungen.

Jetzt gibs zwei Ausganspunkte.
1. Spekulation:

RX 480 - 8GiB, 256 GB/s, 5,8 TFlops, 14nm, 232mm²
vega10 - 8GiB, 512 GB/s, 12,5 TFlops, 14mm, ~490mm²

Neue Architektur + Speicherbandbreite + Rechnenleistung. Das sieht auch sehr nach einer Verdopplung der Leistung aus (4k/8k Benches).

2. Spekulation

Fury - 4GiB, 512 GB/s, 7,1 TFlops, 28nm, 596mm²
Fury X - 4GiB, 512 GB/s, 8,6 TFlops, 28nm, 596mm²
vega10 - 16GiB, 512 GB/s, 14 TFlops, 14mm, ~490mm²

Neue Architektur + Rechenleistung + größerer Speicher. Bei 4K Benches dürfe das ~ minimum 70% bringen. Bei 8K dann wohl auch eine verdopplung.

Schlussfolgerung:

Die Verdopplung der RX480-Leistung bringe vega auf das Level zwischen 1080 und Titan P. Davon gehen die meisten aus.

Die Verdopplung der Fury (X) Leistung bringe vega über mehr oder weniger deulich über das Level der Titan P.

Großer Ausbau 16GiB > Titan P
Kleiner Ausbau 8 GiB > 1080

Dann würde sehr sehr gut passen :)

=Floi=

2017-02-08, 13:03:07

nur sind die 12,5 gflop schon extrem viel und es wird eben über shader pro clock berechnet.

Unicous

2017-02-08, 13:07:36

Rambus launches High Bandwidth Memory PHY on GLOBALFOUNDRIES 14nm LPP (http://www.rambusblog.com/2017/02/07/rambus-launches-high-bandwidth-memory-phy-on-globalfoundries-14nm-lpp/)

Skysnake

2017-02-08, 13:15:16

hmm die Seite schint down zu sein.

Botcruscher

2017-02-08, 13:18:19

Geht bei mir. Die Frage ist eher wer freiwillig mit Rambus zusammenarbeitet.

Unicous

2017-02-08, 13:30:15

Geht bei mir. Die Frage ist eher wer freiwillig mit Rambus zusammenarbeitet.

Die Frage stellt sich nicht, da Rambus wichtige Patente hält und Speicher-Technologien entwickelt. Nur weil sie versuchen mit Trivialpatenten noch mehr Geld aus den Taschen anderer Firmen zu ziehen, heißt das ja nicht automatisch, dass sie ihre wirklichen technologischen Fortschritte nichts wert wären.

HOT

2017-02-08, 13:48:45

Geht bei mir. Die Frage ist eher wer freiwillig mit Rambus zusammenarbeitet.

Intel macht auch hbm jetzt, wuerde passen.

Screemer

2017-02-08, 19:00:13

Angeblich kommen doch die DDR4 Phys von Zen auch direkt von Rambus. Warum soll man sowas selber implementieren, wenn ich es zu nem guten Kurs lizenzieren kann.

HOT

2017-02-08, 19:27:29

nur sind die 12,5 gflop schon extrem viel und es wird eben über shader pro clock berechnet.
Das ist wie gesagt Minimum-Angabe. Spannend ist die einzig entscheidende Frage: Wieviel davon bringt man unter normalen Umständen auch auf die Strasse.
Entgegen meiner vorherigen Aussage könnte das mit den 1,5GHz aber auch final sein, da bei der Instinct auch die kleineren Varianten recht hoch getaktet sind. Die MI6 scheint mit 1,25GHz zu laufen und die MI8 mit 1GHz.
Ich denke langsam auch, dass man bei der V10 Referenzvariante mit 1,5GHz rechnen kann bei 250W ca. im Consumerbereich. Sollte V20 dann tatsächlich in 7nm erscheinen könnte die einfach auf >2GHz hochgehen und sich somit deutlich über V10 einordnen.

AffenJack

2017-02-08, 19:35:55

Das ist wie gesagt Minimum-Angabe. Wahrscheinlicher ist, dass es mehr sind, so um die 14TFLOPs. 12,5 haben die Profivarianten von V10. Bisher ist es eine Regel, dass die Profivarianten einigermaßen deutlich niedriger getaktet sind als die großen Consumervarianten bei AMD.

Nein ist es nicht. Die anderen Instinct Karten laufen mit Taktraten wie im Desktopbereich. Das wird auch bei Vega der Fall sein. Im besten Fall kommt da etwas drauf, dass man 13 Tflops erreicht, das wars aber.

Ailuros

2017-02-08, 19:59:41

Ich bin eigentlich gespannt ob AMD die FP16 Faehigkeiten im desktop abschalten wird.

fondness

2017-02-08, 20:10:57

Warum sollte man? Kann ja auch bei Spielen Vorteile bringen.

Setsul

2017-02-08, 20:17:49

Vorteile schon, aber wird in den meisten Spielen noch nicht genutzt.
Deshalb könnte AMD auf Nummer sicher gehen und von vornherein verhindern, dass irgendjemand versucht Consumer V10s für ~500€ pro Stück zu kaufen, an Stelle von MI25s für zig Tausende pro Stück.

AffenJack

2017-02-08, 20:43:42

Ich denke eher man wird beim Ram den Unterschied machen. 8GB bei Consumer und 16Gb im Profibereich. Schon hat man nen guten Unterschied.

fondness

2017-02-08, 20:45:40

Sehe ich auch so, den FP16 Vorteil im Consumer-Markt wird man wohl kaum her schenken. Da wäre potentiell einiges an Performance drinnen und so viel Aufwand sollte das für Entwickler auch nicht sein, dass man da nicht ein paar von überzeugen könnte häufiger FP16 einzusetzen.

Setsul

2017-02-08, 21:04:52

@Affenjack:
Sehe ich eher umgekehrt. Wer weiß überhaupt was FP16 bringt? Wieviele werden auf die Barrikaden gehen wenn AMD mit 8GB gegen die Titan X / 1080 Ti an den Start geht?
V11 mit 4GB sieht auch nicht gut aus, wenn es selbst die 470 mit 8GB gibt. V10 mit genauso viel VRAM wie 470/480 und V11? Das bekommt das Marketing wohl kaum hingedreht.

Mal ganz abgesehen davon dass zwei Versionen mit unterschiedlichen HBM Stacks mehr kosten.

@fondness:
Ich bestreite ja nicht, dass es Performance bringt, aber das dauert auch noch eine Weile. Was bringen 2 oder 3% mehr in Durchschnittsratings ein Jahr nach dem Release, wenn dafür einige Kunden sich 90% der Kosten einer MI25 sparen? Das wären einige Millionen.

iuno

2017-02-08, 21:23:39

V11 mit 4GB sieht auch nicht gut aus, wenn es selbst die 470 mit 8GB gibt. V10 mit genauso viel VRAM wie 470/480 und V11? Das bekommt das Marketing wohl kaum hingedreht.
Wir wissen quasi nichts ueber V11. Bis so ein Chip kommt, kann man V10 auch mit 16 GiB fuer Consumer nachlegen.
Ansonsten ist das fuer das Marketing auch kein Problem :usad: Hawaii hatte auch doppelt so viel Speicher wie Fiji, es gibt heute noch Fanboys die denken, Bandbreite wuerde die Menge ausgleichen.

Setsul

2017-02-08, 21:29:17

Aber dann ist der Unterschied zwischen Consumer und Profi Version wieder weg. Von daher funktioniert Affenjacks Plan dann wieder nicht.

Raja will doch sowieso alle davon überzeugen, dass nur Bandbreite wichtig ist und Menge egal. Ich hoffe mal das führt nicht zu 4GB V10.;D

AffenJack

2017-02-08, 21:34:57

8 High Stacks werden am Anfang eher zu teuer und zu schlecht lieferbar sein um in vielen Produkten zu sein. Für den Profimarkt ja ok, aber bisher gibt es wenig Anzeichen, dass man damit auch Desktop versorgen kann und vor allem Vega 11 im Massenmarkt fällt da bestimmt raus. Die Kosten für verschiedene Stacks auf dem Interposer sollten sehr klein sein. Deutlich geringer als die Verwendung von 8High statt 4High.

V11 wird bestimmt nicht mit 4Gb launchen, aber soweit ich weiß hat amd nie gesagt, dass hbm in jedem Produkt verwendet werden muss. Ich kann mir da zb auch GDDR5X vorstellen.

iuno

2017-02-08, 21:38:37

Dem Interposer ist doch voellig egal, ob ein 8- oder 4Hi Stack drauf kommt, die Kontaktflaechen sind ja standardisiert.

Setsul

2017-02-08, 22:41:38

Wenn V11 mehr als 50% von V10 ist, dann wird 1 8Hi Stack von der Bandbreite nicht reichen. Damit braucht man weder 8 Hi noch 2Gbps.

V10 wird bei weitem nicht so viel sein.

Bei V10 bringen die Profi Versionen die Entwicklungskosten rein. Wieso sollte AMD das Risiko eingehen und FP16 freigeschaltet lassen?

@iuno:
Geht nicht um den Interposer. Sind einfach zwei Versionen statt einer, das verkompliziert alles. Es ist auf jeden Fall nicht kostenlos.

OgrEGT

2017-02-09, 05:42:27

Mal eine ganz andere Frage... da immer die Rede von HBC ist... wäre es nicht denkbar dass Vega nur eine kleine Menge HBM verbaut hat welcher dann von zusätzlichem klassischem VRam wie GDDR5 ergänzt wird?

Loeschzwerg

2017-02-09, 07:06:24

Wäre theoretisch machbar, treibt aber auch die Kosten nach oben. Halte ich im Consumer Bereich nicht für sinnvoll.

Ailuros

2017-02-09, 07:08:14

Warum sollte man? Kann ja auch bei Spielen Vorteile bringen.

Wenn der code von Anfang an fuer Fp16 optimiert ist klar. Bis es so weit kommt ist dann ein ganz anderes Kapitel. Der Punkt waere den Verkauf von solchen GPUs fuer professionelle Anwendungen auf Instinct zu zwingen.

Ich denke eher man wird beim Ram den Unterschied machen. 8GB bei Consumer und 16Gb im Profibereich. Schon hat man nen guten Unterschied.

Frag mal die gruenen wie gern sie es sahen dass zu viele sich den ersten Titan wegen seiner vollen FP64 Faehigkeiten damals kauften; die Speichermenge hat dort auch keinen aufgehalten. Man bekam damals fuer einen Tausender so viel FP64 Leistung wie mit einer Quadro oder Tesla der gleichen Generation. Wie dort die Preise im Vergleich aussehen wissen wir wohl alle. Ein Freund hat sich erst vor kurzem eine gebrauchte Titan fuer nur 400+ EUR durch amazon schicken lassen, wobei er sie eigentlich nur fuer DP braucht.

Skysnake

2017-02-09, 09:23:04

Macht ja für viele Leute Sinn. So lange du nur eine Hand voll Workstations betreibst, geht das ohne Problem. Erst wenn du wirklich richtige Cluster baust oder halt z.B. die finalen Berechnungen für Luft und Raumfahrt etc. machst, dann willste/kannste das nicht mehr nehmen. Die Gefahr das ein Bitflip dich den Kragen kostet geht doch kein rational denkender Mensch ein...

Ailuros

2017-02-09, 12:31:11

Sicher. Im Fall von AMD werden sie sich wohl entweder stur fuer Volumen in dem Fall oder fuer die hoechstmoeglichen Margen entschieden haben.

victore99

2017-02-09, 16:03:37

ich werfe mal ein, dass man die 16er Leistung auch von 1:2 auf z.b. 1:8 beschneiden kann

ndrs

2017-02-09, 16:12:31

Ähm nein. Denk nochmal drüber nach. Das wäre komplett unsinnig. Dein Beispiel hieße ja Beschleunigen um Faktor 4.

Leonidas

2017-02-09, 16:18:23

Mal eine ganz andere Frage... da immer die Rede von HBC ist... wäre es nicht denkbar dass Vega nur eine kleine Menge HBM verbaut hat welcher dann von zusätzlichem klassischem VRam wie GDDR5 ergänzt wird?

Zwei Speicherinterfaces im Grafichip fressen Die-Size und ergeben zusätzlichen Stromverbrauch. Den Interfaces ist es ja egal, wieviel Speicher dranhängt - die bleiben trotzdem gleich groß bzw. fressen genauso Strom. Ineffektiver geht es kaum.

victore99

2017-02-09, 17:01:20

Ähm nein. Denk nochmal drüber nach. Das wäre komplett unsinnig. Dein Beispiel hieße ja Beschleunigen um Faktor 4.
sorry, falschrum gedacht. ich meine, dass die Anzahl der NCUs, die auch 16er können, bspw auf 1/8 beschränkt wird. Damit hat man für Gaming, wo ja 16 nur in Teilen des Codes genutzt wird, die nahezu volle Performance, für Compute liegt man aber auch bei Perf/Dollar hinten.

Der_Korken

2017-02-09, 17:29:18

Bei einer Reduzierung auf 1/8 würde die GPU dann bei FP32 viermal so viel Durchsatz haben wie bei FP16. Wäre das nicht totaler Blödsinn, weil die FP16-Instruktionen auf den gleichen ALUs ausgeführt werden wie die FP32-Instruktionen? Dann könnte man doch gleich ausschließlich FP32 nutzen ...

victore99

2017-02-09, 17:55:48

Bei einer Reduzierung auf 1/8 würde die GPU dann bei FP32 viermal so viel Durchsatz haben wie bei FP16. Wäre das nicht totaler Blödsinn, weil die FP16-Instruktionen auf den gleichen ALUs ausgeführt werden wie die FP32-Instruktionen? Dann könnte man doch gleich ausschließlich FP32 nutzen ...
ich meinte, dass nur 1/n der ALUs FP16 kann, dafür aber bei voller Leistung. wenn ein Game dann manchmal FP16 nutzt, läuft das dann auf den ALUs, die für FP16 freigeschaltet wird, der FP32-Code läuft normal auf den ALUs, die dann kein FP16 können.

Tesseract

2017-02-09, 18:00:06

Ich bin eigentlich gespannt ob AMD die FP16 Faehigkeiten im desktop abschalten wird.

da die ps4 pro (und damit ein großer teil der hardwarebasis im spielebereich) das auch kann machen sie das garantiert nicht, das wär ein schuss ins knie. die situation ist absolut nicht mit FP64 zu vergleichen.

Nightspider

2017-02-09, 18:02:56

Meint ihr PC Spiele werden das zukünftig alle nutzen?

Bin mal gespannt wie viel Leistung die damit sparen können.

iuno

2017-02-09, 18:04:20

Wie schon gesagt waere das ziemlicher Schwachsinn, weil ein klarer Nachteil gegenueber der Nutzung von normalen floats. Und uebrigens auch ein harter Rueckschritt ggue. bisherigen Karten, wo fp16 auch einfach 1:1 ausgefuehrt werden. Das wuerde zu inkonsistentem Verhalten fuehren, wenn jemand explizit fp16 nutzt. Auf der einen Karte ist es gleich schnell, braucht aber weniger Strom, auf der anderen schneller und auf wieder einer anderen viel langsamer. Dann muesste man fp16 in shadern ignorieren und stattdessen fp32 nutzen, was auch nicht toll ist.
Auch wenn es in Games Vorteile bringen koennte wird man die doppelte Rate wohl genau aus dem Grund mit den Profi-Karten erstmal nicht bringen. Nvidia sieht das sicherlich ganz genau so. Andererseits hat das Feature ja auch die PS4 Pro, also erhofft man sich schon klare Vorteile auch bei Spielen. Aus der Ecke koennte das natuerlich rueber schwappen.

Ailuros

2017-02-09, 18:31:51

da die ps4 pro (und damit ein großer teil der hardwarebasis im spielebereich) das auch kann machen sie das garantiert nicht, das wär ein schuss ins knie. die situation ist absolut nicht mit FP64 zu vergleichen.

Ich hab es auch nicht mit FP64 verglichen sonder der direkten Konkurrenz: http://www.anandtech.com/show/10325/the-nvidia-geforce-gtx-1080-and-1070-founders-edition-review/5

Ob es eine bloede Idee ist oder nicht fuer die eigentliche Lebenszeit solcher GPUs bleibt abzusehen. Sonst lass ich mich erstmal eines besseren belehren welche game engine genau in absehbarer Zukunft mit FP16 optimiertem code ankommen soll. Wenn ich bedenke dass es ueberhaupt in der Konsolen-Welt noch tonnenweise Schrott-engines giebt die zu daemlich sind Daten anstaendig zu verwerfen oder sogar andere wo die shader von der CPU bearbeitet werden, erscheint mir jegliche FP16 Optimierung nicht unbedingt die hoechste Prioritaet.

Aber Ihr koennt mal gerne einen erfahrenen Entwickler zur Aussprache auffordern denn ich bin verdammt neugierig ob man fuer 3D wirklich 2x Mal so viel FP16 im Vergleich zu FP32 brauchen koennte; denn auf keiner heutigen Architektur kann jemand FP16 und FP32 Instruktionen gleichzeitig laufen lassen, noch macht es afaik fuer jegliche Geometrie irgendwelchen Sinn. FP16 throughput ist heute primaer noch fuer compute, CNN und dergleichen gedacht in Uebermengen.

NV's Entscheidung ist zugegeben auch teilweise absurd, aber ich will ernsthaft bezweifeln dass die Gruenen das Zeug so beschneiden wuerden in heutigen GPUs wenn wirklich eine sehenswerte Menge von FP16 Optimierungen in 3D im Anmarsch waere.....

iuno

2017-02-09, 18:54:06

Welche Entscheidung von NV? GP100 ist doch der einzige Chip mit 2xFP16 oder? Insofern werden die anderen eben so konfiguriert sein, nicht kuenstlich beschnitten?! Kostet ja auch alles Transistoren. Bei AMD ist es ja derselbe Chip.

Ein anderer Punkt noch: Es macht sich doch keiner die Muehe und kauft haufenweise Consumer Karten und ruestet die fuer einen Einsatz im Rack um oder? Mglw. kommt Vega wieder mit AiO, einer Kuehlung die 2 Slots etwas uebrragt o.Ae. Instinct "passen" dagegen und sind fuer passiven Einsatz im Rack konstruiert.
Zusammen mit dem doppelten Speicher ist es also schon eine komplett andere Karte ;p

Setsul

2017-02-09, 20:12:41

Doppelter Speicher ist eben die Frage.
Ich bin mir aber ziemlich sicher, dass sich für ein paar Tausend Euro jemand finden würde, der die Karten umrüstet. Einen Kühler abzuschrauben, WLP auszutauschen und einen neuen festzuschrauben ist kein Hexenwerk.

FP16:FP32 1:1 klingt nicht unwahrscheinlich, um FP16 Implementierungen/Console ports nicht zu sabotieren.

Man könnte FP16 auch als FP32 ausführen. Weder schneller noch langsamer, aber es blockiert die Consumer Variante für alle die an der Effizienz interessiert waren.

Der_Korken

2017-02-09, 20:56:43

Bezahlt man bei den Profikarten nicht seit je her für den besseren Support? Wie hat man früher Profikarten von Consumerkarten abgegrenzt? Ich meine, wenn jetzt schon spekuliert wird, dass ein anderer Kühler nicht reicht, weil eine Drittfirma die Consumerkarten entsprechend günstig umrüsten könnte, dann könnte man auch sagen, dass eine 1:1 FP16:FP32-Rate nichts bringt, weil man dann statt einer Profikarte auch zwei Consumerkarten mit gleicher Leistung aber für deutlich weniger Geld kaufen könnte.

Setsul

2017-02-09, 21:21:36

Nach der Logik könnte man aber auch vier Karten der Vorgängergeneration kaufen. Man braucht aber vier mal soviele Slots und vier mal soviel Strom.

Und man braucht dazu auch keine Drittfirma. Wer nicht weiß wie ein Schraubenzieher funktioniert, der sollte keine Grafikkarten einbauen.

aufkrawall

2017-02-09, 21:29:01

Ist FP32 nicht auch im Profi-Segment unterm Strich mit Abstand am wichtigsten?

Setsul

2017-02-09, 22:12:24

Am wichtigsten ist relativ. 80% FP32 vs 20% DP sind schon ein recht deutlicher Abstand, aber wenn man vier mal soviel FP32 wie FP64 braucht, dann bremst 1:8 trotzdem aus.

FP32 kann man schlecht limitieren, aber wir haben gesehen was passiert wenn man FP64 auf Consumer Karten auf 1:2 lässt. Die Leute, die FP16 wollen weil sie vier Wagenladungen GPUs brauchen für Deep Learning und mit FP16 nur zwei Wagenladungen, werden es sich sicher drei mal überlegen ob sie 500 oder 5000 pro GPU zahlen wollen. Für das Geld bekommt man schon eine Menge Support.

iuno

2017-02-09, 23:23:32

Ich bin mir aber ziemlich sicher, dass sich für ein paar Tausend Euro jemand finden würde, der die Karten umrüstet.
fuer ein paar Tausend? Dann kannst du direkt die "richtige" Karte kaufen und hast keine Probleme mit Hardware und Software.
Eine Tesla P100 geht auch schon unter 6k los, die Titan liegt schon fast bei 1,5k. Und das ist noch nichtmal der selbe Chip.

FP32 kann man schlecht limitieren, aber wir haben gesehen was passiert wenn man FP64 auf Consumer Karten auf 1:2 lässt.
Von welcher Karte sprichst du jetzt? Ee gab afaik noch nie eine Consumer Karte mit 1:2

Foobar2001

2017-02-09, 23:28:32

Ich denke er meint Fermi wo man 1:2 verbaut hat und der Chip dementsprechend weniger FP32-Leistung hatte. Auch wenn es auf Consumer-Karten deaktiviert war.

Nakai

2017-02-10, 00:19:44

FP32 => 2xFP16 => Vec2-FP16
Ergo nur Shader, die Vec2-FP16-Ops durchführen, werden hiervon profitieren. Fürs GPU-Computing sieht es schon anders aus.

FP32 reicht fürs GPU-Computing meistens vollkommen aus. Wenn die FP32-Präzision ans Limit kommt, geht man auf FP64.

Tesseract

2017-02-10, 01:23:13

Ergo nur Shader, die Vec2-FP16-Ops durchführen, werden hiervon profitieren. Fürs GPU-Computing sieht es schon anders aus.

die shader arbeiten sowieso im lockstep, ob da jetzt 16xSIMD oder 32xSIMD läuft ist fast egal - entscheidend ist ob die genaugkeit ausreicht.
wenn du units haben willst die unabhängig voneinander arbeiten können brauchst du eine manycore-CPU, keine GPU.

Setsul

2017-02-10, 01:47:10

@iuno:
Also bitte, du glaubst doch nicht im Ernst dass 5 Minuten Arbeit wirklich mehrere Tausend Euro kosten?
Es war darauf bezogen, dass ich der Meinung bin, dass sich für so viel Geld bei nur 5 Minuten Arbeit sicher einige die "Mühe" machen würden einen anderen Kühler draufzuschrauben. Selbst bei vierfachem Überstundensatz lohnt sich das noch.
Wer sich dafür zu schade ist, dem kann man nicht helfen. Solche Kandidaten kaufen aber auch komplette Systeme für einen deutlichen Aufpreis.

Ich meinte die Titan.
Klar, man kann 1:2 oder 2:1 schreiben, aber nachdem im gleichen Post 1:8 steht...

Ailuros

2017-02-10, 07:48:37

Welche Entscheidung von NV? GP100 ist doch der einzige Chip mit 2xFP16 oder? Insofern werden die anderen eben so konfiguriert sein, nicht kuenstlich beschnitten?! Kostet ja auch alles Transistoren. Bei AMD ist es ja derselbe Chip.

Wo liegt der Unterschied fuer das Resultat ob man etwas kuenstlich beschneidet oder einfach zusaetzliche Logik weglaesst? Der einzige Unterschied waere dass es keine Rueckkehr mehr gibt, was aber wiederrum bedeuten sollte dass sich NV ziemlich sicher war dass es fuer die Lebenszeit der cores unter P100 keine Bedeutung haben wird in 3D. Im Gegensatz ist 2*FP16 voll aktiv sowohl auf Erista als auch auf Parker Tegra SoCs eben weil man es fuer automotive braucht, welcher sowieso der einzige heutige Zielmarkt fuer Tegras ist.

FP32 => 2xFP16 => Vec2-FP16
Ergo nur Shader, die Vec2-FP16-Ops durchführen, werden hiervon profitieren. Fürs GPU-Computing sieht es schon anders aus.

FP32 reicht fürs GPU-Computing meistens vollkommen aus. Wenn die FP32-Präzision ans Limit kommt, geht man auf FP64.

Am Rand: als IMG fuer Rogue cores mit dedizierten FP16 Einheiten ankam fragte ich off the record immer und immer wieder relevante Fragen. Von den Fetzen die ich von Zeit zu Zeit bekam: hauptsaechlich fuer compute und co. gedacht (genauso wie die zusaetzliche INT Logik in 7XT Plus), die zusaetzlichen FP16 waren spottbillig im relativen Sinn und es spart auch ziemlich am Verbrauch wenn man dedizierte FP16 ALUs benutzt. Wieviel keine Ahnung, aber obwohl das Zeug schon seit etlichen Jahren (seit A7) in ULP mobilen Geraeten verfuegbar ist gibt es bis heute noch kein einziges 3D Spiel dass fuer FP16 optimiert wurde, noch irgendwelcher synthetischer benchmark (mir ist auf jeden Fall nichts relevantes bewusst....Anand oben hat sisoft fuer FP16 benutzt) obwohl die gruenen Maennchen vor dem Erista launch froehlich floeteten dass IMG damit "bescheisst".

Allein fuer Metal haette man theoretisch so manche Optimierung benutzen koennen wo auch wirklich die Menge existiert so etwas theoretisch zu animieren.

die shader arbeiten sowieso im lockstep, ob da jetzt 16xSIMD oder 32xSIMD läuft ist fast egal - entscheidend ist ob die genaugkeit ausreicht.
wenn du units haben willst die unabhängig voneinander arbeiten können brauchst du eine manycore-CPU, keine GPU.

Massiv OT aber nein; man braucht nur einen anstaendigen compiler wenn der code auch wirklich auf der GPU mehr Sinn macht https://www.microsoft.com/en-us/research/video/mimd-on-gpu/

iuno

2017-02-10, 08:42:56

Wo liegt der Unterschied fuer das Resultat ob man etwas kuenstlich beschneidet oder einfach zusaetzliche Logik weglaesst?
Die Stueckpreise unterscheiden sich ja trotzdem, auch wenn beschnitten wird hat man vielleicht eher Ausschuss, braucht mehr Flaeche, kann weniger hoch Takten o.ae. als wenn man es von vorneherein weg laesst. Deshalb verstehe ich nicht, was an der Entscheidung absurd sein soll?

@Setsul: Das mit den xk€ hast du in den Raum geworfen, nicht ich. Davon ab ist das wo die Instinct Serie ansetzt kein Hobby-Bastelkeller. Und eine Titan mit 1:2 FP64 gab es uebrigens auch nie.

Ailuros

2017-02-10, 08:54:51

Die Stueckpreise unterscheiden sich ja trotzdem, auch wenn beschnitten wird hat man vielleicht eher Ausschuss, braucht mehr Flaeche, kann weniger hoch Takten o.ae.

Ich bin mal se frech und behaupte dass der Aufwand fuer vec2 FP16 laecherlich klein ist; denn wenn dedizierte FP16 ALUs in etwas wie im ULP Markt noch tolerabel sein darf, dann ist wohl der Fetzen an vec2/same instruction Logik wohl noch weniger der Rede wert. Weiss der Geier wie winzig der GPU block im Parker ist und er taktet auf 1.5GHz. Ein GP107 salvage (1050) bei 1455MHz und ein P100 bei 1480MHz. Ja natuerlich taktet ein GP104/1080 um einiges hoeher, ist aber als core auch fast halb so gross als ein P100.

HOT

2017-02-10, 09:22:27

Meint ihr PC Spiele werden das zukünftig alle nutzen?

Bin mal gespannt wie viel Leistung die damit sparen können.
Die PS4 Pro nutzt es, die Scorpio wird es dann auch nutzen - klar setzt sich das durch. Wenn wenig Präzision benötigt wird nutzt man eben weniger und ist dafür deutlich ressourcenschonender und schneller.

Gipsel

2017-02-10, 11:06:22

@iuno:
Also bitte, du glaubst doch nicht im Ernst dass 5 Minuten Arbeit wirklich mehrere Tausend Euro kosten?
Es war darauf bezogen, dass ich der Meinung bin, dass sich für so viel Geld bei nur 5 Minuten Arbeit sicher einige die "Mühe" machen würden einen anderen Kühler draufzuschrauben. Selbst bei vierfachem Überstundensatz lohnt sich das noch.
Wer sich dafür zu schade ist, dem kann man nicht helfen. Solche Kandidaten kaufen aber auch komplette Systeme für einen deutlichen Aufpreis.Natürlich kauft man in dem Markt komplette Systeme. Für private Nutzung, die eine oder andere Workstation oder maximal noch der homebuilt Minicluster kann man vielleicht eine Consumerkarte reinbauen. Aber ansonsten kauft man dort eigentlich immer eine Systemlösung (inklusive Service).

=========================

Der einzige Unterschied waere dass es keine Rueckkehr mehr gibt, was aber wiederrum bedeuten sollte dass sich NV ziemlich sicher war dass es fuer die Lebenszeit der cores unter P100 keine Bedeutung haben wird in 3D. Im Gegensatz ist 2*FP16 voll aktiv sowohl auf Erista als auch auf Parker Tegra SoCs eben weil man es fuer automotive braucht, welcher sowieso der einzige heutige Zielmarkt fuer Tegras ist.In mehreren APIs gibt es seit geraumer Zeit einen half Datentyp (FP16), der durchaus genutzt werden kann. Wenn eine GPU den nicht unterstützt, wird das in FP32 gerechnet. Aber insbesondere Mobil-GPUs können daraus bereits heute Vorteile ziehen, denn dort hat Stromersparnis aus naheliegendem Grund eine hohe Priorität.
Jetzt hat die PS4Pro schnelleres FP16 spendiert bekommen, Scorpio hat das Ende des Jahres höchstwahrscheinlich auch an Board, die Mobil-GPUs unterstützen es. Dies bedeutet, daß es in ziemlich vielen Engines als Performanceoptimierung eingebaut werden wird. Wenn die Cross-Plattform sind, macht es für AMD und nV auch bei Consumerkarten attraktiv, schnelles FP16 zu verbauen bzw. zu aktivieren. Laß es nur 15% in ein paar Benchmarks sein. Das ist schnon merklich, insbesondere, wenn es der Konkurrent nicht hat.

Setsul

2017-02-10, 11:17:58

@iuno:
Meine Güte, muss ich jeden Satz so lang ausführen? Man hat gesehen was bei 1:3 passiert, dann wird es bei 1:2 nicht anders sein, eher schlimmer.
Es gab genügend PS3 cluster, weil sie billig waren.
Supermicro macht einen Haufen Geld mit Mainboards, bei denen man nicht nur einen Kühler festschrauben muss, sondern sogar die CPU selbst einsetzen muss.

Der Preisunterschied zwischen Consumer und Profi V10 dürften mehrere Tausend Euro sein. Ein neuer Kühler kostet wesentlich weniger. Jetzt verstanden oder immernoch zu kompliziert?

Nakai

2017-02-10, 11:52:51

die shader arbeiten sowieso im lockstep, ob da jetzt 16xSIMD oder 32xSIMD läuft ist fast egal - entscheidend ist ob die genaugkeit ausreicht.
wenn du units haben willst die unabhängig voneinander arbeiten können brauchst du eine manycore-CPU, keine GPU.

Ich wüsste nicht, wie ein SIMD-Slot nun die doppelte Anzahl an Work-Items einfach so ausführen könnte.

2xFP16 und 8xINT8 bietet viele interessante Möglichkeiten, nicht weil man unbedingt nun die doppelte Anzahl an Ops ausführen kann, sondern weil damit viele andere Instruktionen hinzugefügt werden.

http://docs.nvidia.com/cuda/parallel-thread-execution/index.html?ClickID=c4ssenqs44vf7kxffs7zqnlkif4zxeksensn#simd-video-instructions-vadd4-vsub4-vavrg4-vabsdiff4-vmin4-vmax4

Da finden sich viele coole Sachen, die vorher nicht so einfach möglich waren. Und klar, kann das auch für Graphics verwendet werden. Leider bin ich da eher ein Laie und man sollte jemand hinsichtlich fragen, der mehr Ahnung da hat.

davidzo

2017-02-10, 16:07:37

@Affenjack:
Sehe ich eher umgekehrt. Wer weiß überhaupt was FP16 bringt? Wieviele werden auf die Barrikaden gehen wenn AMD mit 8GB gegen die Titan X / 1080 Ti an den Start geht?
Kaum jemand, da du die TitanXkunden an einer Hand abzählen kannst und die in den vergangenen 6 Jahren noch nie zu AMDs Kunden gehörten. Die kann man getrost ignorieren.
Was die 10GB 1080ti angeht glaube ich kaum dass da irgendjemand wegen 2GB weniger meckert und der eigentliche Gegner, die 1080 hat selber nur 8GB.

V11 mit 4GB sieht auch nicht gut aus, wenn es selbst die 470 mit 8GB gibt. V10 mit genauso viel VRAM wie 470/480 und V11? Das bekommt das Marketing wohl kaum hingedreht.
Alle Karten mit 8GB macht am meisten Sinn, es gibt genug Unterscheidungsmerkmale über Shaderanzahl und Speicherbandbreite die man auch auf der Verpackung bewerben kann.

Da würde ich mich mal eher fragen wie die es hinbekommen haben die 8GB 390x im Performancesegment und die 4GB FuryX im Highend zu bringen, das war eine viel extremere Situation der man auch nicht aus Marketinggründen aus dem Weg gegangen ist.

Mal ganz abgesehen davon dass zwei Versionen mit unterschiedlichen HBM Stacks mehr kosten.
Die Maske für einen anderen Interposer, falls man den überhaupt braucht, in 180nm oder so wird wohl kaum ein Kostenfaktor sein.

V11 wird bestimmt nicht mit 4Gb launchen, aber soweit ich weiß hat amd nie gesagt, dass hbm in jedem Produkt verwendet werden muss. Ich kann mir da zb auch GDDR5X vorstellen.

Doch, bisher zeigen alle (inoffiziellen) Infos eher auf eine ausschließliche HBM Nutzung für Vega. Lowcost bleibt Polaris 12 mit GDDR und DDR. Auch die APUs sollen ja möglicherweise HBM bekommen. Auf der Zeppelin Folie sieht man deutlich eine GPU mit 4+Tflops, 2 Stacks 500gb/s HBM und Vega Architektur. Und das Gerücht das Ravendridge eine APU mit 128gb/s HBM bekommt gibt es auch noch...

Setsul

2017-02-10, 17:22:13

Ich nehme an hier im Forum wird es etwas anders aussehen.
Außerdem geht es dort oben eher um Prestige als um praktischen Nutzen.

Ich wiederhole es gerne, wenn die 1080 (314mm²) der eigentliche Gegner von V10 (knapp 500mm²) wird dann gute Nacht.

8GB für alle? Sieht unterhalb der 470 schlecht aus, wird sich auch kaum durchsetzen.

390X und Fury X waren mehr oder weniger unabhängige Entscheidungen. 290X mit 4GB gegen 780 Ti mit 3GB war ok, 980 auch nur 4GB, also theoretisch hätte man die 390X auf 4GB lassen können. Aber irgendwie musste man doch einen sichtbaren Vorteil gegenüber der 980 und 290X haben, also mehr VRAM.
Bei der Fury X waren einfach die Auswahlmöglichkeiten:
-4GB
-4GB
-keine Fury X
AMD hätte sicherlich gerne eine 8GB Fury X gehabt.

Ist keine gute Situation, wenn man irgendwie die Rebrandingsuppe schmackhaft machen muss, aber die High End Karte beim Speicher keinerlei Änderungen zulässt.

Interposer bleibt gleich, aber man braucht zwei verschiedene HBM Stacks, zwei verschiedene Produktionslinien, zwei verschiedene Lagerbestände. Die Stückzahlen sind sowieso bei weitem nicht so groß wie für P10, dann den Overhead nochmal zu verdoppeln hat schon Auswirkungen.

Nachdem sich SK Hynix auch nicht so richtig entscheiden kann und die Nachfrage wohl nicht ganz das Wahre ist, wären die sicher auch glücklicher wenn V11 1x8GB und V10 2x8GB hätte.

Es ist schwierig, wenn es so einfach wäre, würden wir hier nicht diskutieren.
Meine Meinung ist eben 16GB für alle V10, 1:1 FP16 für Consumer, 8GB für V11.
Aber Rajas "wir wollen mit Bandbreite werben statt Kapazität" stützt natürlich die 8GB Theorie.

Blediator16

2017-02-10, 17:28:48

Wann war das letzte mal, dass die AMD Ingenieure sich so einen Brocken geleistet haben und mit einem Chip, der satte 60% größer war, gegen einen kleineren gerade mal so angekommen ist? Das macht doch keinen Sinn.

HOT

2017-02-10, 23:37:01

Na ja, AMD wird schon alle Hoffnungen eher in V20 setzen, der mit dem besseren 7nm-Prozess ja auch einen handfesten Vorteil ggü. TSMCs 10nm hätte. Allerdings glaube ich auch nicht, dass V10 "nur" auf 1080-Niveau hängenbleibt, wenn das Debug-Sample mit suboptimalen Treiber da schon landete (wenn auch unter optimierten Umständen)...
Vielleicht reichts ja bei den Custom-Boards um sich mit GP102-salvage herumschlagen zu können (meinetwegen auch bei deutlich höherer TDP, wär mir egal). Den 1080 wird er unter allen Umständen schlagen (bis auf 2-3 Ausnahmen die bei AMD immer arschlahm laufen). Wahrscheinlich würde es auch für einen 1080 Refresh, also einer 2080, reichen.

Langsam glaube ich auch, dass V10 immer 16GB hat, denn die Instinct hat die ja auch - und ne 16GB-Variante kann man mit deutlich höheren Preisen absetzen. Wie oben schon ausgeführt wird AMD nur ein Modell laufen lassen und der eigentliche Verkaufsschlager wird eher die V11 sein. V11 wird mMn nicht auf einen Stack setzen, die Bandbreite wär einfach zu knapp. V11 wird sicherlich über Polaris heruaskommen, vllt. 40 oder 44NCUs. Da wären 2 4GB Stapel mit je 1,6GHz viel sinnvoller und wahrscheinlich sogar deutlich billiger als 1 2GHz 8GB Stapel.
V20 wird es dann sicherlich in 2 Modellen geben, eine mit 32GB und eine Consumer-Variante mit 16GB. Die 32GB-Variante wird ja auch wieder eine deutlich höhere Lebensdauer haben als die Consumervariante, wie bei Hawaii. Bei V10 lohnt sich das nicht. Der wird ja irgendwann ins 400-500€-Sergment degradiert werden, wenn Volta kommt.

Korvaun

2017-02-11, 08:20:04

Der Knackpunkt bei VEGA V10 wird wohl die Zielgruppe sein. Ist das ein reiner Gamer-Chip, dann sollten 500mm² mit HBM-Interface zumindest auf Augenhöhe zum GP102 (470mm² mit "großem" DDR-Interface) sein. Ist das ein Kombi-Chip auch für professionelle Zwecke mit viel DP-Leistung (und entsprechend dafür verbratener Chipfläche) dann wirds wohl eher nur Spiele-Leistung leicht oberhalb GP104 geben.

uweskw

2017-02-11, 08:25:32

Ich habe jetzt schon lange nicht mehr mitgelesen.
Sehe ich das richtig, dass NV noch immer nicht bei HBM mitzieht?
Ohne deren Marktpotential bleibt HBM doch viel zu teuer.

Greetz
US

Complicated

2017-02-11, 08:45:14

GCN hat doch gar keine separaten DP Einheiten die zusätzliche Fläche benötigen und ist frei konfigurierbar zwischen 1/2 und 1/8 DP-Leistung soweit ich mich aus dem Whitepaper erinnere. Wie das bei den NCUs aussieht wird abzuwarten sein, doch ich sehe keinen Grund dieses Feature wieder abzuschaffen.

dargo

2017-02-11, 08:46:27

Ich habe jetzt schon lange nicht mehr mitgelesen.
Sehe ich das richtig, dass NV noch immer nicht bei HBM mitzieht?

GP100 verwendet HBM.
https://www.heise.de/newsticker/meldung/GTC-2016-Nvidia-enthuellt-Monster-Chip-Pascal-mit-16-GByte-HBM2-und-bis-zu-3840-Kernen-3163143.html

AffenJack

2017-02-11, 09:37:06

GCN hat doch gar keine separaten DP Einheiten die zusätzliche Fläche benötigen und ist frei konfigurierbar zwischen 1/2 und 1/8 DP-Leistung soweit ich mich aus dem Whitepaper erinnere. Wie das bei den NCUs aussieht wird abzuwarten sein, doch ich sehe keinen Grund dieses Feature wieder abzuschaffen.

Die Architektur ist prinzipiell frei konfigurierbar das in Hardware einzubauen, aber natürlich kostet das trotzdem Fläche DP 1:2 einzubauen. Es ist nicht so, dass AMD per Software bestimmen kann ob die Chips 1:2 oder 1:16 haben. Wieviel Fläche es im Endeffekt kostet weiß man nicht, aber es kann nicht unerheblich sein, wenn man bei Tonga und Fiji auf 1:16 runter ging. Bei den NCUs wird sich das wahrscheinlich nicht ändern.

Complicated

2017-02-11, 10:00:14

Genau das sagt aber das GCN Whitepaper. Konfigurierbar zwischen 1/2 und 1/16.
https://www.amd.com/Documents/GCN_Architecture_whitepaper.pdf
Each SIMD includes a 16-lane vector pipeline that is predicated and fully IEEE-754 compliant for single precision and double precision floating point operations,
with full speed denormals and all rounding modes.
Double precision and 32-bit integer instructions run at a reduced rate within a SIMD. The GCN Architecture is flexible and double precision performance varies
from 1/2 to 1/16 of single precision performance, increasing the latency accordingly. The double precision and 32-bit integer performance can be configured for
a specific GCN implementation, based on the target application.
More complicated instructions such as 64-bit transcendental functions and IEEE divides are supported by microcode. The SIMDs also take advantage of
the improved branch unit to provide floating point exceptions in hardware, and use scalar GPRs for vector condition codes.
Oder denkst du die bauen die Transistoren in Hardware um wenn sie das "konfigurieren" und verbrauchen mehr Fläche? Der Tradeoff ist eine erhöhte Latenz, daher geht man runter je nach SKU.

iuno

2017-02-11, 11:07:46

Du hast den wichtigen Teil doch selbst zitiert:
The double precision and 32-bit integer performance can be configured for a specific GCN implementation

"specific GCN implementation" = eine GPU, nicht eine SKU.

Natuerlich wird das vorher schon im Design des Chips konfiguriert, sonst haetten wir ja Tahiti, Fiji oder Polaris auch in den Pro Karten mit 1:2 gesehen.
Die Latenz geht bei niedriger DP Rate natuerlich hoch. Statt 8 Taktzyklen bei 1:2 braucht man bei 1:16 dann halt 64. Die SP Latenz betrifft das selbstverstaendlich nicht.

Und bei Vega wird das auch genauso bleiben, das ist schon angekuendigt:

https://pics.computerbase.de/7/6/2/4/6/15-1080.3728241296.png

Complicated

2017-02-11, 11:47:20

Damit hätte AMD verschiedene SIMDs in Hardware? Siehe erneut meine Zitat aus dem Whitepaper:
Each SIMD includes a 16-lane vector pipeline that is predicated and fully IEEE-754 compliant for single precision and double precision floating point operations,
with full speed denormals and all rounding modes.
Ich bin (noch) nicht überzeugt von deiner Interpretation.

AffenJack

2017-02-11, 11:53:37

Er hat doch schon den wichtigen Part zitiert, es ist abhängig von der GCN Implementierung. Dein Zitat sagt nur, dass jede SIMD DP kann. Das ist aber klar, selbst bei 1:16 kann jede SIMD DP nach IEEE-754. Nur eben in langsamer Geschwindigkeit. Es wurde hier auch schon oft genug durchgekaut, dass Fiji in Hardware nur 1:16 kann. Irgendein Magazin hatte Raja sogar explizit danach gefragt, aber ich weiß nicht mehr wer es war.

Screemer

2017-02-11, 11:58:44

Reines logisches denken würde schon helfen. Hätte jede gcn implentierung die Fähigkeit dp in 1:2 speed zu berechnen und das wäre nur per Software oder lasercut/efuse limitiert, dann wäre AMD einfach selten dämlich nicht von jeder gcn Implementierung eine Version mit voller dp-leistung für den Profimarkt zu bringen. Selbst apus wären damit extrem interessant. Bristolridge ist allerdings die erste APU mit 1:2 dp im gpupart. Tahiti hatte 1/2 im profi segment und 1/4 bei consumerkarten. Glaubst du wirklich Fiji und polaris wären auf profikarten auf 1/16 beschränkt, wenn es ein simlper software-/hardwarelock wäre? Kann ich mir nicht mal im Ansatz vorstellen. Man könnte Hawaii/grananda komplett aus der Produktion nehmen, denn er wäre schlicht obsolet.

Ailuros

2017-02-11, 13:19:55

In mehreren APIs gibt es seit geraumer Zeit einen half Datentyp (FP16), der durchaus genutzt werden kann. Wenn eine GPU den nicht unterstützt, wird das in FP32 gerechnet. Aber insbesondere Mobil-GPUs können daraus bereits heute Vorteile ziehen, denn dort hat Stromersparnis aus naheliegendem Grund eine hohe Priorität.
Jetzt hat die PS4Pro schnelleres FP16 spendiert bekommen, Scorpio hat das Ende des Jahres höchstwahrscheinlich auch an Board, die Mobil-GPUs unterstützen es. Dies bedeutet, daß es in ziemlich vielen Engines als Performanceoptimierung eingebaut werden wird. Wenn die Cross-Plattform sind, macht es für AMD und nV auch bei Consumerkarten attraktiv, schnelles FP16 zu verbauen bzw. zu aktivieren. Laß es nur 15% in ein paar Benchmarks sein. Das ist schnon merklich, insbesondere, wenn es der Konkurrent nicht hat.

Damit es sich im ULP mobilen Markt durchsetzt muesste zumindest ARM und QCOM noch mitspielen, denn fuer eine einzige GPU IP ausserhalb von Metal wird wohl kein ISV so leicht resources reinschuetten. Bei Metal hat sich aifak bis jetzt (trotz drei SoC Generationen mit dedizierten FP16 units) auch noch nichts bewegt und in diesem Markt brauchen ISVs keine 3-5 Jahre Entwicklungszeit fuer jegliches kurzes mobiles Spielchen.

Fuer desktop bzw. Konsolen wenn IHVs heute mit FP16 Optimierungen vor kurzem angefangen haben oder anfangen werden in engines die noch unter Entwicklung liegen sie zu implementieren sehen wir davon wenn schaetzungsweise etwas? Ich behaupte ja nirgends dass wir nichts davon sehen werden, lediglich dass zumindest von dem was ich bisher lese/hoere noch nichts zu bewegen scheint, ergo auch mein Zweifel dass es fuer die Lebenszeit von 2016/7 GPUs einen bedeutenden Unterschied machen wird. Im Gegenfall wo sich wirklich etwas im Hintergrund in 3D Spielen fuer FP16 etwas bewegt lass ich mich gerne eines besseren belehren.

Kartenlehrling

2017-02-11, 13:32:02

FP16 wird erst Vorteile bringen wenn man keine Altlasten parallel betreiben muss,
ich meine mich zu erinnern das Nvidia bei einer .pdf geschrieben hat das bei HDR Gaming immer noch beides abgelegt wird.

ChaosTM

2017-02-11, 13:48:19

Wenn Vega bis auf 10% an die kastrierte Titan herankommt, wäre ich schon zufrieden. Würde bedeuten, dass man dann spätestens 6 Monate später in Führung liegen würde - so wie immer.

Optimal wäre natürlich, wenn man NV zur Veröffentlichung einer Titan Black mit 24GB nötigen würde, was aber unwahrscheinlich ist.

uweskw

2017-02-11, 13:49:48

GP100 verwendet HBM.
https://www.heise.de/newsticker/meldung/GTC-2016-Nvidia-enthuellt-Monster-Chip-Pascal-mit-16-GByte-HBM2-und-bis-zu-3840-Kernen-3163143.html

Danke schon mal. Das ist eine Ankündigung aus dem April letzten Jahres. Für die Profi Grafikkarten. Werden da Stückzahlen erreicht die maßgeblich den Preis von HBM beeinflussen können?
Wie gesagt, ich kann mir kaum vorstellen dass AMD allein die Marktmacht hat den Preis von HBM in vernünftige Regionen zu bringen. Oder sehe ich das falsch?

Greetz
US

Gipsel

2017-02-11, 14:02:30

Bei Metal hat sich aifak bis jetzt (trotz drei SoC Generationen mit dedizierten FP16 units) auch noch nichts bewegtMetal unterstützt FP16 als Datentyp in Shadern seit Beginn afaik.
OpenGL, Vulkan und auch DirectX unterstützen das inzwischen auch alle. Es bringt nicht überall Vorteile (wenn die Hardware keinen Nutzen draus zieht) und es ist Mehraufwand für den Entwickler (der überprüfen muß, ob seine Genauigkeitsanforderungen noch mit der geringeren numerischen Präzision erreicht werden), aber größere Hindernisse sehe ich da nicht.
Ist ein wenig wie das Henne/Ei-Problem. Bevor nicht ein kaufkräftiger Markt (wo Spiele entsprechende Entwicklungsbudgets haben) das in Hardware unterstützt, wird das außerhalb von Nischen nicht groß genutzt werden (im Mobilbereich aber heute schon). Mit PS4Pro und Scorpio zusammen hat man da sicher die kritische Masse erreicht.

Setsul

2017-02-11, 16:24:40

Sehe ich genauso wie Ailuros/Gipsel.

Solange es nicht genügend Hardware gibt, die es unterstützt, macht sich keiner den Entwicklungsaufwand, und solange es keine Software gibt, die es nutzt, haben nVidia/AMD keinen Grund es freizugeben.

Durchbrochen wird der Kreis dann wenn Hardware und Software aus der gleichen Hand kommen (z.B. Apple, teilweise Konsolen) und es einfach der billigere Weg ist oder wenn die Hardware fix ist und die Leistung ohne FP16 einfach nicht ausreicht (Konsolen).

Mit der PS4 Pro und der mehr als verdoppelten Rechenleistung dürften die meisten Entwickler erstmal glücklich sein. Man bekommt 720p/60fps oder 1080p/30fps auf der PS4 und 1080p/60fps auf der PS4 Pro. Was will man mehr? Wenns so schlecht läuft, dass man auf der Pro FP16 braucht, wirds auf der normalen katastrophal. Also wenig Anreiz.
Ab Scorpio lohnt sich der Einsatz dann langsam. 2 Systeme die es unterstützen und die PS4 Pro braucht es um auf ähnlichen Auflösungen/Details wie Scorpio zu kommen.
Was ist das der Stand? Weihnachten 2017.
Also irgendwann 2018 dann FP16 bei Konsolen.
Vor 2019 regt sich nichts auf dem PC.
Also bis dahin merkt keiner ob bei einer GPU FP16 beschnitten ist.
Und 2019 hätte AMD es sicher lieber, wenn die Leute Navi kaufen würden, anstatt dass sich Vega ewig hält.

Meiner Meinung nach sieht also die Überlegung einfach so aus:
FP16 full speed auf Consumer Karten:
Vorteile: keine
Nachteile:
-eventuell weniger verkaufte Profi-Karten
-eventuell weniger verkaufte Navi GPUs (Navi Karten wollte ich nicht schreiben)

FP16 gedrosselt auf Consumer Vega:
Nachteile: keine
Vorteile: eventuell mehr Geld

Ailuros

2017-02-11, 17:16:51

Metal unterstützt FP16 als Datentyp in Shadern seit Beginn afaik.
OpenGL, Vulkan und auch DirectX unterstützen das inzwischen auch alle. Es bringt nicht überall Vorteile (wenn die Hardware keinen Nutzen draus zieht) und es ist Mehraufwand für den Entwickler (der überprüfen muß, ob seine Genauigkeitsanforderungen noch mit der geringeren numerischen Präzision erreicht werden), aber größere Hindernisse sehe ich da nicht.
Ist ein wenig wie das Henne/Ei-Problem. Bevor nicht ein kaufkräftiger Markt (wo Spiele entsprechende Entwicklungsbudgets haben) das in Hardware unterstützt, wird das außerhalb von Nischen nicht groß genutzt werden (im Mobilbereich aber heute schon). Mit PS4Pro und Scorpio zusammen hat man da sicher die kritische Masse erreicht.

Dann haben wir auch im Prinzip die gleiche Perspektive zum Thema.

Leonidas

2017-02-12, 16:29:50

Wie gesagt, ich kann mir kaum vorstellen dass AMD allein die Marktmacht hat den Preis von HBM in vernünftige Regionen zu bringen. Oder sehe ich das falsch?

Mit einem kompletten Portfolio rein auf HBM schon. Aber mit nur einer einzigen NV-Karte mit HBM (außerhalb GP100) wäre es natürlich viel einfacher.

Foobar2001

2017-02-13, 01:50:26

FP16 wird erst Vorteile bringen wenn man keine Altlasten parallel betreiben muss,
Dual Issue FP16 und FP32 koennen beliebig gemischt werden. Ich hab keine Ahnung woher du diese Vorstellung hast.

FP16 ist etwas anders als FP64. FP64 belegt mehr Takte auf einer ALU als FP32. FP16-Operationen muessen hingegen immer in Paaren auf FP32-ALUs ausgefuehrt werden, haben also effektiv den doppelten Durchsatz mit der gleichen Latenz. Aber ausschliesslich wenn der Compiler das auch so schedulen kann, weil sie halt keine Abhaenigkeiten in einem Takt haben koennen. Das ist im Prinzip wieder VLIW wie zu alten AMD-Zeiten, nur nicht so breit. Transcendentals gibt es im uebrigen auch nicht alle fuer FP16, da muss man also FP32-Operationen laufen lassen und dazwischen hin und her konvertieren.

Magisch doppelten Durchsatz gibt's nicht. Es kann helfen, muss aber nicht.

Complicated

2017-02-13, 09:20:21

Er hat doch schon den wichtigen Part zitiert, es ist abhängig von der GCN Implementierung. Dein Zitat sagt nur, dass jede SIMD DP kann. Das ist aber klar, selbst bei 1:16 kann jede SIMD DP nach IEEE-754.
Reines logisches denken würde schon helfen. Hätte jede gcn implentierung die Fähigkeit dp in 1:2 speed zu berechnen und das wäre nur per Software oder lasercut/efuse limitiert, dann wäre AMD einfach selten dämlich nicht von jeder gcn Implementierung eine Version mit voller dp-leistung für den Profimarkt zu bringen. Also das hat mit logischem denken IMHO nichts zu tun, da es völlig normal ist in CPU und GPU eine Unterscheidung unterschiedlicher SKUs zu treffen ohne alle Fähigkeiten maximal auszuspielen. Das nennt sich dann konfigurierbar wie ich ja selber schon schrieb. Nicht alle Profikarten brauchen DP und der Stromverbrauch und die unterschiedliche Latenz spielen da durchaus eine größere Rolle als beim Gaming.

Ich möchte hier wirklich nicht nerven, doch ich würde nun gerne wissen welche Art zusätzlicher Transistoren grundsätzlich bei GCN verbaut werden müssen um DP in besseren Verhältnissen zu ermöglichen. Wie viel Diefläche kostet der Unterschied zwischen 1:2 und 1:16 DP.
Ich selber habe keinerlei Hinweis in irgendeiner Quelle über Google finden können.

Im Gegenteil, Tahiti und Hawaii haben die selbe Implementierung der CUs.
http://www.tomshardware.com/reviews/firepro-w9100-performance,3810-2.html
In most respects, the implementation of AMD's Graphics Core Next architecture on Hawaii is almost identical to the FirePro W9000’s Tahiti GPU. Specifically, the Compute Unit building block is the same. All 64 IEEE-754-2008-conformant shaders consist of four vector and sixteen texture fetch load/store units.Gerne akzeptiere ich, dass die Entscheidung nach der Produktion nicht mehr umkehrbar ist, doch es ging um den Mehrverbrauch an Transistoren und deren Ausmaß. Also welche zusätzliche Diefläche musste hier verbaut werden? Und nur darum ging es.

Da hier offensichtlich Kenntnisse vorhanden sind die ich wohl nicht habe würde ich mich freuen wenn jemand das mit Quellen erläutern könnte, gerne auch per PN. Dafür nimmt man an Foren schließlich Teil.

Gipsel

2017-02-13, 11:48:47

Also das hat mit logischem denken IMHO nichts zu tun, da es völlig normal ist in CPU und GPU eine Unterscheidung unterschiedlicher SKUs zu treffen ohne alle Fähigkeiten maximal auszuspielen. Das nennt sich dann konfigurierbar wie ich ja selber schon schrieb. Nicht alle Profikarten brauchen DP und der Stromverbrauch und die unterschiedliche Latenz spielen da durchaus eine größere Rolle als beim Gaming.

Ich möchte hier wirklich nicht nerven, doch ich würde nun gerne wissen welche Art zusätzlicher Transistoren grundsätzlich bei GCN verbaut werden müssen um DP in besseren Verhältnissen zu ermöglichen. Wie viel Diefläche kostet der Unterschied zwischen 1:2 und 1:16 DP.
Ich selber habe keinerlei Hinweis in irgendeiner Quelle über Google finden können.

Im Gegenteil, Tahiti und Hawaii haben die selbe Implementierung der CUs.
http://www.tomshardware.com/reviews/firepro-w9100-performance,3810-2.html
Gerne akzeptiere ich, dass die Entscheidung nach der Produktion nicht mehr umkehrbar ist, doch es ging um den Mehrverbrauch an Transistoren und deren Ausmaß. Also welche zusätzliche Diefläche musste hier verbaut werden? Und nur darum ging es.

Da hier offensichtlich Kenntnisse vorhanden sind die ich wohl nicht habe würde ich mich freuen wenn jemand das mit Quellen erläutern könnte, gerne auch per PN. Dafür nimmt man an Foren schließlich Teil.
Der Hardwareaufwand für höhere DP-Raten ist schon nicht ganz vernachlässigbar. Man benötigt breitere interne Puffer (um die Zwischenergebnisse zu speichern) und breitere Addierer (oder loopen, was die Geschwindigkeit verringert), was aber relativ beherrschbar ist. Als größter Mehraufwand gilt typischerweise der Multiplizierer, der breiter ausgelegt werden muß. Und der Aufwand für einen Multiplier skaliert dummerweise quadratisch mit der Breite (doppelt so breite Zahlen zu multiplizieren bedeutet den vierfachen Aufwand). Daraus ergeben sich in Verbindung mit der Breite der Mantissen der Fließkommaformate folgende Schlußfolgerungen:
1:16 geht mit praktisch vernachlässigbarem Aufwand, das ist beinahe (aber natürlich nicht völlig) umsonst (kein Mehraufwand bei Multiplier oder Addierer, wenn die Basis eine FMA-Einheit ist).
1:4 erfordert bereits ein Aufbohren der Multiplier und Addierer von 24bit Breite auf 27Bit (inkludiert bereits jeweils ein Guard-Bit), was immerhin bereits ~27% mehr Ressourcen für den Multiplier erfordert. Das ist also längst nicht mehr umsonst, auch wenn es erstmal nach wenig aussieht (aber der Multiplier ist ja nicht das Einzige in der Einheit). Die 27Bit-Addierer ermöglichen es, reine Additionen auf einem 1:4 Chip mit 1:2 Rate auszuführen. Dies ist bei AMD traditionell auch der Fall. Die Addierer (bzw. der Teil der FMA-Einheit, der für die Carry-Propagation zuständig ist) müssen für DP-FMA übrigens noch speziellen Aufwand treiben, um ein Carry potentiell über die komplette, 104bit lange Mantisse des Resultats propagieren zu können.
Bei 1:2 wird es dann nochmal deutlich teurer. Hier bieten sich asymmetrische Multiplier an, also sowas wie 27bit x 53bit Multiplizierer (~2,5facher Aufwand wie ein 24bitx24bit Multiplier). Mit so einem kann man in zwei Durchgängen eine 53bitx53bit Multiplikation ausführen. Für die Carry-Propagation bei FMA gilt Ähnliches wie bei 1:4 (Mehraufwand für den Additionsteil).
1:2 stellt die maximale Rate dar, die noch sinnvoll implementierbar ist, wenn man bedenkt, daß Registerfilebandbreite sehr teuer ist, sowohl schaltungstechnisch als auch vom Energieverbrauch. Mit 1:2 ist der Bedarf sowohl mit FP32 als auch FP64 identisch, das stellt aus dieser Sicht also den Sweetspot dar. 1:1 ist nur in einem Markt vorstellbar, der FP32 überhaupt nicht benötigt.

Insgesamt ist der Hardwareaufwand für höhere DP-Raten nicht vernachlässigbar. Deshalb wird die Hardware dafür typischerweise nicht eingebaut, wenn der Zielmarkt es nicht erfordert. Die Hawaii-CUs (1:2) sind z.B. größer als die von Tahiti (1:4), die wiederum größer sind als die von Pitcairn (1:16), das macht jeweils um einen halben mm² pro CU aus (afair), da ist also die zusätzliche Hardware für höhere Raten physisch nicht vorhanden. Das "konfigurierbar" bezieht sich darauf, daß der Chip-Architekt beim Zusammenklicken der GPU im GPU-Maker-Tool, neben Eingabefeldern für Anzahl der Shaderengines, Anzahl der CUs pro Shaderengine, Anzahl der ACEs, ROPs usw. auch ein Eingabefeld für die DP-Rate hat ;).
Will sagen: AMD hat sowohl 1:2, 1:4 als auch 1:16 in einer Hardwarebeschreibungssprache fertig designed, es ist Teil ihrer GPU-IP. Bei der Festlegung der Hardwaredaten einer neuen GPU ist es also eine "einfache" Wahloption. Nachdem diese Auswahl geschehen ist, ist man auf eine bestimmte maximale DP-Rate festgelegt. Und erst dann kommen natürlich noch ein Haufen Hardware-Ingenieure daher, die das physische Design simulieren und optimieren, bevor das zum Tapeout kommt und dann in einen realen Chip übersetzt wird.

Complicated

2017-02-13, 12:33:12

Top, Danke für die Infos auf den Punkt!

Demnach kann ich davon ausgehen, dass die von mir verlinkte Quelle bei THG inhaltlich falsch ist, welche behauptet es gäbe keinen Unterschied in den CUs zwischen Hawaii und Tahiti?
Die Hawaii-CUs (1:2) sind z.B. größer als die von Tahiti (1:4),
Ähnliche irreführende Aussagen sind bei CB durch Wolfgang zu finden:
https://www.computerbase.de/2013-10/amd-radeon-r9-290x-test/3/
AMD hat uns soeben überraschend mitgeteilt, dass das SP/DP-Verhältnis der Radeon R9 290X nicht 4:1, sondern nur 8:1 beträgt, weswegen die Geschwindigkeit bei doppelter Genauigkeit unter der der alten Tahiti-Produkte liegt. Doch ist es immer noch möglich (und wahrscheinlich), dass die GPU eigentlich zu mehr in der Lage ist.Wegen dem "logisch" anzunehmenden.

iuno

2017-02-13, 12:51:01

Ob man hinterher die consumer SKUs beschneidet ist halt nochmal was anderes. Wenn es nur darum ginge, wuerde man auch nicht in die Dokumente zur Architektur "konfigurierbar" sondern "1/2 DP" reinschreiben.
Bei CB geht es um die 290X (consumer Hawaii). 7970 (consumer Tahiti) hatte 1/4 und war dementsprechend nicht noch extra beschnitten. Es war daher fuer den Autor eben ueberraschend, dass die 290X weniger DP Leistung bekommt als die 7970. Die FireRPO hatte ja dann auch 1/2 also ist da kein Fehler im Text.

Gipsel

2017-02-13, 13:32:50

Demnach kann ich davon ausgehen, dass die von mir verlinkte Quelle bei THG inhaltlich falsch ist, welche behauptet es gäbe keinen Unterschied in den CUs zwischen Hawaii und Tahiti?Ja. Es gibt da auch noch diverse andere Unterschiede zwischen Tahiti und der Volcanic Sea Island Generation (Hawaii) abseits von DP (ein paar neue Instruktionen z.B.).

Locuza

2017-02-13, 13:55:36

Wobei man darauf achten sollte das die Produktfamilie Volcanic Islands NICHT das gleiche ist, wie die dokumentierten ISA Dokumente, welche die Codenamen als technische Grundeigenschaft verwenden.
Volcanic Islands als Produktfamilie hat auch Tahiti inkludiert.
https://www.heise.de/newsticker/meldung/Volcanic-Islands-AMD-enthuellt-Next-Generation-Grafikkarten-fuer-4K-1966897.html

Technisch gesehen ist es allerdings eindeutig:
Southern Islands = GCN Gen 1 = Oland, Cape Verde, Pitcairn, Tahiti
Sea Islands = GCN Gen 2 = Bonaire, Hawaii, Kaveri, Kabini
Volcanic Islands = GCN Gen 3 = Iceland, Tonga, Fiji, Carrizo
Polaris (Arctic Islands) = GCN Gen 4 = Polaris 10 (Ellesmere), Polaris 11 (Baffin), Polaris 12

Complicated

2017-02-13, 15:10:03

Bei CB geht es um die 290X (consumer Hawaii). 7970 (consumer Tahiti) hatte 1/4 und war dementsprechend nicht noch extra beschnitten. Es war daher fuer den Autor eben ueberraschend, dass die 290X weniger DP Leistung bekommt als die 7970. Die FireRPO hatte ja dann auch 1/2 also ist da kein Fehler im Text.Sehr Interpretationsfähig. Das ganze dann ohne Unterschiede in Hardware? Aha...also nur die Range der DP die ohne zusätzliche Diefläche möglich ist variiert je nach Diskussionsschwerpunkt? Hat bisher so keiner hier oder in einem der verlinkten Texte geschrieben. Und welche Range bietet GCN dann hierbei? Und welche wird NCU bieten? Wirkt alles wenig "logisch" und selbsterklärend wie mache hier meinten.

Locuza

2017-02-13, 15:55:58

Sehr Interpretationsfähig. Das ganze dann ohne Unterschiede in Hardware? Aha...also nur die Range der DP die ohne zusätzliche Diefläche möglich ist variiert je nach Diskussionsschwerpunkt? Hat bisher so keiner hier oder in einem der verlinkten Texte geschrieben. Und welche Range bietet GCN dann hierbei? Und welche wird NCU bieten? Wirkt alles wenig "logisch" und selbsterklärend wie mache hier meinten.
Tahiti hat ein DP:SP-Verhältnis von 1:4.
Sowohl bei den Produkten für normale Konsumenten, als auch für die FirePro Modelle.

Als Hawaii für die Konsumenten in Form der 290X auftauchte, lag das DP:SP-Verhältnis bei 1:8.
CB hat sich darüber gewundert und spekuliert, dass dies nicht die maximale Rate der Hardware sein muss und so war es auch am Ende, die Hardware hat 1:2 implementiert und wurde in der Form unlocked für FirePro-Produkte verwendet.
Für Konsumenten gab es aber einen Lock, der die Rate auf 1:8 limitiert hat, dass hat früher AMD allerdings nie gemacht.

Gipsel

2017-02-13, 15:56:04

Sehr Interpretationsfähig. Das ganze dann ohne Unterschiede in Hardware? Aha...also nur die Range der DP die ohne zusätzliche Diefläche möglich ist variiert je nach Diskussionsschwerpunkt? Hat bisher so keiner hier oder in einem der verlinkten Texte geschrieben. Und welche Range bietet GCN dann hierbei? Und welche wird NCU bieten? Wirkt alles wenig "logisch" und selbsterklärend wie mache hier meinten.Da ist gar nichts interpretationsfähig. Und es gibt natürlich Unterschiede in der Hardware zwischen 1:2, 1:4 oder 1:16 DP-Rate.
Der gleiche Hawaii-Chip, der 1:2 in Hardware verbaut hat, wurde für den Consumer-Markt auf 1:8 gedrosselt. Tahiti mit 1:4 in Hardware wurde nicht gedrosselt (alle Modelle machen 1:4), genau wie alle 1:16 Chips nirgendwo gedrosselt werden. So schwer ist das doch nicht zu verstehen.

Und wie schon geschrieben, hat AMD 1:2, 1:4 und 1:16 in einer Hardwarebeschreibungssprache fertig designed. Das kann bei der Zusammenstellung einer GPU aus vorhandener IP also ausgewählt werden. Beim fertigen Chip kann das dann (per Software/BIOS/Lasercut) noch weiter gedrosselt werden. Bei Vega wird das mit den NCUs wohl ebenso laufen.

HOT

2017-02-13, 17:25:16

Die Limitierung von DP-Leistung macht ja auf jeden Fall Sinn, um die Consumer-Produkte nicht zu stark zu machen, aber doppel-FP16 ist ne ganz andere Nummer. Hier kann nämlich auch viel Consumer-Software von profitieren, von daher wird das sehr sicher enthalten sein. Das kann durchaus ein Verkaufsgrund werden, der dem Sinn der künstlichen Limitierung überwiegt. V20-DP wird man dann wieder limitieren. V10 ist kein Hawaii, das ist ein reiner Consumer-Chip. Erst V20 wird der neue echte Profichip. Ich halte von diesen Spekulationen überhaupt nichts.

Achill

2017-02-13, 18:38:54

Könnte die Möglichkeit zur Deaktivierung von von DP-Einheiten ggf. auch einfach zur Erhöhung der Ausbeute dienen? Wenn also bestimmte (deaktivierbare) Teile eine bestimmte Frequenz nicht erreichen / fehlerhaft sind, so kann man diese als Consumer-Karten bringen - voll funktionsfähige dann für Enterprise? Oder geht das technisch nicht / macht aus anderen Gründen kein Sinn?

Screemer

2017-02-13, 18:41:12

nvidia kann das wohl machen. sie behaupten zumindest dedizierte einheiten für dp zu haben. bei amds cus wage ich das zu bezweifeln.

ich glaube jedoch nicht, dass die wahrscheinlichkeit von defekten im dem bereich sonderlich hoch ist bzw. anders formuliert führen solche defekte imho eher zu nem totalausfall.

Complicated

2017-02-13, 18:57:01

Der gleiche Hawaii-Chip, der 1:2 in Hardware verbaut hat, wurde für den Consumer-Markt auf 1:8 gedrosselt. Tahiti mit 1:4 in Hardware wurde nicht gedrosselt (alle Modelle machen 1:4), genau wie alle 1:16 Chips nirgendwo gedrosselt werden. So schwer ist das doch nicht zu verstehen.

Dann nochmal konkret:
Hat der gedrosselte Hawaii die selbe Die-Fläche und Anzahl an Transistoren (Profi/Consumer)?

Gipsel

2017-02-13, 19:03:02

Dann nochmal konkret:
Hat der gedrosselte Hawaii die selbe Die-Fläche und Anzahl an Transistoren (Profi/Consumer)?:confused:
Ja na klar. Das ist doch der exakt gleiche Chip.

Skysnake

2017-02-13, 20:15:40

Genau wie bei nvidia oder Intel auch :ugly:

fondness

2017-02-13, 20:25:58

Dann nochmal konkret:
Hat der gedrosselte Hawaii die selbe Die-Fläche und Anzahl an Transistoren (Profi/Consumer)?

Ist die Frage ernst gemeint? Sorry aber langsam wird es lächerlich, außerdem ist das hier ot und wirklich nicht schwer zu verstehen sowie schon lange bekannt.

reaperrr

2017-02-13, 20:51:04

Könnte die Möglichkeit zur Deaktivierung von von DP-Einheiten ggf. auch einfach zur Erhöhung der Ausbeute dienen? Wenn also bestimmte (deaktivierbare) Teile eine bestimmte Frequenz nicht erreichen / fehlerhaft sind, so kann man diese als Consumer-Karten bringen - voll funktionsfähige dann für Enterprise? Oder geht das technisch nicht / macht aus anderen Gründen kein Sinn?

Ich bezweifle stark, dass da irgendwas physisch deaktiviert wird. Das wird einfach künstlich über den Treiber oder maximal das Bios begrenzt, mehr nicht.

Dann nochmal konkret:
Hat der gedrosselte Hawaii die selbe Die-Fläche und Anzahl an Transistoren (Profi/Consumer)?
Allein schon der Zeitaufwand für die Überarbeitung des Chiplayouts sowie die Kosten für die zusätzlichen Fertigungsmasken wären heutzutage viel zu hoch, als dass es sich für ~20-25mm² und ein paar Watt lohnen würde, einen extra Chip aufzulegen.

Sonst hätte AMD auch definitiv Tonga nochmal überarbeitet (ungenutztes 128bit SI und dazugehöriger 512KB L2 haben über 30mm² umsonst verbraten).

d2kx

2017-02-13, 21:30:54

http://i.imgur.com/CNcWB4Z.jpg

AMD Capsaicin & Cream - Live @ GDC 2017 (Feb. 28)

GDC is where developers not only shine, but share how they create everyday gaming magic from raw code, technology, and imagination. On February 28th, we’re beginning the day with our always-spicy Capsaicin livestream, but fiery feasts are best experienced when accompanied by something cool and creamy to satisfy the palette.

This year at GDC, join us on the 28th for our Capsaicin livestream and our Cream developer sessions - insightful and inspiring talks focused on rendering ideas and new paths forward, driven by game industry gurus from multiple companies including Epic and Unity.

The Capsaicin livestream kicks off at 10:30 AM from Ruby Skye, a feature-packed show highlighting the hottest new graphics and VR technologies propelling the games industry forward. The Cream Developer Sessions will start shortly after at 2:30 PM, with a special talk featuring Unity and Epic.

Hübie

2017-02-14, 00:27:45

Hoffentlich gibt's dann was konkreteres zu Vega in Hinblick auf die Veröffentlichung. :smile:

Ailuros

2017-02-14, 00:31:40

Hoffentlich gibt's dann was konkreteres zu Vega in Hinblick auf die Veröffentlichung. :smile:

Ich wuerde mir da keine grosse Hoffnungen machen.

Complicated

2017-02-14, 00:37:15

Ist die Frage ernst gemeint? Sorry aber langsam wird es lächerlich, außerdem ist das hier ot und wirklich nicht schwer zu verstehen sowie schon lange bekannt.
Einfach mal den Ball flach halten und nochmal zurück auf Anfang worum es geht:
Der Knackpunkt bei VEGA V10 wird wohl die Zielgruppe sein. Ist das ein reiner Gamer-Chip, dann sollten 500mm² mit HBM-Interface zumindest auf Augenhöhe zum GP102 (470mm² mit "großem" DDR-Interface) sein. Ist das ein Kombi-Chip auch für professionelle Zwecke mit viel DP-Leistung (und entsprechend dafür verbratener Chipfläche) dann wirds wohl eher nur Spiele-Leistung leicht oberhalb GP104 geben.
GCN hat doch gar keine separaten DP Einheiten die zusätzliche Fläche benötigen und ist frei konfigurierbar zwischen 1/2 und 1/8 DP-Leistung soweit ich mich aus dem Whitepaper erinnere. Wie das bei den NCUs aussieht wird abzuwarten sein, doch ich sehe keinen Grund dieses Feature wieder abzuschaffen.
Das war der Augangspunkt und nun haben wir geklärt, dass dies völlig überzogen war, was ich auch mit meiner Frage verdeutlichen wollte.

Denn das was reaperrr schreibt ist auf den Punkt gebracht und ergibt sich aus den detaillierten Ausführungen von Gipsel

Allein schon der Zeitaufwand für die Überarbeitung des Chiplayouts sowie die Kosten für die zusätzlichen Fertigungsmasken wären heutzutage viel zu hoch, als dass es sich für ~20-25mm² und ein paar Watt lohnen würde, einen extra Chip aufzulegen.

Sonst hätte AMD auch definitiv Tonga nochmal überarbeitet (ungenutztes 128bit SI und dazugehöriger 512KB L2 haben über 30mm² umsonst verbraten).
Und gut jetzt mit dem bekloppten empörten Getue ohne zu erfassen worum es geht. Seit wann ist es OT wenn man sich über den Dieflächen Bedarf des betreffenden Chips für DP-Leistung informiert. Sind wir uns einig, dass ein GDDR5 SI mehr Diefläche verbrät als die DP-Funktion bei GCN?

Akkarin

2017-02-15, 13:36:19

Ist es möglich dass der HBCC(high bandwith cache Controller aka memory u. storage Controller) von Vega mit APUs im Hinterkopf designed wurde ? Dann macht auch sinn den HBM als cache zu bezeichnen.

Kriton

2017-02-15, 15:38:32

Ist es möglich dass der HBCC(high bandwith cache Controller aka memory u. storage Controller) von Vega mit APUs im Hinterkopf designed wurde ? Dann macht auch sinn den HBM als cache zu bezeichnen.

Nicht wenn wir von HSA reden.

Skysnake

2017-02-15, 19:51:48

Würde ich so nicht sagen.

Es sollte/muss ja nur alles über den Controller gehen. Ich würde das daher nicht so einfach verneinen.

Akkarin

2017-02-15, 22:11:42

Gerade bei HSA macht es doch sinn dem HBM als "cache" zu benutzen ? nur DDR4 ist zu langsam, und DDR4+X als "normalen" speicher würde HSA zerschießen. Deshalb den HBM als "cache" vor den DDR4 setzen und du hast sowohl Bandbreite als auch HSA-kompabilität.

tm0975

2017-02-16, 10:57:45

Hoffentlich gibt's dann was konkreteres zu Vega in Hinblick auf die Veröffentlichung. :smile:

woher die hoffnungen? der jahres-rhythmus bei den gpu-vorstellungen ist doch recht konstant, oder? es wird also wieder sommer werden. vorstellung im juni, erste lieferungen im juli, vernünftige lieferbarkeit von custom designs im september.

koffeinjunkie

2017-02-17, 18:15:42

Kann es sein das gleich zu Begin von Vega, gescheite Custom Modelle rauskommen werden wie bei den RX Karten und auch bei Nvidia Karten?

Ich überlege ob ich jetzt eine RX 480 kaufe und bis Ende des Jahres damit zocke, da ich spekuliere, wenn Vega GPU's spätestens im Juni kommen sollen, dürfte gescheite Custom Modelle zum Ende des Jahres hin verfügbar sein. Wenn aber schon gute Kühler gleich zu begin auf dem Markt sein sollte, dann würde es sich eher nicht lohnen denke ich.

BlacKi

2017-02-17, 19:25:03

Kann es sein das gleich zu Begin von Vega, gescheite Custom Modelle rauskommen werden wie bei den RX Karten und auch bei Nvidia Karten?
keine ahnung wie du dich an den release des p10 erinnnerst... mai war release und im august gabs dann ganz spärlich die ersten überteuerten customs.

vinacis_vivids

2017-02-17, 19:59:11

Customs haben auch geänderte Platinen, weshalb es immer länger dauert und teurer ist. Ist ja nicht immer nur ein Kühlerwechsel.

koffeinjunkie

2017-02-17, 20:35:45

@BlacKi
Ich weiß nicht inwiefern die Liste bei Preissuchmaschinen ist aber die MSI 8GB RX 480 ist seit dem 08.07.2016 dort gelistet. Ging soweit ich weiß recht schnell mit den Custom Karten auch bei Nvidia.

Skysnake

2017-02-17, 22:48:28

Customs haben auch geänderte Platinen, weshalb es immer länger dauert und teurer ist. Ist ja nicht immer nur ein Kühlerwechsel.
Nicht immer. Zur HD7000er Serie gab es direkt Customs in rauen Mengen. Auch mit geändertem Layout.

BlacKi

2017-02-17, 22:50:18

@BlacKi
Ich weiß nicht inwiefern die Liste bei Preissuchmaschinen ist aber die MSI 8GB RX 480 ist seit dem 08.07.2016 dort gelistet. Ging soweit ich weiß recht schnell mit den Custom Karten auch bei Nvidia.
nö, es gab monate lang nur die listungen ohne verfügbarkeit.

eggstra für disch http://www.pcgameshardware.de/Polaris-Codename-265453/News/Radeon-RX-480-Strassenpreise-sinken-1203684/

Screemer

2017-02-17, 23:03:22

Eine Woche später lasen sich die news schon wieder ganz anders: http://www.pcgameshardware.de/Polaris-Codename-265453/News/Verfuegbarkeit-Custom-Designs-RX-480

Ist doch reines klickbaiting. Gibt genug Leute die schon im Juli customs hatten. Die MSI hat seit 26.7. nen preis und wenn Produkte bei gh nen preis haben, dann sind sie kaufbar.

koffeinjunkie

2017-02-19, 09:16:13

Jedenfalls hat es keine Ewigkeiten gedauert und gute Karten wie man sie jetzt noch kaufen kann, gab es von Anfang. Ich schätze ich werde noch auf Vega warten.

TheGood

2017-02-19, 10:13:28

Soweit ich noch in Erinnerung hatte, waren die ersten Customs so 4-6 Wochen nach der Referenzkarte erhältlich. Allerdings zu deutlich höheren Preisen. Für diejenigen die sich daran nicht stören, ist somit eine Custom Karte relativ schnell verfügbar.

Hübie

2017-02-19, 11:01:19

AMD täte gut daran Karten mit aftermarket cooling zu Release zu haben. Das sind Erfahrungsgemäß die besten Veröffentlichungen von Produkten. Siehe damals mit der 970 und 980 Ti. AMD-Beispiele fallen mir gerade nicht ein (Fury??).

mczak

2017-02-20, 23:38:50

So, llvm hat nun initiale Unterstützung für GFXv9 (aka Vega). Gibt sogar schon zwei Versionen (900 und 901).
https://github.com/llvm-mirror/llvm/commit/83c857cd3ae73d71958ccee8c43d55dc40ba3cc1
Viel sehe ich da allerdings nicht, scheint alles praktisch identisch mit VI zu sein - na gut man braucht nun keinen waitcnt Befehl mehr vor barrier...
Ausserdem gibt's ein neues Feature "Aperture Regs".
Ob der Code so allerdings auch schon lauffähig ist, keine Ahnung...

Hübie

2017-02-22, 07:18:18

Schade dass es immer noch keinen konkreten Veröffentlichungstermin gibt. Meine Ti ist ständig überfordert. :D Ende Mai, Anfang Juni waren jetzt letzte Spekulationen, richtig? :uponder:

Tarkin

2017-02-22, 11:13:23

What we know about VEGA (https://videocardz.com/66239/what-we-know-about-vega) (videocardz.com)

Tarkin

2017-02-22, 13:13:09

und noch ein Leak von videocardz.com

Radeon RX 580? (https://videocardz.com/66253/amd-radeon-rx-580-ashes-of-the-singularity-results-leaks-out)

interpretiere ich das richtig... 580 = 1070 in Ashes?

Godmode

2017-02-22, 13:17:28

und noch ein Leak von videocardz.com

Radeon RX 580? (https://videocardz.com/66253/amd-radeon-rx-580-ashes-of-the-singularity-results-leaks-out)

interpretiere ich das richtig... 580 = 1070 in Ashes?

Möglich. Wie ich im GP102-Thread schon schrieb, deutet vieles darauf hin, dass Vega11 ein reiner Gaming-Chip wird, während Vega10 den ganzen Compute-Ballast mittragen muss.

Ailuros

2017-02-22, 13:21:33

Nur wir haben noch keinen Vega unmittelbar vor uns (welches noch zeitlichen Luftraum fuer leicht schnellere Treiber bedeuten koennte).

Linmoum

2017-02-22, 13:23:53

Sowohl bei Polaris, als auch bei Ryzen waren in der AotS-Datenbank im Voraus nie die (potentiell) finalen Produktnamen zu sehen. Daher denke ich nicht, dass das jetzt plötzlich der Fall ist.

N0Thing

2017-02-22, 14:34:20

Sowohl bei Polaris, als auch bei Ryzen waren in der AotS-Datenbank im Voraus nie die (potentiell) finalen Produktnamen zu sehen. Daher denke ich nicht, dass das jetzt plötzlich der Fall ist.

Würde mich auch wundern, wenn das so auf einmal offensichtlich gemacht werden würde.

Übrigens Format_C über sein RX 480 Roundup und die Einordnung der RX 580:

Ende März hänge ich dann nahtlos auch die RX580 mit rein, die ja völlig identisch sind. Wer jetzt eine RX480 günstig schnappen kann,
der sollte das schnell tun und darf sich die RX580 getrost schenken. Die gibt es dann anfangs wieder mit Idiotenaufschlag.

HOT

2017-02-22, 14:58:00

Möglich. Wie ich im GP102-Thread schon schrieb, deutet vieles darauf hin, dass Vega11 ein reiner Gaming-Chip wird, während Vega10 den ganzen Compute-Ballast mittragen muss.
Nope, das denke ich nicht. V10 und V11 werden sehr ähnlich im Aufbau sein, einer größer, einer kleiner. Der Compute-Chip ist V20. Ich denke auch, dass der RX580 maximal ein V11 Pro ist. Die doppelte FP16-Power liegt einfach in der Architektur, alle Vega werden so aufgebaut sein. Die große Flexibilität ist einfach ein Wesenszug der NCUs.
Entweder nutzt man die 5er-Schritte oder V10 läuft außerhalb der Serie. RX570 wird ziemlich sicher ein P10 Pro sein, RX560 bleibt sicher P11 Pro und RX550 ist dann P12 Pro. Bei AMD werden Chips im Namensschema evtl mal ersetzt (R9 280 -> R9 380) aber die rutschen im Schema nicht ab. Ein P10XT wird dann evtl. einfach aus dem Lineup getilgt und landet dann auschließlich in Notebooks. Oder der RX580 ist ein P10XT2 und das Ganze ist purer BS.

fondness

2017-02-22, 15:18:44

Anscheinend werden die Karten direkt als "Radeon Vega" vermarktet, gibt sogar schon ein Logo:

https://s12.postimg.org/4lmf4htt9/AMD_RTG_VEGA_LOGO.jpg (https://postimg.org/image/fxz0ma2i1/)

https://videocardz.com/66267/amd-radeon-vega-graphics-card-and-logo-revealed

Troyan

2017-02-22, 15:40:29

Hier gibt es die Karte zu sehen: https://videocardz.com/66267/amd-radeon-vega-graphics-card-and-logo-revealed

Immer noch die Debug-Karte.

HOT

2017-02-22, 15:43:35

Damit hat sich die Sache mit dem Benchmark ja erledigt.
Also RX5xx-Serie ist komplett Polaris-Refresh, das sollte jetzt zu 99% klar sein.

y33H@

2017-02-22, 15:46:53

Hört doch auf VC auch nur einen Klick zu geben :mad:

rentex

2017-02-22, 16:16:04

Hört doch auf VC auch nur einen Klick zu geben :mad:

Das ist doch nicht für VC, sondern für AMD...

Ailuros

2017-02-22, 16:37:38

Anscheinend werden die Karten direkt als "Radeon Vega" vermarktet, gibt sogar schon ein Logo:

Ryzen the V (4 Vendetta) :P Das Ryzen Logo erinnert mich uebrigens an "Arrival" (toller Film fuer sci-fi fans).

Loeschzwerg

2017-02-22, 17:16:52

Ich vermisse die klassischen Engineering-Tags/Aufkleber :(
http://www.pcgameshardware.de/Vega-Codename-265481/News/Prototyp-Grafikkarte-1221516/galerie/2706774/?fullsize

102-D05001-00... Gab es da mal was beim Zauba?

Unicous

2017-02-22, 17:19:40

Zauba wird (momentan) nicht mehr aktualisiert.

dildo4u

2017-02-22, 17:22:39

Scheint immer noch 1080 Performance zu sein.

Vega
https://youtu.be/5aYFZLC8siE

GTX 1080
https://youtu.be/5m9WCCissJk

Loeschzwerg

2017-02-22, 17:26:04

Zauba wird (momentan) nicht mehr aktualisiert.

Jup, hattest du schon mal irgendwo geschrieben, aber gab es evtl. schon einen Eintrag im alten Jahr?

Unicous

2017-02-22, 17:32:55

Nicht, dass ich wüsste. Die Website wurde neu gestaltet, die Datenbank seit Ende November 2015 aber nicht mehr aktualisiert. Könnte auch sein, dass sie die Daten nicht mehr bekommen. Afaic kommen die direkt von der indischen Zollbehörde.

Die Suche gibt es aber noch.

https://www.zauba.com/shipment_search

Godmode

2017-02-22, 17:45:04

Ich vermisse die klassischen Engineering-Tags/Aufkleber :(
http://www.pcgameshardware.de/Vega-Codename-265481/News/Prototyp-Grafikkarte-1221516/galerie/2706774/?fullsize

102-D05001-00... Gab es da mal was beim Zauba?

Reicht die fette USB3.0 Buchse hinten nicht, dass es als Engineering Sample durchgeht? :biggrin:

Loeschzwerg

2017-02-22, 17:49:43

Hehe, ablehnen würde ich so eine Karte/Sample auf keinen Fall ^^

basix

2017-02-22, 18:25:17

Reicht die fette USB3.0 Buchse hinten nicht, dass es als Engineering Sample durchgeht? :biggrin:

Ach was, das ist ein neues Übertaktungsfeature. Volle Kontrolle über alle SenseMI Knotenpunkte und Telemetriedaten :D Ein Ryzen in Kombination kommuniziert direkt mit der Karte und realisiert eine "Off Shore" APU, welche auch noch über Prediction Algorithmen die GPU hochtaktet, da die CPU ja vorher weiss, dass es gleich mehr zu tun gibt ;D

Ach ja, dass es PCI-E gibt habe ich mal ingoriert ;)

Jupiter

2017-02-22, 18:32:07

Scheint immer noch 1080 Performance zu sein.

Vega
https://youtu.be/5aYFZLC8siE

GTX 1080
https://youtu.be/5m9WCCissJk

Ich habe gerade mit meiner GTX 1080 den gleichen Abschnitt in den maximalen Einstellungen/UHD und TAA getestet. In der gleichen Situation hatte ich etwa 1-2fps mehr.

Meine Mimimum fps waren 57. Karte läuft mit 1987Mhz.

Aber wer weiß was das im Video für Einstellungen waren. Wenn ich z.B. TAA deaktiviere habe ich deutlich mehr fps.

matty2580

2017-02-23, 00:19:48

Ist es wirklich sicher, dass Vega 11 ein kleiner und damit günstigerer Chip als Vega 10 ist?

Ich frage deshalb, weil mir die 1070/1080 zu teuer waren/sind, und damit Vega 11 die einzigste Aufrüstoption 2017 für mich wäre.

N0Thing

2017-02-23, 01:26:58

Bisher hat man nur einen Vega zu Gesicht bekommen und die Performance lag dabei immer in der Nähe der GTX 1080. Von daher würde ich für diesen Vega und dessen abgespeckten Ableger Preise unterhalb der aktuellen GTX 1080/GTX 1070 Preise erwarten und einen kleineren Vega höchstens als Ablösung der Polaris GPUs Ende 2017/Anfang 2018.

AffenJack

2017-02-23, 10:13:24

Ich zweifle, dass das was wir gesehen haben unbedingt was mit der realen Performance zu tun haben wird. Wir haben wohl Big Vega gesehen, da nur dieser Die auch gezeigt wurde und es hieß mal der andere Chip kommt später. Aber neue Architektur mit zusammengeflickten Treiber sagt nix aus. Alleine schon, dass AMD einen 500 mm² Chip brauchen soll um mit 300mm² von Nvidia zu konkurieren erscheint mir unsinnig. Sie mögen in Rückstand sein, aber haben bestimmt noch nicht verlernt Gpus zu bauen. Titan X -10% wird Vega 10 mindestens erreichen können, wenn er im Vollausbau kommt, wovon ich ausgehe. Salvage dann gegen GTX 1080 kann sein.

Darunter dann auf GTX1070 Niveau Vega 11 und dieser dann vor allem auch für Notebooks, da Nvidia da gerade keine Konkurrenz hat und Polaris 10 keinen Stich sieht.

Unicous

2017-02-23, 10:43:51

Also laut dildo ist das aber so und der kennt sich ja offensichtlich mit GPU-Design aus.:uponder:

dildo4u

2017-02-23, 13:57:46

Mann kann nur das bewerten was sie zeigen,wobei die Performance natürlich wirklich unterirdisch ist wenn man bedenkt wie die Stromversorgung gegenüber der 1080 aussieht.Da muss noch Luft sein.

Unicous

2017-02-23, 14:04:05

Ok. Ich bewerte auch mal was sie zeigen.

Sie zeigen: ein lauffähiges System mit einem 1800X und einem Vega(10?!) Dev-Board mit unbekannten Settings in 4K.

Bewertung läuft... bitte warten.

Bitte warten.

Bitte warten.

...

Fehler.

Bewertung konnte nicht abgeschlossen werden, da wichtige Parameter für eine Bewertung fehlen. Bewertung wird bis auf Weiteres ausgesetzt.

dargo

2017-02-24, 09:54:05

Dieses Dev-Board könnte genauso mit niedrigeren Taktraten laufen. Ähnlich wie eine ES-CPU. Also erstmal Ruhe bewahren und Tee rauchen.

PS: ob die Treiber zum jetzigen Zeitpunkt vollkommen auf Performance optimiert sind ist auch eher fraglich.

rentex

2017-02-24, 10:48:18

Dieses Dev-Board könnte genauso mit niedrigeren Taktraten laufen. Ähnlich wie eine ES-CPU. Also erstmal Ruhe bewahren und Tee rauchen.

PS: ob die Treiber zum jetzigen Zeitpunkt vollkommen auf Performance optimiert sind ist auch eher fraglich.

Denke ich mir auch, AMD hält ganz schön dicht was VEGA angeht. Hab ich irgendwelche Leaks nicht mitbekommen?

reaperrr

2017-02-24, 15:31:35

PS: ob die Treiber zum jetzigen Zeitpunkt vollkommen auf Performance optimiert sind ist auch eher fraglich.
Die Prioritätsreihenfolge der Treiberentwicklung scheint bei AMD in etwa

Wichtige Features > Stabilität > Performance > Unwichtige Features

zu sein, wenn man die letzten Releases als Maßstab nimmt. Was mMn auch Sinn macht.

Hübie

2017-02-24, 16:34:59

Na ja endgültig bewerten sollte man das nicht, nur überschauen kann man es:

DICE (EA) und AMD arbeiten schon seit längerem enger zusammen und man wird nicht grundlos Star Wars Battlefront genommen haben (Watch_Dgos 2 ist ein NVIDIA Game und könnte hier wirklich Treiber-bedingt wenig Performanceaussicht zeigen).
Wenn die Taktraten deutlich unter dem finalen Design sind muss was faul sein und es wird wohl ein respin erforderlich sein. Die ES haben meistens 10-15% unter der Zielspezifikation angesetzte Taktraten (bei NV also quasi die Tesla Taktraten).
Es gibt auch 1080 mit 6+8 oder 2x8-Pin, welche in 200-230 Watt resultieren. Daraus kann man also erst mal gar nichts ablesen, was das angeht.
Wundersam bedeutend mehr Performance können wir nicht erwarten, aber so irgendwas zwischen einer 1080 custom und TXP klingt realistisch.

Linus sagte übrigens dass es 4k mit Ultra-Settings war / ist.

Ailuros

2017-02-24, 16:59:44

Die Prioritätsreihenfolge der Treiberentwicklung scheint bei AMD in etwa

Wichtige Features > Stabilität > Performance > Unwichtige Features

zu sein, wenn man die letzten Releases als Maßstab nimmt. Was mMn auch Sinn macht.

Wieso sollte das fettgedruckte bei jeglichem IHV je anders sein? Stabilitaet kommt IMMER vor Leistung.

Denke ich mir auch, AMD hält ganz schön dicht was VEGA angeht. Hab ich irgendwelche Leaks nicht mitbekommen?

Wieso sollte jeglicher IHV so weit VOR dem release mehr durchsickern lassen? Fuer meinen Geschmack plappern sie sogar ZU VIEL denn die Erwartungen sind leider stets hoeher als sich die Realitaet beweisst.

scully1234

2017-02-24, 17:15:55

Alleine schon, dass AMD einen 500 mm² Chip brauchen soll um mit 300mm² von Nvidia zu konkurieren erscheint mir unsinnig. Sie mögen in Rückstand sein, aber haben bestimmt noch nicht verlernt Gpus zu bauen. .

Du lässt bei der Bewertung aber ausser Acht, das Nvidia die Pascal Chips auf ihr Anwendungsgebiet maßschneidert , während AMD mit dem 500er einen Allrounder baut....

Aus dem Betrachtungswinkel kann es eben schon passieren, das der nur 300mm² grosse Chip FP64 entschlackt wie er ist, im Gaming und Quadro Anwendungsfällen, genau so performt wie der 500er Vega

Für den Tesla Bereich hat Nvidia ja den P100

Ailuros

2017-02-24, 17:36:47

Du lässt bei der Bewertung aber ausser Acht, das Nvidia die Pascal Chips auf ihr Anwendungsgebiet maßschneidert , während AMD mit dem 500er einen Allrounder baut....

Aus dem Betrachtungswinkel kann es eben schon passieren, das der nur 300mm² grosse Chip FP64 entschlackt wie er ist, im Gaming und Quadro Anwendungsfällen, genau so performt wie der 500er Vega

Für den Tesla Bereich hat Nvidia ja den P100

Eigentlich ist GP104 314mm2 gross und V10 koennte so "klein" sein wie 470mm2 als einfaches Beispiel, denn 67% ist schon um einiges mehr als "nur" 49%. Solche Haarspalterein jetzt hin und her so lange wir nicht einschaetzen koennen wie viele Transistoren AMD fuer Logik die nur in Profi-Maerkten anwendbar sein wird gewidment hat, kann man auch schwer das Ganze vergleichen.

rentex

2017-02-24, 17:42:37

Wieso sollte das fettgedruckte bei jeglichem IHV je anders sein? Stabilitaet kommt IMMER vor Leistung.

Wieso sollte jeglicher IHV so weit VOR dem release mehr durchsickern lassen? Fuer meinen Geschmack plappern sie sogar ZU VIEL denn die Erwartungen sind leider stets hoeher als sich die Realitaet beweisst.

Hm, das mit der Hypetrain übertreiben sie bei VEGA schon etwas...

Screemer

2017-02-24, 18:01:22

Hm, das mit der Hypetrain übertreiben sie bei VEGA schon etwas...
bist du jetzt aus dem ryzen thread hierher gewandert um das nächste amd produkt schlecht zu reden? welchen verdammten hype train. es gibt noch nicht mal benchmarks oder irgendwelche bilder von auch nur annähernd finalen karten. in dem hypetrain musst du noch nicht mal nen sitzplatz reservieren. da hast du freie platzwahl, denn das ding ist leer.

rentex

2017-02-24, 18:20:37

Joar, sorry...Ryzen wird wirklich ein tolles Produkt. Nur das geheim halten (auch aus berechtigten Gründen) schürt schon eine gewisse Erwartungshaltung (Hypetrain war schlecht gewählt). Nach der Vorstellung von Ryzen, wird man dann was erwarten...sprich den nächsten Coup.

samm

2017-02-24, 18:45:50

Vega ist mMn nicht sehr gehyped im Moment, gerade im Vergleich zu Ryzen. Was, so vermute ich, auch gut ist, weil mehr als einigermassen aufschliessen mit den derzeitigen nV-Produkten im Gamebereich wird AMD vermutlich ja nicht können, so nach den bisherigen theoretisch rumspekulierten Rechnungen. Es wird einfach eine sinnvolle Grundlage für die weiteren Entwicklungen und Integration in neue APUs sein. Wobei das auch nichts anderes ist, als AMD gerade mit Ryzen macht - zu Intel einigermassen aufschliessen. Im CPU-Bereich überrascht es einfach etwas mehr, als es im GPU-Bereich würde.

rentex

2017-02-24, 19:28:54

Ich frag mich, ob das NV auch mitbekommen hat? Scheinbar waren sie sich im Januar unsicher?!

Ailuros

2017-02-25, 12:39:44

Hm, das mit der Hypetrain übertreiben sie bei VEGA schon etwas...

So war es nicht gemeint; IMHO sollten IHVs generell vor dem launch die Klappe halten fuer jegliches unveroeffentlichtes Produkt und davon ist auch NV nicht ausgeschlossen. Dass beide IHVs es in den letzten Jahren geschafft haben die meisten leaks zu verhindern ist duchaus eine Eulogie.

5CH4CHT3L

2017-02-26, 20:36:10

Es ist ja schon gut wenn AMD mit Vega einigermaßen mithalten kann und dann vielleicht mit dem Erfolg im CPU Markt auch wieder mehr Geld in die GPU Entwicklung stecken kann, sodass man in Zukunft auf solche "Ein Chip für alles" Lösungen verzichten kann.
Ich werd mir wahrscheinlich Vega holen wegen der höheren Roh-Rechenleistung (die man in der Zukunft nutzen kann) und dem größeren Vram

iuno

2017-02-26, 20:45:42

Ich werd mir wahrscheinlich Vega holen wegen der höheren Roh-Rechenleistung (die man in der Zukunft nutzen kann) und dem größeren Vram
Verglichen womit?

DICE (EA) und AMD arbeiten schon seit längerem enger zusammen und man wird nicht grundlos Star Wars Battlefront genommen haben
Aktuelle DICE Spiele laufen doch ueberhaupt nicht aussergewoehnlich schnell auf AMD?!

Hübie

2017-02-27, 00:32:31

Wo steht dass es sich immer nur in mehr Performance auswirkt? Eine Zusammenarbeit kann neue Technologien oder anfänglich sehr gute Kompatibilität bedeuten. Es ist allgemein hin bekannt dass die beiden gut miteinander auskommen und ich finde es auch völlig legitim, gerade weil bisher keiner der IHV irgendwie benachteiligt wird / wurde. Daher nimmt man halt auch Star Wars Battlefront, Battlefield 1 und nicht irgendwas anderes für frühe Vergleiche. ;) Ist n Stück weit auch ein Vertrauensbeweis.

iuno

2017-02-28, 13:02:15

Im Ryzen-Hype nicht vergessen: heute ab 19:30 ist Capsaicin & Cream
Auf http://radeon.com/en-us/gdc-2017/ soll es einen livestream geben.

d2kx

2017-02-28, 19:11:06

Im Ryzen-Hype nicht vergessen: heute ab 19:30 ist Capsaicin & Cream
Auf http://radeon.com/en-us/gdc-2017/ soll es einen livestream geben.

ZVKDNeyfpAo

20min bis Capsaicin & Chill :smile:

Es ist aber kein Vega-Produktlaunch Event, sondern ein starker Fokus ist Tech und Content, z.B. von Rajas Lieblingsprojekt Baahubali VR und den Raw Data-Devs Survios.

Ravenhearth

2017-02-28, 19:38:01

Und der Stream ist tot. ;(

*war

Godmode

2017-02-28, 19:38:53

Geht wieder.

fondness

2017-02-28, 19:39:20

Twitch läuft ohne Probleme.

w0mbat

2017-02-28, 19:40:25

Es wird VEGA Details geben!

Pirx

2017-02-28, 19:41:58

Wie lange wird das ca gehen?

Locuza

2017-02-28, 19:49:12

Vermutlich wie letztes Jahr, länger als einem lieb ist. :freak:

Leonidas

2017-02-28, 19:50:05

Ich dachte nicht länger als 1,5h.

Bisher nix spannendes.

PS: Bitte Screenshots von interessamten posten. So lange er drumherum erzählt, arbeite ich an anderem und könnte daher leider was verpassen.

Screemer

2017-02-28, 19:51:44

hbcc scheint wirklich mal was cooles zu sein.

fondness

2017-02-28, 19:54:48

Sieht leider eher nach viel Marketing und wenig Inhalt aus.

Screemer

2017-02-28, 19:56:07

lol. nvidia grid mit werbung, dafür kostenfrei. :ugly:

Ravenhearth

2017-02-28, 19:58:14

eh.

BF1 aufm Handy ;D

Screemer

2017-02-28, 20:02:22

64NCUs confirmed :D

Leonidas

2017-02-28, 20:07:17

64NCUs confirmed :D

Ironie - oder hab ich was verpasst?

Pirx

2017-02-28, 20:13:34

er sprach von 64 CUs

Screemer

2017-02-28, 20:13:56

muss die stelle noch mal raus suchen. war natürlich im flow. im teil von hbcc. als bestätigung kann man das natürlich nicht nehmen.

Troyan

2017-02-28, 20:14:23

Gab es irgendwas neues außer das, was man bei Videocardz sehen kann: https://videocardz.com/66527/amd-showcases-main-features-of-vega

lol. nvidia grid mit werbung, dafür kostenfrei. :ugly:

Das ist seit der CES "kostenfrei" und mit nVidia-Hardware. Soll aber richtig schlecht sein, da keine "Leistung" versprochen wird und bei Peaks man kaum spielen kann.

Screemer

2017-02-28, 20:18:45

Gab es irgendwas neues außer das, was man bei Videocardz sehen kann: https://videocardz.com/66527/amd-showcases-main-features-of-vega

schau den stream oder ist dir da deine zeit zu schade? das noch nicht mal rum.

Blediator16

2017-02-28, 20:20:51

Gordon Freeman on stage. HL3 wird angekündigt :cool:

grobi

2017-02-28, 20:21:48

Er hat mich eher an Heisenberg erinnert.....

Ravenhearth

2017-02-28, 20:21:49

Kapiert jemand, was der HBCC jetzt genau macht und wieso der so viel schneller sein soll?

victore99

2017-02-28, 20:23:13

das war in dem FP16-Part... "with [komischer Radeon-Marketing-Name] you buy 64 Compute Units and get the Performance on 128" oder so.. mir kam das auch so vor, ging um VEGA und er fängt mit 64 CU an... also sollte DAS klar sein.

fondness

2017-02-28, 20:24:59

Auf jeden Fall kann man nun sicher sagen, dass es 2xFP16 Speed auch für Gamer gibt. Die TressFX Demo zeigte den Vorteil von 2xFP16 vs. FP32. War aber IMO eh klar, nachdem es die PS4 PRO auch hat.