AMD/ATI - Navi 1X (7nm, RDNA1, 2019) & Navi 2X (7nm, RDNA2, 2020) [Archiv] - Seite 78

gedi

2021-02-21, 21:23:19

Das ist nicht Nvidias Ampere Target das liegt bei 4 und 8k

Mit RT? Deine Glaskugel möchte ich besitzen :D

Denniss

2021-02-21, 22:36:10

Hat nvidia nicht groß 4k/8k-Gaming beworben mit Ampere?

w0mbat

2021-02-21, 22:55:53

Nvida macht viel, ändert aber nichts daran, dass 4K RT aktuell nur Wunschdenken ist. Ganz zu schweigen von 8K :ugly:

Leonidas

2021-02-22, 05:41:52

Dann verstehe ich nicht das Argument, dass CB und ein weiterer Test nicht ausreichen um in den Index zu kommen, solange nicht andere ebenfalls noch Werte bringen. Sind die Kriterien nicht erfüllt, solange keine anderen Tests dazu kommen? Und ab wie viel zusätzlichen Tests sind dann diese aktuellen Tests würdig in den Index zu kommen?

Moment. CB ist doch drin. Und wie in den News erwähnt, ohne SAM gerechnet sogar mit den gleichen Abständen wie im neuen Artikel. Da muss ich nix ändern, das würde ein ±0,0 ergeben.

Der Index wird im generellen Maßstab neu betrachtet, wenn viele neue Tests auf einen Schlag vorliegen. War schon immer so.

Lurtz

2021-02-22, 09:32:46

Das ist nicht Nvidias Ampere Target das liegt bei 4 und 8k
Das hat das 3DC wohl nicht mitbekommen, da wird die RTX 3070 als ultimative 1080p-Karte verkauft ;D

aufkrawall

2021-02-22, 10:18:35

Als Nvidia Ampere entwickelt hatte, wussten sie wohl noch nicht, wie gut DLSS 2.0 wird. :freak:
Hoffen wir mal, dass AMDs SR-Lösung brauchbar (=temporal stabil) ist.

x-force

2021-02-22, 10:21:33

Das hat das 3DC wohl nicht mitbekommen, da wird die RTX 3070 als ultimative 1080p-Karte verkauft ;D

eine karte die @1080p nicht min. 120/144 fps darstellt, ist für 1440p schließlich nicht potent genug

Fragman

2021-02-22, 10:49:34

Die Masterrace spielt doch laengst mit 300 Hz Monitoren dachte ich.

HOT

2021-02-22, 11:23:08

3080 (ohne RT und mit RT+DLSS):
UHD -> 60Hz+
QHD -> ca. 144Hz
FHD -> 240Hz+

Das wird mit echten next-gen-Titeln über die Jahre verrutschen zu:
UHD -> 45Hz+
QHD -> 75Hz+
FHD -> 144Hz

In Wirklichkeit sind also die großen Amperes auch keine wirklich echten 4k-Karten. Sie sind 4k-tauglich.

basix

2021-02-22, 11:51:40

In Wirklichkeit sind also die großen Amperes auch keine wirklich echten 4k-Karten.

Das ist ein Moving Target Problem. Die 1080 Ti von 2017 war die wohl erste wirklich brauchbare 4K Karte. Eine 3090 ist ausserhalb von DLSS und RT ungefähr doppelt so schnell. Würde also locker für 4K von damaligen Spielen reichen. Für heutige Spiele reicht eine 3090, die 1080 Ti ist je nach Spiel schon arg am Limit. Schlussendlich ist das Design-Target von vielen Spielen 4K/60fps mit der besten verfügbaren Grafikkarte. Werden die Karten schneller, verschiebt sich auch das Target. War schon immer so. Langwährende 4K-Tauglichkeit kann eigentlich nur durch zwei Dinge erreicht werden:

High End und somit das Design Target von Spielen verschiebt sich in Richtung 8K
DLSS / FidelityFX SuperRes (z.B. heute reicht die Rechenkraft für 1440p Grundauflösung und bei zukünftigen Spielen nur noch für 1080p)

Complicated

2021-02-22, 12:37:27

Moment. CB ist doch drin.Dann war es ein Mißverständnis anhand deiner Formulierung.

Lyka

2021-02-25, 13:59:53

mal ne kurze Info in den Thread geschmissen: FB AMD.com

Am 3. März geht die Reise für #RDNA2 weiter. Begleitet uns, wenn wir ab 17:00 Uhr das neueste Mitglied der AMD Radeon RX 6000-Grafikkartenserie vorstellen.

Locuza

2021-02-25, 19:10:01

Auch ein bisschen extra Info in den Thread geschmissen:
74342
74341

Volle Auflösung vom ersten Bild:
https://pbs.twimg.com/media/EvB6OnQVEAAGjgk?format=jpg&name=4096x4096

Die Specs basieren auf AMD's Treibereinträgen zu Navi21 und 22, welche stblr auf reddit gepostet hat:
https://www.reddit.com/r/Amd/comments/j7bpzs/an_update_on_navi_2x_firmware/

Dort stehen bei den Power-Tables 2500 MHz für Navi22, welche ich als Referenz für die Beispielsspecs oben verwendet habe.
Bei Navi21 sind 2050/2200 MHz gelistet, AMD hat letztendlich 2015 MHz als Game Clock verwendet und 2250 MHz für den Boost Clock.

Patrick Schur hat schon Anfang Dezember 2020 die Package- und Chipgröße von Navi22 geteilt:
https://twitter.com/patrickschur_/status/1335600622255697921

Insgesamt ist damit praktisch schon seit Monaten alles klar. :freak:

Die finale Performance einer 6700XT ist etwas offen, aber die 5700XT hat mit 448GB/s nur ~17% mehr Rohbandbreite als Navi22.
Das wird der sehr wahrscheinlich 96MiB große L3$ mehr als wettmachen.
Ich denke wenn es dann 2.5GHz werden (+/-), wird die Performance nahe an einer linearen Skalierung liegen.
30-40% sind so das theoretische Performanceplus, damit würde man laut dem aktuellen 3060-Test bei CB, die 3060Ti bequem schlagen können (die auch nur 8GB GDDR6 Speicher hat).
https://www.computerbase.de/2021-02/geforce-rtx-3060-asus-msi-test/2/#abschnitt_benchmarks_in_2560__1440

Allerdings bin ich gespannt auf Überraschungen.
Navi22 hat nur zwei Primitive Units und Rasterizer, dass sollte zu Performanceregressionen in einigen Fällen führen.
Zusätzlich wird die Raytracing-Performance arg nüchtern ausfallen.
Die GPU ist aber rein von der Konfiguration und den theoretischen Leistungsdaten ein netter Vergleich zu Navi10 und der PS5, welche eine sehr ähnliche CU- und ROP-Konfiguration besitzen, und auch zu der Xbox Series X.
Letztere hat mehr CUs und ein viel breiteres Speicherinterface, aber Navi22 zieht ein wenig in Bezug auf die Rohleistung vorbei und ist dank hohem Takt, weniger CUs und großem L3$, ganz anders balanciert.
Der L3$ bläht den Chip offensichtlich auf, 334mm² sind größer als die 298,48mm² bei der PS5, welche noch acht Zen2-Kerne verbaut.
Die Xbox Series X liegt bei ~360mm² und Navi10 war nur ~249mm² groß.

RitterRost

2021-02-25, 19:20:14

Nur alleine nach der Bezeichnung gehend, muss die 6700XT 20% auf die 5700XT packen - sonst ist es kein Nachfolger.

Ich bin auf den offiziellen Preis gespannt und hoffe, dass es Karten direkt von AMD gibt, damit die Preistreiberei etwas im Zaum gehalten wird.

Thunder99

2021-02-26, 09:53:14

Schon traurig.
Früher waren es 50% und mehr was man erwarten konnte. Ist bei Nvidia nicht anders...

Sie können aber Nvidia das Wasser abgraben, wenn sie deutlich die Konkurrenz schlagen

Sunrise

2021-02-26, 10:47:29

Dass man sich mit Navi22 soviel Zeit gelassen hat, kann eigentlich nur bedeuten, dass man ordentlich Chips gesammelt hat, und zumindest die erste Verfügbarkeit ganz gut wird. Ansonsten sehe ich da schwarz, das ist ja näher am Massenprodukt und ebenfalls wieder 7nm.

Also dann doch eher die Konsole kaufen.

gedi

2021-02-26, 10:48:34

Nur alleine nach der Bezeichnung gehend, muss die 6700XT 20% auf die 5700XT packen - sonst ist es kein Nachfolger.

Ich bin auf den offiziellen Preis gespannt und hoffe, dass es Karten direkt von AMD gibt, damit die Preistreiberei etwas im Zaum gehalten wird.

Gemessen an der TDP/TGP sollen es doch 50% sein für RDNA2. Heißt für mich so ziemlich nahe an einer 2080Ti :freak:

Cyberfries

2021-02-26, 10:57:59

Laut Videocardz wieder miese Verfügbarkeit:
https://videocardz.com/newz/amd-allegedly-not-launching-radeon-rx-6700-non-xt-alongside-rx-6700-xt
Außerdem keine 6700 zum Start am 18.März, nur die XT.

Außerdem: 650w Netzteil empfohlen laut Komachi_Ensaka, 8pin/6pin-Anschluss.
https://twitter.com/KOMACHI_ENSAKA/status/1365004591947915265

Raff

2021-02-26, 22:49:54

Das 170-Watt-Knuffelchen RTX 3060 wird auch mit Empfehlungen zwischen 550 und 600 Watt bedacht, je nach Hersteller. Da sind einfach brutale Reserven inkludiert, damit das auch jedes zehn Jahre alte Chinaböllergerät stemmt. Das kann also trotzdem 'ne 200-Watt-Karte sein. Viel mehr erwarte ich auch nicht (210-220 Watt Realverbrauch vielleicht?) - es sei denn, die 6700 XT soll mittelfristig die vermutlich recht margenschwache 6800 ablösen.

€dit: Bei der Radeon RX 6800 werden bei den Referenzkarten auch 650-Watt-Netzteile genannt. 250 Watt Boardpower für eine 6700 XT wären jetzt auch kein Problem, immerhin ist das voraussichtlich 'ne Karte knapp unter dem Niveau einer RTX 2080 Ti.

MfG
Raff

Leonidas

2021-02-27, 05:46:09

Danke @ Locuza für die Ausführungen.

Damit gibt es nun einige, die von der 6700XT irgendwas oberhalb der 3060Ti erwarten. Ich bin da noch sehr skeptisch - aber offen für eine (positive) Überraschung.

dildo4u

2021-02-27, 05:55:17

Warum laut dem sind unter 25% zur 3060 Ti von der 5700XT aus, das sollte schon vom Takt alleine kommen.

https://www.computerbase.de/2021-02/geforce-rtx-3060-asus-msi-test/2/#abschnitt_benchmarks_in_2560__1440

Das wäre genau so ein Mäh Upgrade wie von 2060 zu 3060.

Leonidas

2021-02-27, 06:26:33

Man kann von der 5700XT ausgehend interpolieren. Oder von der 6800 ausgehend ... und da ist der Taktraten-Effekt nicht mehr so gewaltig und drücken eher die 60->40 CU sowie die weniger REs und ROPs.

reaperrr

2021-02-27, 13:33:50

Man kann von der 5700XT ausgehend interpolieren. Oder von der 6800 ausgehend ... und da ist der Taktraten-Effekt nicht mehr so gewaltig und drücken eher die 60->40 CU sowie die weniger REs und ROPs.
Es war bisher eigentlich immer so, dass GPUs - solange die Bandbreite nicht limitiert, was dank IF$ bei der 6700XT nicht der Fall sein sollte - mit Takt deutlich linearer skalieren als mit Einheiten.

Ich würde erwarten, dass das Ref-Modell so ziemlich auf 3060Ti-Niveau landet, die 6700XT aber bei den OC-Modellen gewinnt und für viele auch durch den größeren Speicher atrraktiver sein wird.

Wobei ich auch sagen muss, von der Balance her halte ich N22 für den wahrscheinlich schwächsten RDNA2-Chip.
334mm² in 7nm sind für die Leistung eigentlich zu viel. Mit 8 CUs mehr wäre die Perf/mm² viel besser ausgefallen (bis zu 20% mehr Shader/TMU-Leistung für nur ~20mm²/~7% mehr Fläche), man hätte es direkt mit der 3070 aufnehmen können und der Salvage hätte es noch mit der 3060 Ti aufnehmen können, jeweils halt auch preislich. Bessere Marge und generell attraktivere Performance. Naja, wird Gründe gehabt haben, und sei es nur, dass es aus Design- und damit Time-to-Markt-Gründen einfacher bzw. notwendig war, quasi N21 zu halbieren (außer bei Cache und SI, natürlich).

Linmoum

2021-02-27, 13:51:06

Die 6800 ist von der 3070 aber nicht extrem weit weg, da jetzt noch einen Chip zu platzieren wäre wenig sinnvoll gewesen. Und 48CUs wären auch viel zu nahe an den 60CUs einer 6800 gewesen. Das wäre vom Portfolio her einfach keine gute Staffelung. Man braucht nicht überall im Abstand von 10-15% ein Produkt.

Zumal die >300mm² vor allem durch den IF$ Zustandekommen. Der aber wiederum der Effizienz deutlich zugute kommt und man so bei den Kühllösungen keine fette(re)n Klopper ausfahren muss, wie es ohne der Fall wäre. Davon ab halte ich es immer noch für wahrscheinlich, dass der IF$ jetzt einfach im ersten Schritt den Grundstein für zukünftige Produkte und Architekturen, ggf. mit MCM-Ansatz, legt und daher unabdingbar ist.

Der_Korken

2021-02-27, 14:24:54

334mm² in 7nm sind für die Leistung eigentlich zu viel. Mit 8 CUs mehr wäre die Perf/mm² viel besser ausgefallen (bis zu 20% mehr Shader/TMU-Leistung für nur ~20mm²/~7% mehr Fläche), man hätte es direkt mit der 3070 aufnehmen können und der Salvage hätte es noch mit der 3060 Ti aufnehmen können, jeweils halt auch preislich.

Dass 48CUs deutlich besser ins Lineup gepasst hätten, habe ich mir schon gedacht als die 40CUs erstmals als Gerücht auftauchten. Mit 2 Shader Engines und je 24 CUs hätte N22 aber mehr Pixellast für eine gute Auslastung gebraucht als N21. 3 Shader Engines wären eigentlich ideal, aber die lassen sich geometrisch nicht gut anordnen und das Layout müsste sich gegenüber N21 komplett ändern. Da war es für AMD wohl wie du sagst einfacher N21 zu halbieren und einen 60CU-Salvage anzubieten, der für AMD eher untypisch war.

Einzig die 96MB I$ wundern mich nach wie vor. Im Verhältnis zur Rechenleistung hat N22 deutlich mehr Bandbreite. Man könnte sagen, dass N22 mit 128bit SI und der selben Cache-Hitrate wie N21 auskäme. Da N22 aber in kleineren Auflösungen betrieben wird, würden vllt schon 64MB für die selbe Hitrate (in der eben kleineren Auflösung) reichen. Nun hat N22 aber 192 statt 128bit, also bräuchte man nochmal weniger Cache. 48MB oder 72MB wären sicherlich auch möglich gewesen und hätten gut Fläche gespart. Aber vielleicht auch hier wieder eine time-to-market-Entscheidung.

dosenfisch24

2021-02-27, 14:47:38

Gemäß der AMD Folie zu Hitrate liegen 96MB bei 1440p auf einem ähnlichen Niveau wie 128 MB für 2160p. Wenn N22 also auf 1440p abziehlt, macht die Cachegröße schon Sinn. Ob dann aber wirklich ein 192er Speicherinterface nötig, steht auf einem anderen Blatt. Vielleicht ist es auch nur Mittel zum Zweck, um 12 GB VRAM zu ermöglichen (das Marketing Team wird's freuen).

Der_Korken

2021-02-27, 14:57:06

Gemäß der AMD Folie zu Hitrate liegen 96MB bei 1440p auf einem ähnlichen Niveau wie 128 MB für 2160p. Wenn N22 also auf 1440p abziehlt, macht die Cachegröße schon Sinn. Ob dann aber wirklich ein 192er Speicherinterface nötig, steht auf einem anderen Blatt. Vielleicht ist es auch nur Mittel zum Zweck, um 12 GB VRAM zu ermöglichen (das Marketing Team wird's freuen).

OK, ich war zu faul die Folie zu suchen, um selber nachzugucken. Dann also 96MB und nicht 64MB. Dennoch ist die Bandbreite im Verhältnis zur Rechenleistung bis zu 50% höher, d.h. statt 60% Hitrate würden z.B. auch 40% reichen (VRAM kann 60% statt 40% der Anfragen stemmen). Also hätten es 72MB sicherlich auch getan. Und ja, die 12GB VRAM waren ziemlich sicher ein Grund warum man auf 192bit gegangen ist. 8GB wäre zu wenig für die Leistungsklasse und 16GB zu teuer.

Cyberfries

2021-02-28, 09:04:33

Da L2$ und Inf$ mit dem Speicherinterface skalieren sind die Möglichkeiten eben auch begrenzt.
Mit 8GB Ram sinkt auch der Inf$ auf 64mb, was dann schon wieder etwas zu wenig sein könnte.
10GB / 80mb könnte noch eine interessante Zwischengröße sein, bisher ist da aber mWn nichts angekündigt.
Gibt ja auch keine 14/12GB 6800, Teile des Inf$ zu deaktivieren ist wohl nicht so trivial.

Linmoum

2021-02-28, 09:13:21

Wobei Herkelman damals in einem Q&A sagte, dass man lange überlegt hatte, ob man der 6800 auch 16GiB spendiert. Scheint also grundsätzlich kein Problem zu sein, den IF$ entsprechend skalieren zu lassen.

Der_Korken

2021-02-28, 10:16:52

Ich gehe mal davon aus, dass der I$ eine durch vier teilbare Assoziativität hat. Dann macht man die halt kleiner, sodass nur noch 3/4 vom Cache und seiner Assoziativität übrig bleiben, z.B. eben 12-way 72MB bei N22, statt 16-way 96MB. Dass 64MB an 192bit nicht geht, ist klar, das ist die gleiche Abhängigkeit wie Speichergröße und Interface. Bei Intel gibt es auch ständig "krumme" Cache-Größen über eine "krumme" Assoziativität (20-way 1280kB L2 bei Tigerlake, 12-way 12MB L3 (8x1,5MB) beim 9700K, usw.).

Iscaran

2021-03-01, 10:40:34

Volle Auflösung vom ersten Bild:
https://pbs.twimg.com/media/EvB6OnQVEAAGjgk?format=jpg&name=4096x4096

Klasse Visualisierung der Chips :-). Hast du sowas für N10 auch ?

Allerdings bin ich gespannt auf Überraschungen.
Navi22 hat nur zwei Primitive Units und Rasterizer, dass sollte zu Performanceregressionen in einigen Fällen führen.

Das ist aber nur bzgl. N21 ?

N10 hat doch dieselben Zahl Primitives und Rasterizer, wobei der RDNA2 Rasterizer doch AFAIK nun "stärker" ist als der RDNA1 rasterizer...war da nicht was von erhöhtem Durchsatz im gesamten Rasterizer und Raster-Backend (Weswegen im RDNA2 Schaubild von AMD doch auch von RB+ gesprochen wrid).
EDIT: https://forums.anandtech.com/threads/speculation-rdna2-cdna-architectures-thread.2579999/post-40315829
Look at the Navi 2x table for specs. The front end of the rasterizer (scan converter) has doubled the output compared to Navi 1x .
num_packer_per_sc = 2 for Navi 1x
num_packer_per_sc = 4 for Navi 2x

All RDNA and RDNA2 GPUs have 1 scan converter per Shader Array but RDNA2 has twice the packer per scan converter as RDNA.
num_sc_per_sh = 1
/EDIT

Gegenüber N10 ist doch N22 praktisch fast wie eine Art "Klon" nur mit der optimierten RDNA2-Hardware (auf CU bzw. Shader Engine Ebene) UND Inf$.

Wenn wir also von 2500 vs 1800 MHz Takt denken müssten da schon so bis zu 40% Leistung theoretischen rausspringen können. Real dann weniger (25%?). Wäre aber immer noch eine Punktlandung auf +- 3060 Ti Niveau.

vinacis_vivids

2021-03-01, 12:54:14

Meine prediction: die 3060Ti wird von der RX6700XT kassiert in 1080p und 1440p.
2160p dann vllt. Gleichstand weil die Hitrate vom infinity Cache nachlässt.

Mit dem Einbau des IF-Cache`s kann AMD Energie bei den VRAM-Speicherzugriffen sparen und viel Spielraum für Partner lassen, den benötigten GPU-CLK hochzuschrauben. Die 3060Ti der Konkurrenz im Labor kann dann beliebig geschlagen werden.
Ist nur die Frage ob auch die 3070 kassiert werden kann und bei welchem Takt.
6700XT 12GB ~ RTX3070 8GB
6700 12GB > 3060Ti 8GB

Beim GPU-Takt geht sicherlich mehr als die bisherigen 2,25Ghz der Referenz von N20. Vllt. 2.5-2.6 Ghz. Das sind +44% Takt zu N10~1,8Ghz und der Cache macht sein übriges.

N10XT & 5700XT ~ 100% landet N22XT & 6700XT@2,6Ghz bei +30% bis +40% fps. in 1440p im damit im Bereich der RTX3070.
Dazu kommt noch der 12GB großzügig passend bestückte Speicher und AMD`s besserer Arbeit am SAM.
Der salvage N22XL & 6700 mit weniger CU`s schlägt sich dann eher mit der 3060Ti rum.

Raff

2021-03-01, 13:13:55

Die 6700 XT kann die RTX 3070 nicht "kassieren" - dafür müsste sie genauso schnell sein wie die RX 6800. 3060-Ti-Leistung mit 50 Prozent mehr Speicher ist doch eine schöne, mehr als ausreichende Sache, um Nvidia zu ärgern. :)

MfG
Raff

w0mbat

2021-03-01, 13:23:20

Wollte ich gerade auch schreiben. Die 6800 ist gerade mal 10% vor ner 3070, hat aber 40% mehr CUs als ne 6700 XT, mehr Speicherbandbreite, mehr infinity cache, mehr VRAM, etc.

DIe 6700 XT wird zwar wohl höher takten, aber das wird nicht reichen um <10% and ne 6800 ranzukommen.

dildo4u

2021-03-01, 13:28:13

Laut ihm kann es sein das die Karte für 500$ kommt da muss sie schon liefern, schon absurd AMD ist endlich Konkurrenzfähig und die Preise steigen weiter und weiter.(Abseits des Minings)

https://youtu.be/LFCE1WWKzoo

r3ptil3

2021-03-01, 13:28:25

Bin jetzt auch ziemlich neugierig auf die 6700 XT.

Die Preisgestaltung ist hier vielleicht gar nicht mal ein so schlechtes Indiz für die Leistung:

RX 6800 XT: 649$
RX 6800: 579$
RX 6700 XT: 449-479$ (?)

RTX 3070: 499$
RTX 3060 TI: 429$

Da zwischen der RX 6700 XT und der RX 6800 keine andere Karte kommen wird, tippe ich auf eine Überraschung in der Leistung.

Raff

2021-03-01, 13:54:26

Wie bei der RTX 3060, also langsamer als erwartet/-hofft? :ugly:

MfG
Raff

X-Bow

2021-03-01, 14:32:21

Wie bei der RTX 3060, also langsamer als erwartet/-hofft? :ugly:

MfG
Raff

Da laut Dir die 3060 die "insgesamt beste Ampere-Grafikkarte" ist, hat die 6700XT wohl auch kein Problem damit wenn Sie langsamer wird als erwartet/-hofft, oder?:rolleyes:

Nightspider

2021-03-01, 14:34:24

Der Chip wird dank des IF-Cache recht groß für die gebotene Leistung aber sammelt nicht zuletzt wegen der ermöglichten 12GB VRAM viele Beliebtheitspunkte bei potentiellen Käufern.
Wenn die Karte im Verhältnis zur Leistung dann eben paar Euro teurer ist als man es erwartet hätte, dann werden das trotzdem viele Leute kaufen.
Dank des IF-Caches muss man ja nicht mal teuren, schnellen Speicher verbauen.

Würde mich nicht wundern wenn der VRAM etwas langsamer taktet als bei den großen Karten. Die Frage ist nur ob man da im Einkauf merklich etwas spart und auch etwas an den Kunden weitergeben könnte.

Und dank der besseren Energieeffizienz durch IF-Cache eignet sich der Chip eventuell auch besser für Laptops als die Nvidia Pendants.

Ich denke den Chip etwas wachsen zu lassen mit IF-Cache ist am Ende gut für alle, auch wenn es gerade ungünstig ist das so wenig Wafer-Kapazität vorhanden ist wegen der riesigen globalen Nachfrage. Jetzt gerade wären kleinere Chips idealer aber lässt sich nicht ändern. Das Produkt selbst wird sehr gut am Ende.

Raff

2021-03-01, 14:42:03

Da laut Dir die 3060 die "insgesamt beste Ampere-Grafikkarte" ist, hat die 6700XT wohl auch kein Problem damit wenn Sie langsamer wird als erwartet/-hofft, oder?:rolleyes:

Du wolltest mich mit diesem Posting zwar trollen, aber: Stimmt, die Wahrscheinlichkeit besteht, dass das ein ziemlich rundes Produkt wird. Und jetzt troll jemand anderen (Nvidia-Fanboys, oder so), denn ich freue mich auf die 6700 XT und glaube, dass die fesch wird.

MfG
Raff

vinacis_vivids

2021-03-01, 22:01:24

Bei Guru3D wird der UVP-Startpreis von 479-499$ für die 6700XT spekuliert.
https://www.guru3d.com/news-story/radeon-rx-6700-xt-would-have-a-starting-price-of-479-usd-and-see-better-availability.html

Der Effekt der höheren UVP ist für AMD ein höherer Nettoverdienst ab Werk und einfach mal auch an die Marktrealität, also der Preis den der Markt auch echt bezahlt, einfach anzupassen.

Ich kann mir sogar 699$ oder 699€ für EU für die 6700XT Custom vorstellen in Anbetracht der RX6800 für ~899€ und RX6800XT für 1100€.

Da gibs einfach weniger Gemecker über eine 349$ UVP der 6700XT, die dann gar nicht flächendecken verfügbar ist.

Locuza

2021-03-01, 22:19:39

Klasse Visualisierung der Chips :-). Hast du sowas für N10 auch ?

Das ist aber nur bzgl. N21 ?

N10 hat doch dieselben Zahl Primitives und Rasterizer, wobei der RDNA2 Rasterizer doch AFAIK nun "stärker" ist als der RDNA1 rasterizer...war da nicht was von erhöhtem Durchsatz im gesamten Rasterizer und Raster-Backend (Weswegen im RDNA2 Schaubild von AMD doch auch von RB+ gesprochen wrid).
EDIT: https://forums.anandtech.com/threads/speculation-rdna2-cdna-architectures-thread.2579999/post-40315829
Look at the Navi 2x table for specs. The front end of the rasterizer (scan converter) has doubled the output compared to Navi 1x .
num_packer_per_sc = 2 for Navi 1x
num_packer_per_sc = 4 for Navi 2x

All RDNA and RDNA2 GPUs have 1 scan converter per Shader Array but RDNA2 has twice the packer per scan converter as RDNA.
num_sc_per_sh = 1
/EDIT

Gegenüber N10 ist doch N22 praktisch fast wie eine Art "Klon" nur mit der optimierten RDNA2-Hardware (auf CU bzw. Shader Engine Ebene) UND Inf$.

Wenn wir also von 2500 vs 1800 MHz Takt denken müssten da schon so bis zu 40% Leistung theoretischen rausspringen können. Real dann weniger (25%?). Wäre aber immer noch eine Punktlandung auf +- 3060 Ti Niveau.
Danke ;-)

Nicht für den vollen N10, aber für die Shader Engine unter N10/12 im Vergleich zu N21/22 und der Xbox Series X:
https://abload.de/img/shader-engine-compari5lkxm.jpg

AMD hat zwei Rasterizer, welche jeweils 16 Pixel-Fragmente lieferten, gegen einen ausgetauscht, der 32 Pixel-Fragmente ausschreibt.
Analog dazu gibt es auch nur noch eine Primitive-Unit pro Shader Engine, welche die Dreiecke ausgibt.
Im Vergleich zu Navi10 (4 Primitive Units) halbiert sich dadurch der Dreiecksdurchsatz bei Navi22 (2 Primitive Units).
Bei RDNA2 wurden Verbesserungen bei der Geometrieverteilung genannt, erneut bessere Tessellation-Performance und laut einigen Leuten auf Twitter mit Profiling-Data ist der Geometriedurchsatz bei Navi21 ungefähr 80% oder gar doppelt so hoch gegenüber Navi10 (Beide mit 4 Primitive Units), aber ich würde mir wünschen wenn darauf etwas weitflächiger geschaut wird.

Zwei Primitive Units klingen arg dürr und auch wenn Navi22 mehr unnötige Dreiecke rausfiltert und eine höhere Taktrate besitzt, so wundere ich mich bisher, ob das hier und da nicht doch limitiert?
Und wenn nicht unter (aktuellen) Games, dann möglicherweise unter hochkomplexen CAD-Modellen?

Neulich gab es den Mesh-Shader Test von 3DMark zu "bewundert", wo im klassischem Pfad Ampere und Turing häufig doppelt so schnell rechnen im Vergleich zu Navi21, aber die Ergebnisse haben untereinander wenig Sinn ergeben (6800 und 6900XT fast gleich schnell), entsprechend habe ich dort Vorbehalte was den Aussagewert davon betrifft.

Iscaran

2021-03-01, 22:56:42

Nicht für den vollen N10, aber für die Shader Engine unter N10/12 im Vergleich zu N21/22 und der Xbox Series X:
https://abload.de/img/shader-engine-compari5lkxm.jpg

Hey Super *gleich mal die Bilder in den RDNA-Architecture-Infos Ordner speichert...* :-)

AMD hat zwei Rasterizer, welche jeweils 16 Pixel-Fragmente lieferten, gegen einen ausgetauscht, der 32 Pixel-Fragmente ausschreibt.
Analog dazu gibt es auch nur noch eine Primitive-Unit pro Shader Engine, welche die Dreiecke ausgibt.
Im Vergleich zu Navi10 (4 Primitive Units) halbiert sich dadurch der Dreiecksdurchsatz bei Navi22 (2 Primitive Units).

JA schon, aber du schreibst ja selbst:

Bei RDNA2 wurden Verbesserungen bei der Geometrieverteilung genannt, erneut bessere Tessellation-Performance und laut einigen Leuten auf Twitter mit Profiling-Data ist der Geometriedurchsatz bei Navi21 ungefähr 80% oder gar doppelt so hoch gegenüber Navi10 (Beide mit 4 Primitive Units), aber ich würde mir wünschen wenn darauf etwas weitflächiger geschaut wird.

Wenn also 4 RDNA2 PrimUnits = doppelt so hoch im Durchsatz sind wie 4 RDNA1 Units, dann sind die 2 RDNA2 PrimUnits von N22 doch auch so "schnell" wie 4 RDNA 1 PrimUnits.
bzw. mit 80% ergeben sich immerhin 3.6 zu 4 als "Faktor" was den nur mehr einer Differenz von etwas mehr als 10% im Primitives Durchsatz entspricht ?

Womit sich also folgendes deutlich relativiert, oder nicht ?

Zwei Primitive Units klingen arg dürr und auch wenn Navi22 mehr unnötige Dreiecke rausfiltert und eine höhere Taktrate besitzt, so wundere ich mich bisher, ob das hier und da nicht doch limitiert?

Denn, der Effektive Durchsatz der 2 RDNA2 Primitives entspricht ja in etwa 3.6 bis 4 RDNA1 Primitives.

Gibt es den keinen zumindest theoretischen Tester der den Primitives Durchsatz messen kann ?

Locuza

2021-03-01, 23:35:52

Voraussetzung hierbei ist, dass Navi10 wirklich deutlich mehr unnötige Geometrie berechnet und weniger herausfiltert, als Navi22.
Ist das aber nicht der Fall, was völlig von der Anwendung abhängt und wie die Geometrie berechnet wird, dann sollte der Durchsatz bei Navi10 höher liegen.

Es gibt die Beyond3D-Suite, die leider auch schon viele Jahre auf den Buckel hat, mit unterschiedlichen Geometrie-Tests.
Ältere Tests wie TessMark, Stoney Giant oder Spiele mit hoher Tessellationlast könnte man auch nehmen.
Ich weiß gar nicht, was hardware.fr früher verwendet hat, aber dort wurden auch immer unterschiedliche Geometrie-Tests durchgeführt.

Wünschenswert wäre ein breit aufgestellter Benchmark-Kurs, welcher der Geometrie/Rasterleistung in unterschiedlichen Situationen auf den Zahn fühlt.
Das gab es die letzten Jahre immer seltener und nur vereinzelt.

----

Was jetzt die aktuellen Spiele anbelangt, ich denke da wird die 6700XT gut performen, man wird vielleicht nicht einmal eine Performance-Auffälligkeit sehen.
Wir erfahren hoffentlich bald mehr.

vinacis_vivids

2021-03-02, 00:32:02

Gibt es den keinen zumindest theoretischen Tester der den Primitives Durchsatz messen kann ?

Der theoretische Durchsatz an sich ist nur ein Teil der Formel. Da ist die Vega uArch mit viel "brute force" unerreicht.

Der bei Navi bzw. Navi 2.0 wichtigere Teil ist die discard bzw. culling der primitives. Beim culling bzw. discard ist der GPU-CLK entscheidend um den Cache freizuschaufeln und möglichst Zugriffe auf den energieintensiven VRAM zu minimieren.

Die Effekte der schnelleren geometry und tesselelation Leistung kommt vom verbesseren primitive shader, der wenig(er) Zeit verschwendet die unbrauchbare geometry und tesselation zu entfernen.

Wenn du hier also nach dem theoretischen Primitives Durchsatz fragst, ist die Frage so gemeint: Wieviel % mehr kann Navi 2.0 taktbereinigt gegenüber GCN 4.0 & Navi 1.0 an Primitives verwerfen.

Async Compute ist bei AMD sicher king of the hill um die GPU mit Arbeit zu füllen, was beim hohen Takt überproportional zur Geltung kommt wegen der discard rate.

Der Mesh Shader test zeigt folgendes:
https://www.pcgameshardware.de/3DMark-Software-122260/News/Mesh-Shader-Test-erschienen-Update-DX12-Ultimate-1366833/

RTX3080 - 8704 SPs - 1710Mhz - 29.77 Tflop/s
Mesh Shaders off: 67,49fps
Mesh Shaders on: 585,37fps

RX6800XT - 4608 SPs - 2250Mhz - 20.74 Tflop/s
Mesh Shaders off: 30,64fps
Mesh Shaders on: 544,15fps

Von Vega zu Navi dürfte es massive Verbesseung gegeben haben wobei Vega beim tradionellen shading ähnlich stark wie Ampere ist. Beides extreme "brute force" uArch.
Womöglich hat Vega uArch mehr Ählichkeiten mit Ampere uArch als mit Navi was das Verhältnis traditionelles shading zum kombinierten compute&graphic shading angeht.

Iscaran

2021-03-02, 13:42:37

@Locuza:

Was sagst du hierzu: https://forums.anandtech.com/threads/speculation-rdna2-cdna-architectures-thread.2579999/post-40315829
"Look at the Navi 2x table for specs. The front end of the rasterizer (scan converter) has doubled the output compared to Navi 1x .
num_packer_per_sc = 2 for Navi 1x
num_packer_per_sc = 4 for Navi 2x

All RDNA and RDNA2 GPUs have 1 scan converter per Shader Array but RDNA2 has twice the packer per scan converter as RDNA.
num_sc_per_sh = 1"

Warum sollte AMD doppelt soviele Packer draufschlagen, wenn der Rasterizer nicht diesen Durchsatz packt ?

Dazu auch hier von Beyond3d:
Digidi wirft ebenfalls die Frage nach den Rasterizern auf:
https://forum.beyond3d.com/posts/2176227/
und detailliert später dazu dass aber im Treiber hier 8 Einheiten stehen würden:
https://forum.beyond3d.com/posts/2176319/
Die Diskussion geht auf den folgenden Seiten noch weiter:
https://forum.beyond3d.com/posts/2176409/
Performance figures do not look like double the rasterizers. Thanks to very high clocks in those synthies (slightly north of 2500 MHz), it's on par with 2080 Ti and it's six rasterizers, but slightly less than RTX 3080.
Das wäre also ein clock basierter "Gain" allein ? (2.5 GHz vs 1.8 GHz = +40% => N22, 1RDNA RUs = 1.4*RDNA1 RUs
Somit sind 2 = 2.8...das ist zwar weniger als N10 (4), aber evtl. wurde ja noch mehr verändert UND es könnte sein dass N10 in der Hinsicht, relativ zu den 40 CUs sowieso "overpowered" war ?

Iscaran

2021-03-02, 13:44:04

Nachtrag:

Carsten_S bestätigt später: 4 Raster units mit 16 Pixels/clk
N10 hatte doch nur 8 / clk?
https://forum.beyond3d.com/posts/2176439/
I'm seeing numbers that align extremely close with 4 rasterizers á 16 pixels/clk, only at the end of the pipeline you get 308G depth writes/clk and 612 depth rejects/clk.

Iscaran

2021-03-02, 13:53:31

https://forum.beyond3d.com/posts/2177723/
It's not unbalanced to have a primitive rasterizer perform coarse rasterization and feed the output to multiple fine rasterizers to output pixels.

Ich verstehe das also so...der "Input" in Triangles entspricht dem von Navi10, der OUTPUT an Pixels ist aber nahezu doppelt so hoch (+80%) - weil man wohl ausgehend auf einem Triangle multiple Pixels outputten kann, somit hat man das Bottleneck mehr auf der "output" als auf der "input" Seite?

Locuza

2021-03-02, 16:07:06

@Locuza:

Was sagst du hierzu: https://forums.anandtech.com/threads/speculation-rdna2-cdna-architectures-thread.2579999/post-40315829
"Look at the Navi 2x table for specs. The front end of the rasterizer (scan converter) has doubled the output compared to Navi 1x .
num_packer_per_sc = 2 for Navi 1x
num_packer_per_sc = 4 for Navi 2x

All RDNA and RDNA2 GPUs have 1 scan converter per Shader Array but RDNA2 has twice the packer per scan converter as RDNA.
num_sc_per_sh = 1"

Warum sollte AMD doppelt soviele Packer draufschlagen, wenn der Rasterizer nicht diesen Durchsatz packt ?

Dazu auch hier von Beyond3d:
Digidi wirft ebenfalls die Frage nach den Rasterizern auf:
https://forum.beyond3d.com/posts/2176227/
und detailliert später dazu dass aber im Treiber hier 8 Einheiten stehen würden:
https://forum.beyond3d.com/posts/2176319/
Die Diskussion geht auf den folgenden Seiten noch weiter:
https://forum.beyond3d.com/posts/2176409/
Performance figures do not look like double the rasterizers. Thanks to very high clocks in those synthies (slightly north of 2500 MHz), it's on par with 2080 Ti and it's six rasterizers, but slightly less than RTX 3080.
Das wäre also ein clock basierter "Gain" allein ? (2.5 GHz vs 1.8 GHz = +40% => N22, 1RDNA RUs = 1.4*RDNA1 RUs
Somit sind 2 = 2.8...das ist zwar weniger als N10 (4), aber evtl. wurde ja noch mehr verändert UND es könnte sein dass N10 in der Hinsicht, relativ zu den 40 CUs sowieso "overpowered" war ?
Es stimmt nicht, dass RDNA2 GPUs einen Scan Converter pro Shader Array haben, es ist nur ein SC pro Shader Engine, bei RDNA1 waren es noch zwei.
Siehe folgende Einträge (ältere sind entweder falsch oder nicht richtig interpretiert worden):
https://www.reddit.com/r/Amd/comments/j7bpzs/an_update_on_navi_2x_firmware/

Seit dem Launch von Navi21 wissen wir auch, dass N21 wirklich nur 4 Scan Converter/Rasterizer insgesamt hat.
AMD malt nur 4 Rasterizer beim Frontend auf, mit nur 4 Primitive Units:
https://pics.computerbase.de/9/5/8/1/6-a12126ebeb660e56/44-1080.69297556.png

Wie gesagt, früher hat ein Rasterizer 16 Pixel ausgeschrieben und es gab zwei Packer, welche jeweils Pixel-Quads (2x2 Pixel) an den SPI (Shader Processor Input) übergeben haben.
Der SPI initialisiert Register und startet die Wavefronts auf den Compute Units für weitere Berechnungen.
Bei RDNA2 gibt es nur noch einen Rasterizer, welcher allerdings 32 Pixelfragmente ausschreiben kann, analog dazu gibt es auch doppelt soviele Packer, ansonsten wäre hier ein Flaschenhals entstanden.

Beim synthetischen Test zeigt sich anscheinend nur ein Clock-Gain.
Theoretisch packt Navi10 nachdem Culling 7.6 GTri/s (4 Tri/clk x 1.9GHz) und Navi22 5 GTri/s (2 Tri/clk x 2.5GHz).
Bei einem konstruierten Tests, der nur darauf abzielt, sollte Navi10 ~50% schneller sein.
In der echten Welt, vor allem unter Games, wird das so natürlich nicht aussehen, dennoch wäre es interessant zu wissen, ob N22 nicht hier und da ein paar Prozent einbüßt gegenüber der Konkurrenz oder gar dem eigenem Vorgänger?
Denn "overpowered" kommt darauf an, wie hoch die Geometrielast bei den meisten Spielen ist und werden wird.
Aktuelle Games mussten noch die PS4/Xbox One unterstützen, die nur zwei primitive Prim-Units hatten, bei 800-850MHz-Takt.
PS4 Pro und Xbox One X haben 4 Prim Units und 4 Rasterizer, aber nach wie vor ein relativ altes Geometriedesign und relativ niedrige Taktraten von ~0.9-1,2GHz.
Xbox Series X und PS5 besitzen ein relativ modernes Geometriedesign mit 4 Prim Units und 4 Rasterizer bei 1,8-2,2GHz.
Die Xbox Series S ist da aber ein Dämpfer mit nur 2 Prim Units und 2 Rasterizer bei ~1.6GHz.

Nachtrag:

Carsten_S bestätigt später: 4 Raster units mit 16 Pixels/clk
N10 hatte doch nur 8 / clk?
https://forum.beyond3d.com/posts/2176439/
I'm seeing numbers that align extremely close with 4 rasterizers á 16 pixels/clk, only at the end of the pipeline you get 308G depth writes/clk and 612 depth rejects/clk.
Bei N21 sind es theoretisch 4 Raster Units mit 32 Pixels/clk.
Bei N10 waren es 4 Raster Engines mit jeweils 16 Pix/clk, ansonsten würde die ROP-Konfiguration keinen Sinn ergeben.
Das Render Backend kann bei N21 128 Pixel ausgeben, dass wäre total unnötig, wenn das Render-Frontend nur 4x16 = 64 Pixel liefern könnte.
N10 hat 64 ROPs = 64 Pixel/clock und passend dazu ein Rasterizer-Frontend welches 4x16 Pix/clock = 64 Pixel/clock liefert.

Im Vergleich zu N10 erreicht N21 angeblich eine 60% höhere Pixel-Füllrate und einen doppelten Geometriedurchsatz bei einigen Triangle-Tests:
https://forum.beyond3d.com/posts/2177143/

Wieso man nicht einfach eine Tabelle mit den Werten veröffentlicht ist mir bisher schleierhaft. :confused:

https://forum.beyond3d.com/posts/2177723/
It's not unbalanced to have a primitive rasterizer perform coarse rasterization and feed the output to multiple fine rasterizers to output pixels.

Ich verstehe das also so...der "Input" in Triangles entspricht dem von Navi10, der OUTPUT an Pixels ist aber nahezu doppelt so hoch (+80%) - weil man wohl ausgehend auf einem Triangle multiple Pixels outputten kann, somit hat man das Bottleneck mehr auf der "output" als auf der "input" Seite?
Das geht schon einen Schritt weiter, wenn ein Dreieck an ein Rasterizer übergeben wird.
In echt gibt es nicht nur einen Rasterizer, sondern einen Scan Converter der in groben Maßstäben das Dreieck scanned und für eine große Fläche schaut (sagen wir mal 256px oder 1024), ob das Dreieck alle Pixel umschließt oder nicht.
Ist das nicht der Fall gibt es noch anscheinend mehrere feine Rasterizer, die mit kleineren Pixelflächen (z.B. 8 oder 16) durch das Dreieck gehen und dann die entsprechend Rohpixel generieren.

In Bezug auf die Geometrie-Pipeline davor hat sich theoretisch zwischen RDNA1 und RDNA2 nichts geändert.
Praktisch verwendet RDNA2 aber anscheinend viel häufiger die NGG-Pipeline, welche pro Takt zwei Dreiecke rausfiltern kann, anstatt nur einem, dass führt zu einer höheren Geometrierate, wenn ganz viele Dreiecke geculled werden können/müssen.
Der finale Output an die Rasterizer ist aber der gleiche, 1 Dreieck pro Takt wird an ein Scan Converter/Rasterizer übergeben.

Iscaran

2021-03-02, 20:25:24

Ja, aber dann ist doch der Einbruch bzgl. Rasterizer von Navi10 nach Navi22 gar nicht so groß:

Wie gesagt ich denke es ist schon richtig dass RDNA2 nur noch halb so viele Primitive Units hat (pro Shader Engine), also N10 hat ja 4 (2x2), N21 hat ebenfalls 4 (4x1) und N22 wird eben nur 2 haben (2x1)

ABER - du sagst ja selber der Backend-Output ist identisch geblieben.

Bei N21 sind es theoretisch 4 Raster Units mit 32 Pixels/clk.
Bei N10 waren es 4 Raster Engines mit jeweils 16 Pix/clk, ansonsten würde die ROP-Konfiguration keinen Sinn ergeben.
Das Render Backend kann bei N21 128 Pixel ausgeben, dass wäre total unnötig, wenn das Render-Frontend nur 4x16 = 64 Pixel liefern könnte.
N10 hat 64 ROPs = 64 Pixel/clock und passend dazu ein Rasterizer-Frontend welches 4x16 Pix/clock = 64 Pixel/clock liefert.

Halten wir das mal fest:
N21 = 4x32 /clk = 128 /clk
N10 = 4x16 /clk = 64 / clk

und somit für:
N22 = 2x32 / clk = 64 / clk..

Das ist derselbe output den auch N10 liefert. Mir erscheint hier also dass der Rasterizer von RDNA2 tatsächlich "stärker" ist - zumindest in dem Bereich der das "Bottleneck" darstellte.

Ein Grund könnte dieses neue Patent sein, dass mutlimodale Parallelarbeitenden Rasterizer beschreibt:
https://patents.google.com/patent/US10062206B2/en
Das Einreichungsdatum ist 2016, könnte ziemlich gut passen, denn in dem Zeitraum WAR RDNA1 bestimmt schon in Entwicklung und man hat möglicherweise schon an Plänen für RDNA2 gefeilt.
Damit kann 1 Rasterizer mehr "output" erzeugen. So wie ich die Kommentare von AMD aufgefasst habe ist das Problem nicht, dass man nicht "genug" Triangles in die Shader Engine bzw. den Rasterizer REINbekommt, SONDERN eher dass man ja, WEIL man soviele hinterher "wegwirft" (culling) nicht genug RAUSbekommt.

Der Multimodale Rasterizer behebt diese Problem /zumidnest partiell. Der Input bleibt (pro Rasterizer-Unit) gleich, aber der erzeugte OUTPUT wird verdoppelt (abzl. nicht gut genug vorab verworfenes culling.

Dazu passen ja auch diese Befunde von Carsten_S

Im Vergleich zu N10 erreicht N21 angeblich eine 60% höhere Pixel-Füllrate und einen doppelten Geometriedurchsatz bei einigen Triangle-Tests:
https://forum.beyond3d.com/posts/2177143/

Für mich sieht das danach aus als ob AMD den Rasterizer hier sehr wohl irgendwie "aufgebohrt" hat irgendwie....er also mehr Pixel/clock (bzw. Triangle/clock) durchbringt.
Klar die Triangles/clk bleiben scheinbar bei 4/Clk pro Rasterizer, aber das was er daraus "rausbringt" ist das doppelte.

Offensichtlich ist beim direkten Vergleich N10 vs N21, der RDNA2 chip um 80% schneller bzgl. Rasterization als N10 und das obwohl beide wohl 4 Rasterunits tragen.
https://forum.beyond3d.com/posts/2191181/

Die Aussage mit den +80% stammt ja von 3dcgi, = 0x22h (Twitter) und gehört offenbar zu jemand direkt aus AMDs Team.
https://forum.beyond3d.com/posts/2191305/

Vielleicht hat auch AMD es irgendwie gebracht und den Triangle-Troughput verdoppelt.
Also statt 4 / clk nun 8 / clock
Und die Veränderungen am Backend zu 4x32 sind das natürliche Resultat dessen:
siehe OlegSHs Einwurf:
https://forum.beyond3d.com/posts/2191337/

Voxilla hat dann einen Interessanten Test auf Basis von Triangles gemacht:
https://forum.beyond3d.com/posts/2191463/

I ran some tests comparing a 3090 to a 6900 for a tesselated height map landscape with ~30 million triangles on screen.
When viewed from above looking down, with all triangles front facing:
10 GTris/s versus 8 GTris/s for 3090 versus 6900
Wen viewed from ground level, with about half triangles front facing:
12 GTris/s versus 17 GTris/s
Die 6900 ändert ihren Triangle throughput also in abhängigkeit der Gerenderten Szene (mehr als verdoppelt) ?
Wohingegen die RTX 3090 nur +-20% Unterschied hat. (12 GTris/s evtl. "maximum" ?)

Voxilla sagt später dazu: https://forum.beyond3d.com/posts/2191475/
Yes, rasterizer and cull rate seems to be the same on the 3090, 7 per clock.
On the 6900 cull rate is twice as rasterizer rate 8 cull (and 4 rasterize) per clock
(also clock on the 6900 is about 25% higher as 3090)
Die 3090 hat 6 Rasterizer ?....wie kann also "clock zu clock" die 6900 25% schneller sein, wenn sie doch nur 4 Rasterizer hat ? (ausser, die 4 sind so "schnell" wie 8
8/6 = +25%.

hmmmmmmmmmmmmmmmmmmmmmmmmmmmmm

Locuza

2021-03-02, 23:57:22

Die Pipeline läuft grob so ab, die Primitive Units berechnen die Geometrie und liefern die fertigen Daten an die Rasterizer/Scan Converter (Render Frontend).
Das Render Frontend scanned z.B. ein Dreieck und berechnet dazu die passenden Pixel.
Die Pixel werden gesammelt und der SPI startet dann eine Wavefront (Arbeitsbündel aus 32 oder 64 Pixel bei RDNA) auf den Compute Units, Pixel Shader laufen drüber, berechnen Farben und Texturen und letztendlich kümmern sich die ROPs (Render Backend) darum Farbwerte zu vermischen und die finalen Pixel zu exportieren.
(Zwischen jedem Schritt passieren natürlich noch viele extra Sachen).

Grob umgesetzt auf Navi10 sieht es so aus:
4 Primitive Units (4x Tri/clk) --> 4 Rasterizer (4x 16 Pix/clk) --> Pixel Shader --> 64 ROPs (16x 4 Pixel/clk)

Bei Navi22 dagegen so:
2 Primitive Units (2x Tri/clk) --> 2 Rasterizer (2x 32 Pix/clk) --> Pixel Shader --> 64 ROPs (8x 8 Pixel/clk)

Hier gibt es zwei (sogar 3) downgrades (auf dem High Level Papier).
1.) Navi22 kann weniger Dreiecke gleichzeitig bearbeiten
2.) 2 Rasterizer mit jeweils 32Pix/clock haben zwar theoretisch den gleichen Pixeldurchsatz wie 4x 16Pix/clk, aber für kleine Dreiecke ist das schlechter.
Wenn ein Dreieck weniger als 32 Pixel beinhaltet, dann sinkt der maximal mögliche Durchsatz, entsprechend wird man häufiger und stärker an mangelnder Auslastung leiden, als bei einer Abtastgranularität von 16 Pixeln.
( 3.) Beim neuem RB+gibt es 8 Color ROPs anstatt 4, aber nicht mehr Depth/Stencil ROPs, dadurch hat Navi22 nur die Hälfte der Depth/Stencil ROPs vs. Navi10 und es können weniger Tiefentests durchgeführt werden)

Nun würde man hier und da relativ schlechte Werte für Navi21 und 22 erwarten.
In der Praxis haben sich aber keine besonderen Auffälligkeiten bei Navi21 gezeigt und die Performance ist gut.

Für den 1.) Punkt gibt es eine Erklärung wieso RDNA2 trotzdem relativ gut dasteht.
Navi21 und Navi10 können beide 4 Dreiecke an die Rasterizer übergeben und theoretisch auch beide 8 Dreiecke pro Takt rausfiltern.
Allerdings scheint die Next Generation Geometrie Pipeline (NGG) bei RDNA1 relativ selten zum Einsatz zu kommen und häufiger die klassische Geometrie-Pipeline, dass heißt es werden nicht bis zu 8 Dreiecke pro Takt geculled, sondern nur 4.
Das ist vermutlich der Hauptgrund für den höheren Geometriedurchsatz bei Navi21 und ein Grund, wieso Navi22 in vielen Fällen wohl nicht langsamer sein wird als Navi10, trotz halber Primitive Units.

Zu Punkt 2.) Kann man sich vielleicht ähnliche Techniken vorstellen, wie im Micro-Polygon Patent beschrieben.
Ich habe das Patent nicht gelesen, aber laut Abstrakt wählt man je nach Dreieck einen passenden Rasterizer aus.
Bei kleinen Dreiecken entsprechend feinkörnige Rasterizer, um wenig bis kaum an mangelnder Auslastung zu leiden.
Im Prinzip ähnlich wie die der Vorgang schon jetzt funktioniert, lediglich noch einmal feiner abgestuft.
Argumente gegen so etwas wäre die erhöhte Komplexität, möglicherweise höhere Latenzen und die damit verbundenen Hardwarekosten.
Mag sich aber vielleicht auch lohnen beim aktuellen System.
Jedenfalls selber hat AMD nahezu nichts bezüglich ihrem neuem Render-Frontend bei RDNA2 gesagt.
Zwar ist das nicht garantiert, aber üblicherweise packen Hersteller neue Hardwarefeatures in die Marketingfolien.

(Punkt 3 mag in der Praxis, wie der aktuelle Dreiecksdurchsatz, einfach kein limitierender Faktor in Spielen sein, entsprechend könnte man Abstriche machen, ohne nennenswert Performance zu verlieren).

----

3090 hat 7 Rasterizer, 3080 hat 6.
Aber wie jemand im Forum weiter unten ausgeführt hat, auch Nvidia kann seit Ewigkeiten mehr Dreiecke cullen, als rastern.
Wieso es dort keine Differenz gibt ist merkwürdig, aber wie gesagt, ein weitflächiger Testparcour wäre sehr wünschenswert.

-/\-CruNcher-/\-

2021-03-03, 04:14:13

Da frag ich mich wie der Unterschied bei AMDs eigenem GeometryFX Bench aussieht

vinacis_vivids

2021-03-03, 09:14:42

Heute um 17 Uhr gibs mehr Infos zur Expansion der RX6000er Reihe.
jjBqaGLRycc

Meine predictions:

Navi22 XTX - Volle Shader, besonders selektiert auf höheren Takt bis 2,7Ghz bei gleichem Verbrauch wie Navi22 XT
40CUs - 2560SP - 2,7Ghz
-> Konkurrenz zur RTX3070

Navi22 XT - Volle Shader, normaler Taktraten 2,2-2,5 Ghz
40CUs - 2560SP - 2,5Ghz
-> Konkurrenz zur RTX3060Ti

Navi22 XL - Salvage bei normalen Taktraten 2,2-2,5 Ghz
36CUs - 2304SP - 2,5Ghz

Gemeinsamkeit: 192bit SI, 12GB VRAM, 96MB IF-Cache

Warum Selektion? Die 7nm Beleuchtung und Ausbeute ist mittlerweile perfektioniert und erlaubt bis. 3,0Ghz bei Wasserkühlung.
Der 7nm Wafer kann mit Navi22 richtig richtig gut ausgeschöpft werden und wirft quasi die doppelte Stückzahl an GPU`s zum verkaufen ab. Die Quote der XT und XTX Chips ist extrem hoch >90%
Mit einem Wafer deckt AMD quasi die ganze obere Mittelklasse ab fürs 1440p Gaming und high fps 1080p-Gaming.

Navi22 ist der wahre cash-cow für AMD im Gaming Bereich und katapultiert sich direkt ins Gamerbewusstsein ein.

r3ptil3

2021-03-03, 09:20:34

Hiess es nicht, dass nur ein Modell (6700 XT) vorgestellt wird?

Zudem sind bei Grafikkarten mittlerweile alle Modelle Cash Cows, auch die High-End-Grafikkarten (RTX 3070/ RX 6800 und höher) - Mining sei dank.

Brillus

2021-03-03, 09:21:28

Hoffe gibt auch infos zu mobile.

w0mbat

2021-03-03, 09:23:08

Du meinst wohl 192-Bit SI? Und wie soll N22 XTX der 3070 Konkurrenz machen, wenn die 6800 mit 50% mehr CUs schon nur 10% vor der 3070 ist?

HOT

2021-03-03, 09:40:00

Jo der ersetzt die 6800 könnte man sagen.

WedgeAntilles

2021-03-03, 09:57:27

Heute um 17 Uhr gibs mehr Infos zur Expansion der RX6000er Reihe.
https://youtu.be/jjBqaGLRycc

Meine predictions:

Navi22 XTX - Volle Shader, besonders selektiert auf höheren Takt bis 2,7Ghz bei gleichem Verbrauch wie Navi22 XT
40CUs - 2560SP - 2,7Ghz
-> Konkurrenz zur RTX3070

Navi22 XT - Volle Shader, normaler Taktraten 2,2-2,5 Ghz
40CUs - 2560SP - 2,5Ghz
-> Konkurrenz zur RTX3060Ti

Navi22 XL - Salvage bei normalen Taktraten 2,2-2,5 Ghz
36CUs - 2304SP - 2,5Ghz

Gemeinsamkeit: 256bit SI, 12GB VRAM, 96MB IF-Cache

Warum Selektion? Die 7nm Beleuchtung und Ausbeute ist mittlerweile perfektioniert und erlaubt bis. 3,0Ghz bei Wasserkühlung.
Der 7nm Wafer kann mit Navi22 richtig richtig gut ausgeschöpft werden und wirft quasi die doppelte Stückzahl an GPU`s zum verkaufen ab. Die Quote der XT und XTX Chips ist extrem hoch >90%
Mit einem Wafer deckt AMD quasi die ganze obere Mittelklasse ab fürs 1440p Gaming und high fps 1080p-Gaming.

Navi22 ist der wahre cash-cow für AMD im Gaming Bereich und katapultiert sich direkt ins Gamerbewusstsein ein.

Du hast vergessen zu erwähnen, dass sofort beim Verkaufsstart 124.728.924 Stück bei den Händlern vorrätig liegen, die alle für 199 Euro an die Kunden verkauft werden.
Jeweils zusammen mit einer handgeschriebenen Grußkarte von Lisa.

Linmoum

2021-03-03, 10:00:43

Gemeinsamkeit: 256bit SI, 12GB VRAMAha.

basix

2021-03-03, 10:08:25

Meine predictions:

Navi22 XTX - Volle Shader, besonders selektiert auf höheren Takt bis 2,7Ghz bei gleichem Verbrauch wie Navi22 XT
40CUs - 2560SP - 2,7Ghz
-> Konkurrenz zur RTX3070

Navi22 XT - Volle Shader, normaler Taktraten 2,2-2,5 Ghz
40CUs - 2560SP - 2,5Ghz
-> Konkurrenz zur RTX3060Ti

Navi22 XL - Salvage bei normalen Taktraten 2,2-2,5 Ghz
36CUs - 2304SP - 2,5Ghz

Gemeinsamkeit: 256bit SI, 12GB VRAM, 96MB IF-Cache

Ich hätte bei XT und XL auf 36 CU getippt (siehe 5700 und 5600 XT). Ebenso bei N22 XL auf 160b und nochmals tiefere Taktraten. Die kleinste Karte muss vor allem eines sein: Kostengünstig herstellbar. Ein reduziertes SI würde da helfen. Und 10 GByte sind in diesem Marktsegment OK. Was dagegen sprechen könnte: Die 3060 hat 12 GByte. Mit 10 GByte sieht das auf der Kartonschachtel schlechter aus.

PingpiN

2021-03-03, 10:15:38

Heute um 17 Uhr gibs mehr Infos zur Expansion der RX6000er Reihe.
https://youtu.be/jjBqaGLRycc

Meine predictions:

Navi22 XTX - Volle Shader, besonders selektiert auf höheren Takt bis 2,7Ghz bei gleichem Verbrauch wie Navi22 XT
40CUs - 2560SP - 2,7Ghz
-> Konkurrenz zur RTX3070

Navi22 XT - Volle Shader, normaler Taktraten 2,2-2,5 Ghz
40CUs - 2560SP - 2,5Ghz
-> Konkurrenz zur RTX3060Ti

Navi22 XL - Salvage bei normalen Taktraten 2,2-2,5 Ghz
36CUs - 2304SP - 2,5Ghz

Gemeinsamkeit: 256bit SI, 12GB VRAM, 96MB IF-Cache

Warum Selektion? Die 7nm Beleuchtung und Ausbeute ist mittlerweile perfektioniert und erlaubt bis. 3,0Ghz bei Wasserkühlung.
Der 7nm Wafer kann mit Navi22 richtig richtig gut ausgeschöpft werden und wirft quasi die doppelte Stückzahl an GPU`s zum verkaufen ab. Die Quote der XT und XTX Chips ist extrem hoch >90%
Mit einem Wafer deckt AMD quasi die ganze obere Mittelklasse ab fürs 1440p Gaming und high fps 1080p-Gaming.

Navi22 ist der wahre cash-cow für AMD im Gaming Bereich und katapultiert sich direkt ins Gamerbewusstsein ein.

AMD würde dich bestimmt als Marketing Mitarbeiter einstellen. Ich würde bei AMD mal Anfragen! Da ist gut Geld zu verdienen! Deine Liebe zu AMD liest sich wie ein Gedicht. Ich würde dir alles abkaufen!

WedgeAntilles

2021-03-03, 10:28:41

AMD würde dich bestimmt als Marketing Mitarbeiter einstellen.

Nein, würden sie nicht. Wenn du die AMD Pressemeldungen und Prognosen anschaust, erkennst du eine klare Verbindung zur Realität.
Die Prognosen und Aussagen von AMD sind ziemlich gut und realistisch.

Was er macht erinnert an den "there are no american tanks in Bagdad" Pressesprecher von Sadam.

vinacis_vivids

2021-03-03, 10:40:46

Es geht darum mit einem einzigen 7nm Wafer sich möglichst breit aufzustellen.
Vor allem ist in 1080p und 1440p der GPU-Takt extrem wichtig um hohe fps. bzw. niedrigen Latenz zu erreichen. Auch fürs Marketing ist der GPU-Takt wichtig, da werden Boardpartner auch mal die 8pin + 6pin ausnutzen.
Höchstwahrscheinlich skaliert auch der IF-Cache mit dem GPU-Takt.
Dafür skaliert N22 weniger in UHD Aufgrund des schmalen SI und die sinkende hitrate des IF-Caches, was aber nebensächlich ist, weil 4k nicht die Zielgruppe ist. Dafür gibs N20.

Bei der N22 XTX Customs kann ich mir auch eine schnellere Speicherbestückung vorstellen um auch on par mit der RTX3070 zu sein.

N20XL - RX6800
3840@2,2 Ghz -> 16,896 Tflop/s

N22XTX - RX6700XT
2560@2,7 Ghz -> 13,824 Tflop/s

Der Abstand zwischen RX6800 und 6700XT ist da groß genug mit ~22%.

Die RX6800 ist hardwaretechnisch locker für den GPU-CLK von 2,6-2,7Ghz geeignet, nur ist der BIOS-lock noch nicht geknackt weshalb man keine Watt dazu geben kann außer die +15% im Treiber.

@basix

N10 war vorherige 7nm Generation und hatte eine schlechtere Ausbeute als der jetzige 7nm refresh, der in der Ausbeute perfekt ist.
Guckt euch nur das Grinsen von Lisa Su genau an. Da spricht die Ausbeute für sich ;D

@Topic
Eigentlich darf ich nicht mehr 40Cus sagen, sondern es ist besser 20 DCU, also doppel-CU zu benennen. Das ist der Grund wieso der Takt so hoch geht. Die CUs wurden seit der Navi uArch vereinigt zu DCUs und sind richtig dick geworden. Und dicke CUs mit vielen gleichen Transitoren lassen sich einfacher höher takten und dabei Kontrolllogik sparen als viele dünnere CUs (Fiji-Design mit niedrigen Takt)

basix

2021-03-03, 10:58:44

@basix

N10 war vorherige 7nm Generation und hatte eine schlechtere Ausbeute als der jetzige 7nm refresh, der in der Ausbeute perfekt ist.
Guckt euch nur das Grinsen von Lisa Su genau an. Da spricht die Ausbeute für sich ;D

Es dreht sich nicht alles um Ausbeute ;) Dass die CUs funktionsfähig sind ist das eine, welchen Takt sie erreichen ein anderer. Ich sehe sehr gerne 2x 40CUs und 1x 36 CUs. Schlussendlich wird das in der Tendenz das performantere Lineup. Schlussendlich liegen aber nur ~10% zwischen 40 und 36 CUs. Am Schluss ist es eine Mischrechnung: Yield (Kosten) vs. Performance (durchschnittlicher Verkaufspreis). Wenn ich den Yield reduziere, weil ich meine SKUs höher ansetze, dann sollte das über einen höheren Verkaufspreis überkompensiert werden. Wenn nicht, lohnt es sich nicht. Aus dem Grinsen von Lisa eine belastbare Aussage zum Yield erhalten, halte ich für gewagt ;)

Zu 160b: Erhöht den Yield, Speicher kostet, Speicher hat hohe Nachfrage / Lieferschwierigkeiten. Auch hier wieder: Kann der Mehrpreis für die zusätzlichen 2 GByte über einen höheren Verkaufspreis wieder reingeholt werden? 2 GByte GDDR6 kosten was? 15$? 20$? 30$?

Hakim

2021-03-03, 15:02:50

Gibt es eigentlich irgendwas Neues zu AMDs FFSR? Ankündigung oder Gerüchte wann es kommen soll?

w0mbat

2021-03-03, 16:07:55

Mit etwas Glück wissen wir heute um 17 Uhr mehr.

r3ptil3

2021-03-03, 17:02:55

Gibt's keinen Livestream auf Youtube von AMD selber?

dildo4u

2021-03-03, 17:04:39

Gibt's keinen Livestream auf Youtube von AMD selber?
https://youtu.be/jjBqaGLRycc

disap.ed

2021-03-03, 17:07:57

RX 6700 XT mit 2424 MHz Game-Takt.

Hakim

2021-03-03, 17:11:42

Den Balken nach genau auf 6800 Niveau :freak:

r3ptil3

2021-03-03, 17:12:12

Ca. 5% unter der RX 6800 - genial.

Jetzt kommt's auf den Preis an.

Ravenhearth

2021-03-03, 17:14:45

In unabhängigen Tests wird die 6700 XT durchschnittlich wohl zwischen der 3060 Ti und 3070 landen.

disap.ed

2021-03-03, 17:15:41

Wohl ziemlich genau auf 3070-Niveau, außer bei RT natürlich.

Bin auf den Preis gespannt. Edit: 479$.

Da wird die 6800 wohl mittelfristig aus dem Programm genommen.

dildo4u

2021-03-03, 17:16:04

3070 Level wird es schon sein das Ding läuft deutlich heißer da haben sie massiv Effizienz geopfert.

marc-05

2021-03-03, 17:20:25

Wow 479 $

Lyka

2021-03-03, 17:20:27

VIERHUNDERTNEUNUNDSIEBZIG ÖCKEN

Sorry, aber (Fickende) Hölle ....

r3ptil3

2021-03-03, 17:20:43

Bin etwas überrascht, dass einem Produkt, welches wohl mit Abstand am meisten verkauft werden wird aus der RX 6000 Serie, nur eine derart kleine und unspektakuläre Videoaufnahme gewidmet wird. :freak:

Aber klar, kurz und auf den Punkt gebracht.

derguru

2021-03-03, 17:20:47

unter 699€ wird man die karte dann erstmal auch nicht bekommen;))

Hakim

2021-03-03, 17:22:58

Ergibt iwie kein Sinn, wenn 6800 und 6700xt innerhalb von 10% beieinander liegen. Macht mich etwas skeptisch. Vielleicht holt AMD dann die 6800 aus dem Sortiment. Erst mal unabhängige Tests abwarten.

Lyka

2021-03-03, 17:24:06

Also hat AMD jetzt die 0815-Spieler aus seinem Portfolio gekickt ;D Ich krieg das bittere Lachen nicht geregelt, entschuldigt bitte.

r3ptil3

2021-03-03, 17:24:18

Ergibt iwie kein Sinn, wenn 6800 und 6700xt innerhalb von 10% beieinander liegen. Macht mich etwas skeptisch. Vielleicht holt AMD dann die 6800 aus dem Sortiment. Erst mal unabhängige Tests abwarten.

Sind eben nicht nur die paar Prozent Leistung, sondern auch 4Gb VRAM dazwischen.

dildo4u

2021-03-03, 17:24:19

Ergibt iwie kein Sinn, wenn 6800 und 6700xt innerhalb von 10% beieinander liegen. Macht mich etwas skeptisch. Vielleicht holt AMD dann die 6800 aus dem Sortiment. Erst mal unabhängige Tests abwarten.
Die 6800 könnte in 4k deutlich besser aussehen da sie mehr Infinity Cache hat.

Troyan

2021-03-03, 17:24:54

Mal abgesehen von der aktuellen Situation:
RTX3080 => 730€
6700XT => ~500€

Erste ist fast 50% schneller und Raytracing ist bei der 6700XT unbrauchbar.

Nette Abzocke bei AMD. Aber die wissen schon, wie man die eigene Fanbase melkt.

Ravenhearth

2021-03-03, 17:25:39

Navi 22 mit RDNA 2: AMDs Radeon RX 6700 XT legt sich mit GeForce RTX 3070 an (https://www.computerbase.de/2021-03/radeon-rx-6700-xt-vorgestellt/)

Der maximale Boost-Takt beträgt 2.581 MHz, wobei dieser bei RDNA 2 trotz des Namens nicht das Maximum darstellt und der Game-Takt ist auf der Radeon RX 6700 XT mit 2.424 MHz ganze 34 Prozent höher als bei der Radeon RX 6800 und 20 Prozent höher als bei der Radeon RX 6800 XT.

Ravenhearth

2021-03-03, 17:26:41

Mal abgesehen von der aktuellen Situation:
RTX3080 => 730€
6700XT => ~500€

Erste ist fast 50% schneller und Raytracing ist bei der 6700XT unbrauchbar.

Nette Abzocke bei AMD. Aber die wissen schon, wie man die eigene Fanbase melkt.
Erstere ist 52% teurer und hat weniger Speicher :tongue:

Und die "fast 50% schneller" will ich auch erstmal sehen.

dildo4u

2021-03-03, 17:27:31

Mal abgesehen von der aktuellen Situation:
RTX3080 => 730€
6700XT => ~500€

Erste ist fast 50% schneller und Raytracing ist bei der 6700XT unbrauchbar.

Nette Abzocke bei AMD. Aber die wissen schon, wie man die eigene Fanbase melkt.
Eine 3080 ist nicht +50% zur 3070.

https://www.computerbase.de/thema/grafikkarte/rangliste/#diagramm-performancerating-avg-fps-3840-2160

Loeschzwerg

2021-03-03, 17:29:23

Yeston wieder mit einem erfrischend anderem Design, gefällt mir :D

Die Taktraten fallen ganz schön hoch aus.

w0mbat

2021-03-03, 17:36:17

OK, die 6700 XT ist doch deutlich näher an der 6800 als ich gedacht habe, dafür ist die TDP mit 230W nur knapp unter den 250W einer 6800. Fast 35% mehr Takt ist krass!

Wenn die Verfügbarkeit stimmen würde, wäre das eine sehr geile Karte für um die 500€. Kein mega Schluckspecht, 12GB VRAM, >=3070 Leistung und AMD Treiber. Aber die customs werden wohl bei 700€+ einsteigen am aktuellen Markt.

Mal abgesehen von der aktuellen Situation:
RTX3080 => 730€
6700XT => ~500€

Erste ist fast 50% schneller und Raytracing ist bei der 6700XT unbrauchbar.

Nette Abzocke bei AMD. Aber die wissen schon, wie man die eigene Fanbase melkt.
Wut? Die 3080 wird um die 20% schneller sein, hat nur 10GB Krüppel-VRAM, ist ein 300W+ Heizofen, man ist auf die Nvidia-Treiber angewiesen und RT wird, dank den neuen Konsolen, ab jetzt auf RDNA2 optimiert. Ach, und ne 3080 kostet um die 2000€.

So früh am Abend schon besoffen oder was? :D

Lurtz

2021-03-03, 17:40:31

Also hat AMD jetzt die 0815-Spieler aus seinem Portfolio gekickt ;D Ich krieg das bittere Lachen nicht geregelt, entschuldigt bitte.
https://www.heise.de/news/Gaming-Grafikkarten-Deutsche-nehmen-hohe-Preise-in-Kauf-5069848.html

Die Leute zahlen die Preise aktuell, das lässt sich wohl niemand entgehen.

Hakim

2021-03-03, 17:46:04

Also hat AMD jetzt die 0815-Spieler aus seinem Portfolio gekickt ;D Ich krieg das bittere Lachen nicht geregelt, entschuldigt bitte.

die 6700nonXT und Navi23 stehen noch aus. Aber iwie befürchte ich das es auch nicht günstig wird.

Lyka

2021-03-03, 17:49:39

ja, die wird sicher bei 419 USD liegen .... man hat ja ein "Premiumprodukt, weil die 5xxx Reihe das neue untere Mittelfeld ist, für den neuen unteren Mittelfeldpreis von 300 EUR aufwärts" :|

Troyan

2021-03-03, 17:49:46

Wut? Die 3080 wird um die 20% schneller sein, hat nur 10GB Krüppel-VRAM, ist ein 300W+ Heizofen, man ist auf die Nvidia-Treiber angewiesen und RT wird, dank den neuen Konsolen, ab jetzt auf RDNA2 optimiert. Ach, und ne 3080 kostet um die 2000€.

So früh am Abend schon besoffen oder was? :D

Die 6800 hat 33% mehr Bandbreite und Cache (Rasterizer?!), sowie 22% mehr Rechenleistung.

Hast recht, die 6700XT und die 6800 werden innerhalb von 5% liegen. Wie konnte ich das vergessen.

amdfanuwe

2021-03-03, 17:53:56

Die Hoffnung auf eine 6600(XT) zu 299 und ca 5700XT Leistung besteht noch.

vinacis_vivids

2021-03-03, 17:56:37

2,5Ghz für die Referenz ist ein sehr sehr guter Takt. Hier kommt der Fertigungs,- bzw. technologischer Vorteil der 7nm+ gegenüber den 8nm von Samsung deutlich zum Vorschein.
Taktschraube schön hoch ohne den Energieverbrauch explodieren zu lassen.

Die RTX3070 8GB sieht richtig alt und veraltet aus gegenüber der RX6700XT 12GB.
Die Customs RX6700XT legen vllt. noch einen Tick GPU-CLK auf 2,6-2,7Ghz zu.

Ist insgesamt schon krass wie AMD seit Fiji an Takt zugelegt hat. Von 1Ghz auf 2,5Ghz sind +250%. Da hat AMD (endlich) das know-how vollends aus der CPU Fertigung genommen.

Bei Nvidia herrscht dagegen seit 5 Jahren Stillstand bei ~ 1,8Ghz. Höhere Taktraten brauchen eben auch hartes know-how das Nvidia gar nicht hat. Fazit: AMD > Nvidia.

Die 2,5-2,7Ghz mal auf die noch kleineren Chips von AMD übertragen pulverisieren alles was Nvidia hat.

Das ist echtes Next-Gen, wofür ich PC-Technologie so liebe :heart:

Hakim

2021-03-03, 17:58:31

Finde es schade das die immer noch nichts zu FFSR gesagt haben. Ist immerhin über 3 Monate her die Vorstellung und niemand weiß so richtig wann es kommen wird.

w0mbat

2021-03-03, 18:03:15

Das geht nicht so schnell, Nvidia hat lange an DLSS geforscht. Ich denke, wenn wir dieses Jahr ne beta bekommen, läuft es gut.

dildo4u

2021-03-03, 18:06:55

Das kann fertig sein AMD ist trotzdem immer noch auf Spiele Entwickler für die Implementierung angewiesen und dort werden grad überall Termine wegen Covid verschoben.

Poekel

2021-03-03, 18:07:01

Die Hoffnung auf eine 6600(XT) zu 299 und ca 5700XT Leistung besteht noch
Im Herbst? Ich befürchte gerade, dass die kleineren Karten (6600 und 6500) noch länger auf sich warten lassen, gerade wenn in der Präsentation nur noch die Laptop-Chips als "coming soon" angepriesen werden.
Konsolen, Laptops, Produktionsengpässe und eine Riesennachfrage, bei der Preise für die Kunden keine Rolle spielen zu scheinen? Da werden wohl erstmal die OEMs versorgt und dann kann man irgendwann ein Endkunden-Produkt rausbringen.

Da ärgere ich mich doch, im Sommer meine 570/8GB für knapp 100€ verkauft zu haben. Damals schien mir das recht sinnvoll. Der Niedriglast-Verbrauch war mit iGPU erheblich geringer (wegen Home Office spielt das plötzlich eine größere Rolle), allzu viel habe ich nicht gespielt, so dass die iGPU zeitlich befristet kein Problem war, und die neue Generation auch abseits der Performance/Enthusiasten-Segments schien nicht so weit entfernt zu sein.
Und jetzt gehen die Dinger bei Ebay für 300€+ weg. :freak:

€: Sorry, habs geändert. :)

Hakim

2021-03-03, 18:10:19

das Zitat ist nicht von mir auch wenn da Hakim drauf steht :)

Hakim

2021-03-03, 18:21:55

Irgendwie erscheint mir die 6800xt persönlich immer noch die Beste AMD Karte derzeit. Für den Aufpreis von (UVP Preise) 170$ immer noch sehr gut gegenüber 6800 und 6700xt.

Iscaran

2021-03-03, 20:12:07

Die 6800 hat 33% mehr Bandbreite und Cache (Rasterizer?!), sowie 22% mehr Rechenleistung.

Hast recht, die 6700XT und die 6800 werden innerhalb von 5% liegen. Wie konnte ich das vergessen.

Die 6700 XT hat scheinbar locker 20% mehr Takt als die 6800.

https://www.heise.de/news/Gaming-Grafikkarte-Radeon-RX-6700-XT-gegen-GeForce-RTX-3070-5071383.html
https://www.computerbase.de/2021-03/radeon-rx-6700-xt-vorgestellt/

Die 6800 hat 13.8 TFlops, die 6700 XT 12.4 TFlops.

2581 MHz vs 2105 MHz Boost clock. Das relativiert die Rasterizer-Leistung und Cache etc. halt deutlich. Nominal trennen die Karte nur ca 11% TFlops.

Würde also eine Performance ca 10-15% unter 6800 erwarten - also perfekte RTX 3070 Punktlandung.

horn 12

2021-03-03, 20:21:05

Nun, dies spiegelt sich auch im UVP Preis wieder.
Die 479 zu 579 Euro/ Dollar
Die 6800XT wurde nur so gewählt für 649 Dollar da AMD wohl schon vorab sich bewusst war die Karte extrem Rar zu halten und die Meisten GPU Chips der 6900XT vorzuschrieben sind da die Yield Raten durch den "lang" erprobten 7/ 7+nm Prozess extrem hoch sind.

Linmoum

2021-03-03, 20:23:20

Das kleinere SI und der geringere Cache sind für FHD/WQHD sowieso völlig latte, die Hitrate liegt in WQHD laut AMD mit 96MB auf identischem Niveau wie mit 128MB in UHD. Und dort weiß man bereits, dass die Bandbreite nicht limitiert.

Hinsichtlich RT hatte @Raff ja schon zuletzt dank der 3060 einen Test mit 12GiB vs. 8GiB und auch CB hatte im Review zur 3060 bereits entsprechendes nachmessen können - und das bereits in FHD. Die an sich höhere RT-Leistung einer 3060Ti oder 3070 wird teilweise also schon heute durch den zu geringen Speicher bereits zunichte gemacht. Speicherkrüppel für RT halt, aber das wusste jeder bereits vorher, dass die Anforderungen damit und der Speicherbedarf weiter steigen werden.

M4xw0lf

2021-03-03, 20:25:08

Gut, dass ich eh keine Zeit mehr habe. Bei den abgefuckten Preisen muss man dem PC-Markt wohl eh erst mal ca 10 Jahre geben um zur Normalität zurückzukehren.

w0mbat

2021-03-03, 20:32:26

Die 6800 hat 33% mehr Bandbreite und Cache (Rasterizer?!), sowie 22% mehr Rechenleistung.

Hast recht, die 6700XT und die 6800 werden innerhalb von 5% liegen. Wie konnte ich das vergessen.
Die RX 6800 hat 12% mehr Rechenleistung als eine RX 6700 XT, nicht 22%. Du liegst schon wieder falsch. Und weniger CUs sind einfacher auszulasten, d.h. ich gehen von 10% Unterschied bei 1080p aus. Die RTX 3080 ist 10% schneller als eine RX 6800, d.h. eine RX 6700 XT sollte sich ca. 20% hinter der RTX 3080 einordnen.

Klar, in 4K wird das anders aussehen, aber mit ner RX 6700 XT wird man wohl eher nicht in 4K spielen.

Bitte überprüfe doch deine Behauptungen bevor du dich lächerlich machst.

gedi

2021-03-03, 21:00:38

Die RX 6800 hat 12% mehr Rechenleistung als eine RX 6700 XT, nicht 22%. Du liegst schon wieder falsch. Und weniger CUs sind einfacher auszulasten, d.h. ich gehen von 10% Unterschied bei 1080p aus. Die RTX 3080 ist 10% schneller als eine RX 6800, d.h. eine RX 6700 XT sollte sich ca. 20% hinter der RTX 3080 einordnen.

Klar, in 4K wird das anders aussehen, aber mit ner RX 6700 XT wird man wohl eher nicht in 4K spielen.

Bitte überprüfe doch deine Behauptungen bevor du dich lächerlich machst.

Egal was er postet - es ist immer lächerlich. BTW. hoffe ich für AMD, dass die Preise welche leakhalber durchs Internet schwirren, etwas überzogen sind. Denn sonst braucht es zum Release den absoluten Horn-Treiber mit einem anständigen DLSS-Counterpart. Ansonsten wird das Ding - zu recht - aufgrund der veranschlagten UVP verissen

Linmoum

2021-03-03, 21:12:22

Was soll da verrissen werden? Die UVP ist, so wenig es verständlicherweise vielen gefallen mag, marktgerecht. Ist einfach so.

Mal ganz davon ab, dass das sowieso kompletter Schwachsinn ist, anhand dieser zu argumentieren. Wenn AMD die 6700XT mit $399 aufgestellt hätte, würden die Straßenpreise trotzdem bei >700€ liegen. Die UVP kann man aktuell fast nirgendwo für voll nehmen, das betrifft nicht nur Hardware.

gedi

2021-03-03, 21:21:58

Schon - aber man nehme Lederjacke: Ich stelle 329€ in den Raum für eine Grafikkarte, welche es in der Form nie zu kaufen geben wird (als FE). Und daran wird sie sich messen lassen müssen, neben dem Verbrauch natürlich. Die eher grünveranschlagten Spezis (Websites, Zeitschriften, ...) werden der 6700XT so wohl nicht ganz gerecht. Ich hoffe für AMD wirklich, dass se den Upsampling-Krempel Mitte März veröffentlichen können.

Linmoum

2021-03-03, 21:32:22

Aber wen interessiert denn die 3060 mit 329€? Die ist klar langsamer als eine 6700XT und spielt in einer völlig tieferen Leistungsklasse. Konkurrent ist die 3070 mit einer UVP von 499€.

Dino-Fossil

2021-03-03, 23:40:52

Gut, dass ich eh keine Zeit mehr habe. Bei den abgefuckten Preisen muss man dem PC-Markt wohl eh erst mal ca 10 Jahre geben um zur Normalität zurückzukehren.

"Mid-Range" für 480€ ist schon bisschen absurd.
Naja, mir geht's ähnlich. Kaum noch Zeit für's Zocken, da ist der Drang zum Aufrüsten auch nicht mehr so groß.

Nightspider

2021-03-04, 00:29:01

Bei der Performance die man aus den 40 CUs holt freu ich mich umso mehr auf die APU Rembrandt. ^^

Brillus

2021-03-04, 01:06:28

Bei der Performance die man aus den 40 CUs holt freu ich mich umso mehr auf die APU Rembrandt. ^^

Bin mal gespannt. Bei den typischen Bandbreitenproblemen bei APUs ist die Frage ob und wieviel Infinite Cache sehr interessant.

SKYNET

2021-03-04, 01:09:03

Bei der Performance die man aus den 40 CUs holt freu ich mich umso mehr auf die APU Rembrandt. ^^

bei 12CUs dürfte man wohl bei ner RX570 rauskommen leistungsmässig

reaperrr

2021-03-04, 02:41:56

Bei der Performance die man aus den 40 CUs holt freu ich mich umso mehr auf die APU Rembrandt. ^^
Wenn Rembrandt neben der deutlich besseren uArch (u.a. hat RDNA ja klar bessere DCC als Vega) und höherer Speicherbandbreite dank DDR5 auch noch IF$ haben sollte, sprich das Bandbreiten-Limit weit nach oben verschoben wird, sind bei ähnlichen Taktraten locker 80-100% mehr IGP-Performance als bei Cezanne drin.
Damit sollte man selbst die 128-EU-Variante von Intels DG2 schlagen. Vor 7nm wird Intel bei IGPs erstmal wieder ne ganze Weile nur die Rücklichter von AMD sehen.
Der 7nm-Nachfolger von TGL-U (oder dem ADL-Equivalent) wird schon um die 160 EUs nebst konkurrenzfähigen Taktraten brauchen, um dagegen eine Chance zu haben.

bei 12CUs dürfte man wohl bei ner RX570 rauskommen leistungsmässig
Das steht und fällt mMn mit der Größe des IF$, aber grundsätzlich sollte man der zumindest sehr nah kommen. 12 RDNA2-CUs entsprechen von der IPC mindestens 16 GCN4-CUs, bei fast doppeltem Takt und viel weniger uArch-Schwächen... solange die effektive Bandbreite reicht, könnte das was werden.

Dino-Fossil

2021-03-04, 11:54:31

Wenn man mit den RDNA2-APUs auch nur annähernd in die Nähe einer 480/570-Karte käme, wäre es vielleicht an der Zeit meinen Desktop-PC endgültig einzumotten und mir nur noch einen Laptop zu holen - ohne dGPU und trotzdem gut genug für 90% dessen was ich üblicherweise zocken will.
Der hat aktuell noch einen R5 1600 + RX 480 8GB - und mein Laptop mit 4600U bietet schon jetzt die gleiche oder eine leicht bessere CPU-Leistung zu deutlich geringerem Energieverbrauch.
Vielleicht gilt das bald auch für die iGPU.

Zum Arbeiten dann noch einen externen Monitor und evtl. ne Tastatur (bzw halt per Dock) und man hat einen günstigen, sparsamen und bei Bedarf mobilen Universal-PC, auf dem man sogar halbwegs vernünftig zocken kann.

robbitop

2021-03-04, 12:06:12

Infinity Cache würde einer APU massiv helfen. Auch könnte man dann mehr Rohleistung für die IGP verbauen. ABER: sowohl mehr CUs als auch der IF$ kostet mehr Fläche.
IGPs verkaufen sich auch bei wenig 3D Leistung wie geschnitten Brot. Man schaue sich die VKZ von GT2 und GT3, GT3e und GT4e an.

IMO würde das erst sinnvoll sein, mehr Transistorfläche zu verbauen, wenn man einen Vorteil davon hat. Also überproportional mehr Gewinn pro gesteigerter Fläche zu erzielen. Denn die Opportunität ist, man kann pro mm² auch kleine APUs verkaufen.

Da der Massenmarkt wahrscheinlich ein deutlich größeres Segment für low cost IGPs zu haben scheint, würde das erst richtig Sinn machen, wenn man noch eine art High End APU auflegt.

Wenn AMD das vorhat, macht IF$ auch richtig Sinn. Jedes Megabyte kostet ~1 mm². ~16-32 MiB sollte man schon ungefähr annehmen, damit es sinnvoll ist. Das wäre in mm² schon signifikant.
Die Steigerung der Rohleistung kostet dann nochmal mm² ggü Vega 8 (also bspw 12 RDNA2 CUs).

Dino-Fossil

2021-03-04, 12:17:31

Ja, das stimmt natürlich - der Flächenbedarf könnte AMD schlicht zu groß sein, so dass man auch weiterhin eine ähnliche Strategie verfolgt wie das momentan der Fall ist.
Wobei man selbst dann schon eine recht gutklassige Steigerung hinlegen sollte.

Ghost1nTh3GPU

2021-03-04, 12:26:30

Kann nicht der L3-Cache der Zen-Kerne auch als Infinity-Cache genutzt werden?
Mit 32MiB kann man doch gut 3-4TFLOPs gut unterstützen und hätte für CPU-Aufgaben auch gleich noch etwas mehr Spielraum.

Bei der aktuellen/mittelfristigen Waffer/Packaging-Knappheit könnte so eine Gamer-APU durchaus Sinn machen.
Noch besser wäre natürlich, Microsoft gibt die Xbox Series APUs für Win10-Notebook/Desktop (evtl. Surface Gamer) frei... ;)

robbitop

2021-03-04, 12:26:49

Das Problem ist, dass der Großteil der APU Käufer offenbar keinen Mehrwert in besonders hoher 3D Leistung sieht. Die VKZ von GT3 und GT4 ggü GT2 sprechen eine klare Sprache.
Aber ein separater Die wäre ggf sinnvoll.

Kann nicht der L3-Cache der Zen-Kerne auch als Infinity-Cache genutzt werden?
Mit 32MiB kann man doch gut 3-4TFLOPs gut unterstützen und hätte für CPU-Aufgaben auch gleich noch etwas mehr Spielraum.

Nein das geht so nicht. Das wurde hier im Forum aber auch schon mindestens einmal besprochen.

Ghost1nTh3GPU

2021-03-04, 12:38:26

Unter den aktuellen Bedingungen kann man wohl nahezu alles abverkaufen, was annähernd eine vernünftige 3D/Coin-Leistung hat.

Aber ein Chiplet wäre wohl durchaus sinnvoller. Notfalls packt man dann noch einen HBM3-Chip auf diesen drauf.

robbitop

2021-03-04, 12:48:33

Unter den aktuellen Bedingungen kann man wohl nahezu alles abverkaufen, was annähernd eine vernünftige 3D/Coin-Leistung hat.

Aber ein Chiplet wäre wohl durchaus sinnvoller. Notfalls packt man dann noch einen HBM3-Chip auf diesen drauf.
Produkte werden nicht für temporäre Marktannomalien gebaut. Und wenn, kann man das Silizium zum Minen mit anderen Designs als einer APU deutlich besser nutzen. Selbst eine kleine GPU würde das besser pro mm² tun, weil der ganze Kram außerhalb der IGP dem Minen nicht hilft.

Nightspider

2021-03-04, 14:00:58

Wenn AMD das vorhat, macht IF$ auch richtig Sinn. Jedes Megabyte kostet ~1 mm². ~16-32 MiB sollte man schon ungefähr annehmen, damit es sinnvoll ist. Das wäre in mm² schon signifikant.
Die Steigerung der Rohleistung kostet dann nochmal mm² ggü Vega 8 (also bspw 12 RDNA2 CUs).

Rembrandt kommt ja in 6nm und dürfte knapp 20% höhere Packdichte haben. Wenn da ~15-30mm² nur für den Infinity Cache draufgehen sollte das schon verschmerzbar sein.

Aber es stimmt schon was du sagst, der Markt braucht eigentlich keine zweigleisige APU Linie.
Vielleicht sehen wir in 2-3 Jahren auch einfach Chiplets in Laptops, wo 1-2 CUs im IO Die stecken (für Office-Laptops) und alle, die mehr Grafikleistung wollen, dann noch GPU Chiplets drin stecken haben.

robbitop

2021-03-04, 14:43:41

Naja was heißt "verkraften"? Es geht um Margen pro Wafer. Jeder mm² mehr bedeutet auch weniger Chips die pro Wafer abfallen. Die müssen bezahlt werden.

Man muss immer die Opportunität zur Baseline betrachten. Das Volumeprodukt braucht offenbar keine besonders hohe Grafikleistung um zum Zielpreis zu den gewünschten Stückzahlen verkauft zu werden. Auch wenn der Shrink ein wenig kompensiert, muss man die Baseline als Opportunität immer betrachten. Und zwar auch im Shrink. Wenn der Kunde für die gesteigerte Fläche (und 3D Leistung) nicht bereit ist überproportional mehr zu zahlen kann man eben pro Wafer mehr von dem Baselineprodukt verkaufen.

Es wird sicherlich Kunden geben, die dazu bereit sind. Also einen separaten Markt. Auch wenn das der kleinere Teil des Marktes ist. Aber ggf. ist dieser Teil groß genug. Entsprechend macht es Sinn, dafür ein separates Produkt aufzulegen. Ziel ist es pro Wafer mehr zu verdienen. Sonst macht das Produkt keinen Sinn. Sonst kann man auch einfach mehr vom Baseline Produkt verkaufen. Entsprechend muss die größere Die Size überproportional zum Baselineprodukt bezahlt werden.

Wenn man mal schaut, wie Intel das mit GT3 und GT4 gemacht hat -> genau so. Es gab separate Produkte und die waren deutlich teurer als die GT2 SoCs. Und zwar überproportional zur Flächensteigerung. Mehr Geld pro Wafer verdient.

Sofern nicht die Nachfrage limitiert, sähe die Situation aber natürlich anders aus. Wie noch vor ein paar Jahren als AMD nicht in der Position ist, in der sie heute sind.

basix

2021-03-04, 21:39:10

Das Problem ist, dass der Großteil der APU Käufer offenbar keinen Mehrwert in besonders hoher 3D Leistung sieht. Die VKZ von GT3 und GT4 ggü GT2 sprechen eine klare Sprache.
Aber ein separater Die wäre ggf sinnvoll.

Nein das geht so nicht. Das wurde hier im Forum aber auch schon mindestens einmal besprochen.

Dazu:

Zusätzliche CUs kosten fast nichts (https://www.techpowerup.com/268747/amd-renoir-die-annotation-raises-hopes-of-desktop-chips-featuring-x16-peg) im Vergleich zur restlichen APU. Ob 8 oder 12 CUs machen <10mm2 aus. Vielleicht wird die GPU dann etwas unbalanciert (ROPs und so), ist bei APUs aber nicht extrem wichtig. Bei Renoir hat bei der Entscheidung ob 8 oder mehr CUs sicher auch der Chip-Floorplan reingespielt. Mit 8 CUs passte es halt am besten.
Den L3 als IF$ zu nutzen geht heute nicht. Das muss aber nicht so bleiben ;) Intel shared (https://software.intel.com/content/www/us/en/develop/documentation/iocl-opg/top/optimizing-opencl-usage-with-intel-processor-graphics/memory-access-considerations/memory-access-overview.html) bei Skylake zum Teil den LLC (https://en.wikichip.org/wiki/last_level_cache) auch zwischen CPU und GPU. Wieso IF$ bei einer APU extrem wichtig sein kann: Stromverbrauch. Sieh dir die Idle Werte von N21 an, ein Traum. Die GPU kann im Idle oder evtl. sogar bei Videowiedergabe usw. alles im Cache ausführen anstatt über das Speicherinterface zu gehen. Für mich ist eher die Frage, ob 16 MByte wie bei Cezanne reichen oder ob man mindestens 32 MByte dafür braucht. Das hätte nochmals Auswirkungen auf die Chipfläche. Wenn man AMDs Cache-Hitrate von der N21 Präsentation (https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/54610-endlich-wieder-ein-duell-auf-augenhoehe-radeon-rx-6800-und-radeon-rx-6800-xt-im-test.html?start=2) anschaut, wären 32MB gut genug für ~50% Hitrate bei 1080p (oder was auch immer "HD" in ihrer Folie ist), was ~doppelte effektive Bandbreite bedeuten würde. Man muss auch berücksichtigen, dass bei geringeren Anforderungen an die Bandbreite langsamerer Speicher verwendet werden kann: Geringerer Stromverbrauch sowie geringere Kosten.

Fazit:
Eine etwas dickere RDNA2 GPU (z.B. 12 CUs) sowie 32 MB LLC wären auf die gesamte Chipfläche bezogen kein dramatischer Unterschied, würden aber den Einsatzbereich der APU erweitern und zudem Vorteile bei Stromverbrauch und möglicherweise sogar Systemkosten bieten (günstigerer Speicher). Für das günstige Segment hat AMD ja immer noch Lucienne oder Cezanne, um das Portfolio unten rum abzurunden.

Nightspider

2021-03-05, 02:01:38

Naja was heißt "verkraften"? Es geht um Margen pro Wafer. Jeder mm² mehr bedeutet auch weniger Chips die pro Wafer abfallen. Die müssen bezahlt werden.

Man muss immer die Opportunität zur Baseline betrachten. Das Volumeprodukt braucht offenbar keine besonders hohe Grafikleistung um zum Zielpreis zu den gewünschten Stückzahlen verkauft zu werden. Auch wenn der Shrink ein wenig kompensiert, muss man die Baseline als Opportunität immer betrachten. Und zwar auch im Shrink. Wenn der Kunde für die gesteigerte Fläche (und 3D Leistung) nicht bereit ist überproportional mehr zu zahlen kann man eben pro Wafer mehr von dem Baselineprodukt verkaufen.

Es wird sicherlich Kunden geben, die dazu bereit sind. Also einen separaten Markt. Auch wenn das der kleinere Teil des Marktes ist. Aber ggf. ist dieser Teil groß genug. Entsprechend macht es Sinn, dafür ein separates Produkt aufzulegen. Ziel ist es pro Wafer mehr zu verdienen. Sonst macht das Produkt keinen Sinn. Sonst kann man auch einfach mehr vom Baseline Produkt verkaufen. Entsprechend muss die größere Die Size überproportional zum Baselineprodukt bezahlt werden.

Wenn man mal schaut, wie Intel das mit GT3 und GT4 gemacht hat -> genau so. Es gab separate Produkte und die waren deutlich teurer als die GT2 SoCs. Und zwar überproportional zur Flächensteigerung. Mehr Geld pro Wafer verdient.

Sofern nicht die Nachfrage limitiert, sähe die Situation aber natürlich anders aus. Wie noch vor ein paar Jahren als AMD nicht in der Position ist, in der sie heute sind.

Grundsätzlich stimme ich dir zu aber ich denke der Markt wird sich in ~10-12 Monaten schon etwas beruhigt haben, durch höhere Produktionskapazitäten und langsam gesättigte Marktbereiche. Jetzt wäre es natürlich Gold wenn man hier und da noch ein paar mm² einsparen könnte um mehr Chip produzieren zu lassen.
AMD gehts ja nicht nur um €/mm². Man muss ja auch die Konkurrenz schlecht aussehen lassen und ein besseres Produkt bedeutet ja auch mehr Käufer. Wenn man Intel mehr Marktanteile wegnehmen will braucht man ja auch das bessere Produkt. Wenn Rembrandt doppelt so viel GPU Leistung bieten wird wie Cezanne und der Chip nicht viel größer ausfällt als der Vorgänger, dank 6nm, dann wird das ein tolles Produkt mit hohen Verkaufszahlen.
Wenn auch in einem Jahr AMD noch alle Chips aus den Händen gerissen werden kann das nur gut für AMD sein.
Rembrandt wird ja dann eine Lebensspanne von 1Q22 bis 1Q23 haben.

spotz

2021-03-05, 03:16:41

Die meisten APUs werden mit 15W oder 25W betrieben. Bringt es bei der TDP und den damit verbundenen geringeren Taktraten überhaupt etwas IF$ zu verbauen? Ich vermute das da die normale Bandbreite von DDR5 ausreicht.

amdfanuwe

2021-03-05, 03:32:04

Auf den RAM zuzugreifen kostet mehr Energie wie auf den IF$ zuzugreifen.
Dementsprechend hat man einen größeren TDP Spielraum mit IF$ den man für höhere Takte nutzen kann.

horn 12

2021-03-05, 07:10:40

https://www.hardwaretimes.com/amd-fidelityfx-super-resolution-and-enhanced-radeon-boost-coming-in-spring-adrenaline-update/

DLSS - und Fedelity-FX update
Informationen

basix

2021-03-05, 08:24:48

Auf den RAM zuzugreifen kostet mehr Energie wie auf den IF$ zuzugreifen.
Dementsprechend hat man einen größeren TDP Spielraum mit IF$ den man für höhere Takte nutzen kann.

...oder der Betrieb ist allgemein effizienter, z.B. im Office Betrieb. Das führt zu längeren Akkulaufzeiten, geringerer Hitzeentwicklung und somit geringeren Emissionen während dem Arbeiten. Schaut euch den Buzz rund um den Apple M1 an, Effizienz und Akkulaufzeit ist "sexy" und entsprechend gut vermarktbar.

Effizienter zu sein hat viele Dimensionen. Höhere Performance ist nur eine davon.

Eine breitere GPU lässt es zudem zu, bei Bedarf noch effizienter zu sein, da man den Takt reduzieren kann und dennoch auf die selbe Performance kommt wie mit weniger CUs. Das war ja auch mal der Intel Ansatz mit ihren Iris Pro GPUs. Nur sind 12 vs. 8 CUs ein deutlich kleinerer Unterschied als bei Intel.

mboeller

2021-03-05, 08:50:50

Eine breitere GPU lässt es zudem zu, bei Bedarf noch effizienter zu sein, da man den Takt reduzieren kann und dennoch auf die selbe Performance kommt wie mit weniger CUs. Das war ja auch mal der Intel Ansatz mit ihren Iris Pro GPUs. Nur sind 12 vs. 8 CUs ein deutlich kleinerer Unterschied als bei Intel.

so klein ist der Unterschied gar nicht.

1750 x 8 / 12 = 1167MHz.
Das ist in etwa der Betriebspunkt der 50w 5000M für Apple.

https://www.amd.com/en/graphics/radeon-apple-5000m-series

mironicus

2021-03-05, 10:30:44

Gibt es ein Tool das anzeigt, ob SAM aktiviert ist oder nicht?

robbitop

2021-03-05, 10:59:44

Dazu:

Zusätzliche CUs kosten fast nichts (https://www.techpowerup.com/268747/amd-renoir-die-annotation-raises-hopes-of-desktop-chips-featuring-x16-peg) im Vergleich zur restlichen APU. Ob 8 oder 12 CUs machen <10mm2 aus. Vielleicht wird die GPU dann etwas unbalanciert (ROPs und so), ist bei APUs aber nicht extrem wichtig. Bei Renoir hat bei der Entscheidung ob 8 oder mehr CUs sicher auch der Chip-Floorplan reingespielt. Mit 8 CUs passte es halt am besten.
Den L3 als IF$ zu nutzen geht heute nicht. Das muss aber nicht so bleiben ;) Intel shared (https://software.intel.com/content/www/us/en/develop/documentation/iocl-opg/top/optimizing-opencl-usage-with-intel-processor-graphics/memory-access-considerations/memory-access-overview.html) bei Skylake zum Teil den LLC (https://en.wikichip.org/wiki/last_level_cache) auch zwischen CPU und GPU. Wieso IF$ bei einer APU extrem wichtig sein kann: Stromverbrauch. Sieh dir die Idle Werte von N21 an, ein Traum. Die GPU kann im Idle oder evtl. sogar bei Videowiedergabe usw. alles im Cache ausführen anstatt über das Speicherinterface zu gehen. Für mich ist eher die Frage, ob 16 MByte wie bei Cezanne reichen oder ob man mindestens 32 MByte dafür braucht. Das hätte nochmals Auswirkungen auf die Chipfläche. Wenn man AMDs Cache-Hitrate von der N21 Präsentation (https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/54610-endlich-wieder-ein-duell-auf-augenhoehe-radeon-rx-6800-und-radeon-rx-6800-xt-im-test.html?start=2) anschaut, wären 32MB gut genug für ~50% Hitrate bei 1080p (oder was auch immer "HD" in ihrer Folie ist), was ~doppelte effektive Bandbreite bedeuten würde. Man muss auch berücksichtigen, dass bei geringeren Anforderungen an die Bandbreite langsamerer Speicher verwendet werden kann: Geringerer Stromverbrauch sowie geringere Kosten.

Fazit:
Eine etwas dickere RDNA2 GPU (z.B. 12 CUs) sowie 32 MB LLC wären auf die gesamte Chipfläche bezogen kein dramatischer Unterschied, würden aber den Einsatzbereich der APU erweitern und zudem Vorteile bei Stromverbrauch und möglicherweise sogar Systemkosten bieten (günstigerer Speicher). Für das günstige Segment hat AMD ja immer noch Lucienne oder Cezanne, um das Portfolio unten rum abzurunden.
Naja RDNA2 ist ggü Vega ja auch nochmal deutlich größer pro CU. Dann sind es ganz schnell +20 mm2. RDNA2 mit 12 CUs vs Vega mit 8 CUs.
Aktuell sind 16 MiB L3 verbaut. Weitere 16 MB sind dann auch nochmal zusätzliche 16+ mm2. Sind dann schon 35...40 mm2. Bezogen auf die jetzige Größe sind dass deutlich weniger Chips pro Wafer.

Dazu kommt, dass ein gemeinsamer L3 garantiert Nachteile in der aktuellen Topologie hat. Sonst hätte man es schon umgesetzt.

Wafer werden mit 6nm und 5nm in 2022 auch ohne Pandemie und Miningboom knapp sein. Das war mit 7nm vor beidem auch schon so.

davidzo

2021-03-05, 12:37:12

Fazit:
Eine etwas dickere RDNA2 GPU (z.B. 12 CUs) sowie 32 MB LLC wären auf die gesamte Chipfläche bezogen kein dramatischer Unterschied, würden aber den Einsatzbereich der APU erweitern und zudem Vorteile bei Stromverbrauch und möglicherweise sogar Systemkosten bieten (günstigerer Speicher). Für das günstige Segment hat AMD ja immer noch Lucienne oder Cezanne, um das Portfolio unten rum abzurunden.

So sehr ich so eine 'ausgewogene' APU cool fände glaube ich kaum dass es einen Markt dafür gibt.
Renoir und Cezanne haben ja gut gezeigt dass AMD die dicken APUs mit kleinem CPUteil a la Llano mittlerweile aufgegeben hat und sich lieber nicht den Markt mit discrete GPUs kaputt macht.
Die APUs mit fette Grafikteil haben lediglich den ASP nach unten getrieben, sowohl für lowend discrete, als auch für die CPUs. Es macht mehr Sinn eine starke mobile CPU mit einer minimalen Grafiklösung auszuliefern, die erreichen sogar höhere Preise als ein größerer chip mit dickerer mittelklasse GPU.
Das Minimum an GPUleistung orientiert sich dabei an dem was Intel zu dem Zeitpunkt bietet. Mehr muss man auch nicht leisten, da reicht schon der Radeon Brandname und die Treiber um dem Kunden das bessere Angebot zu suggerieren.
Abseits der Foren kann sich aber kein Endkunde für "IGP", "32mb cache", "shared memory" begeistern, selbst wenn die Leistung gut wäre. Und solange man mit den CPUs und lowend discrete weiterhin gut verdienen kann gäbe es nur einen Grund die aktuelle minimal-IGP Strategie zu überdenken: Wenn ein großer OEM mit Strahlkraft à la Apple eine neue Deviceklasse erschaffen möchte, das gut bezahlt und diese Geräte auch entsprechend vermarkten kann, so dass der Kunde die tatsächlichen Vorteile auch wahrnimmt.

basix

2021-03-05, 13:18:35

Naja RDNA2 ist ggü Vega ja auch nochmal deutlich größer pro CU. Dann sind es ganz schnell +20 mm2. RDNA2 mit 12 CUs vs Vega mit 8 CUs.
Aktuell sind 16 MiB L3 verbaut. Weitere 16 MB sind dann auch nochmal zusätzliche 16+ mm2. Sind dann schon 35...40 mm2. Bezogen auf die jetzige Größe sind dass deutlich weniger Chips pro Wafer.

Dazu kommt, dass ein gemeinsamer L3 garantiert Nachteile in der aktuellen Topologie hat. Sonst hätte man es schon umgesetzt.

Wafer werden mit 6nm und 5nm in 2022 auch ohne Pandemie und Miningboom knapp sein. Das war mit 7nm vor beidem auch schon so.

Ausgehend von N21 sind 4x RDNA2 CUs <15mm2, und das ganz platt gerechnet ohne ROPs, Command Processor, ACEs usw. auszuklammern (nur SI, IF$ und I/O). Mit 6nm noch weniger. 10mm2 ist also näher an der Realität als 20 ;)

Und der Infinity Cache ist bei 128MByte ganze 108mm2 gross, AMD hatte das offizell auf ihren Folien. Macht also 13.5mm2 für 16 MByte. In 6nm sind +4 CUs und +16 MByte LLC ~20-25mm2. Das sind ~15% mehr Chipfläche bei massiv höherer GPU Leistung und in vielen Fällen reduzierter Stromverbrauch / längere Akkulaufzeiten. Die erhöhten Kosten kann man nun mit den entsprechenden Business Cases abwägen. Und eben bei den SKUs am unteren Rand auf den kleineren Lucienne setzen.

@davidzo
IGP, 32MB interessiert den Normalo weniger. Aber ob ich 10 oder gar 15h Akkulaufzeit habe schon. Das mit den Preisen in Verbindung mit diskreten GPUs stimmt schon, da gebe ich dir recht. Aber der Lowend Discrete Markt ist zumindest bei Mobile so ziemlich tot, oder nicht? Entweder man hat eine IGP im 15-25W Notebook oder schon bald was in Richtung 2060 Richtung und dann halt 60-120W. Dazwischen scheint es nicht viel zu geben.

Man kann auch so argumentieren: Zwei Chips belasten die knappen Fertigungskapazität doppelt und mit Lowend GPUs verdient man fast nichts. Die fressen aber dennoch so viel Silizium wie eine ganze APU (mit welcher man mehr verdienen kann). Ist historisch gesehen evtl. eher ein Spezialfall, aber seit Corona ist die Knappheit extrem und wird wohl noch länger so bleiben.

robbitop

2021-03-05, 14:14:00

Du redest aber von 12 RDNA2 CUs - nicht nur 4x. Und Command Processor, ACEs etc gehört alles dazu. Und auch der Kram wird bei RDNA2 größer geworden sein ggü Vega. Und ob AMD N6 wirklich zum Shrink nutzt, oder es so abläuft wie bei 12nm (da wurde die Transistordichtensteigerung nicht mitgenommen) bleibt abzuwarten...

Es ist naiv zu glauben, dass eine deutlich größere IGP UND zusätzlich IF$ die Größe nur unwesentlich steigern wird.

Ich fände so ein Produkt, wie gesagt, sehr interessant. Aber es müsste eine separate SKU sein, damit man die Marge pro Wafer maximieren kann. Und genau das macht Sinn, solange Wafer den Verkauf limitieren.

GPU Leistung scheint für den Massenmarkt kein primäres Kaufkriterium zu sein. Leider. GT2 und Vega 8 verkaufen sich wie geschnitten Brot. Zu sehr guten Margen. Aber es wird sicherlich einen Marktteilbereich geben, der bereit ist, dafür überproportional zu zahlen. Und damit fängt es dann an Sinn zu ergeben. Die Frage ist, ob er groß genug ist, damit sich ein separater Chip lohnt.

Lowend würde ich die jetzigen APUs/SoCs nicht nennen. Im Gegenteil. Die 8C SoCs verkaufen sich für sehr anständige Preise. Der Massenmarkt ist offenbar stärker an CPU Leistung und ausreichender 3D Leistung interessiert. Aber man könnte zusätzlich eine APU/SoC mit größerer Fläche auflegen. Das würde die Fertigungskapazitäten nicht doppelt belasten. Im Gegenteil. Die größeren Chips werden in kleinerer Stückzahl an den Marktbereich verkauft, der bereit ist, dafür überproportional zu zahlen. Die Mehrzahl der Chips sind die kleinere Variante und man bekommt mehr pro Wafer raus. Würde es nur die größere Version geben, hätte man weniger Chips gesamt und weniger Gewinn.

Ich bin mal gespannt, wie signifikant dieses Marktsegment ist. Relativ zum Zeitpunkt besonders starke IGPs gibt es ja schon lange. Siehe GT4e. Hat kaum Käufer gefunden. Die meisten OEMs fangen in dem Preisbereich dann an, dGPUs zu verbauen. Nimmt sich dann preislich kaum noch etwas.

Nightspider

2021-03-05, 15:09:29

Wafer werden mit 6nm und 5nm in 2022 auch ohne Pandemie und Miningboom knapp sein. Das war mit 7nm vor beidem auch schon so.

AMD wird sicherlich auch immer größere Kapazitäten bei TSMC bestellt haben und TSMC baut massiv aus.
Die bauen ja nicht nur für Apple aus.

Apples M1 ist in 5nm auch noch knapp 120mm² groß. Cezanne ist in 7nm "nur" 175mm² groß. Der M1 hat grob 50% mehr Transistoren als Cezanne.

Bisschen wachsen darf Rembrandt schon, man muss ja versuchen mit der Konkurrenz mitzuhalten.

Apple kriegts ja auch irgendwie hin. Und sie haben 1-2 Jahre Vorsprung.

memory_stick

2021-03-05, 15:57:49

Dass grössere iGPUs nicht gefragt sind hat aber auch durchaus mit Intels GT Lösungen und der relativen CPU Schwäche von AMD zum gleichen Zeitpunkt zu tun.
GT3/4e hatten zwar theoretische (Rohleistungs-)Vorteile, doch Intels Architektur +Treiber haben der ambitionierteren Nugzung dieser GPUs (Gaming, 3D Anwendungen) gleich wieder den Riegel vorgeschoben.
Und eine zwar potente und ausgereifte Grafik mit schwacher CPU von AMD wollte auch keiner.
Also hat sich iGPU == 2D, für Games ungeeignet, im Markt auch ein bisschen durch Intels durchwachsene GPU Lösungen festgesetzt.

Den meisten Konsumenten ist gar nicht bewusst, was ein 12RDNA, 8Zen3 Cores produkt für Thin&Light leisten könnte. Die Ausganglage ist heute von der perspektive eine andere, viele Leute sind im HO, mussten/sind auf Laptops umgestiegen, und wären sicher froh auch ohbe dGPU etwas 3D leistung zu haben.
Nur weil der Markt >GT2 von _Intel_ nicht angenommen hat, bedeutet nicht dass kein Markt für >Vega8 von AMD existiert. Sauberes Gesamtpaket könnte die doch recht häufig vebauten low-end GPUs (gt1030, etc.) obsolet machen.
Mir wärs durchaus einen Aufpreis Wert.

Alter Löwe

2021-03-05, 16:08:28

Dass grössere iGPUs nicht gefragt sind hat aber auch durchaus mit Intels GT Lösungen und der relativen CPU Schwäche von AMD zum gleichen Zeitpunkt zu tun.
GT3/4e hatten zwar theoretische (Rohleistungs-)Vorteile, doch Intels Architektur +Treiber haben der ambitionierteren Nugzung dieser GPUs (Gaming, 3D Anwendungen) gleich wieder den Riegel vorgeschoben.
Und eine zwar potente und ausgereifte Grafik mit schwacher CPU von AMD wollte auch keiner.
Also hat sich iGPU == 2D, für Games ungeeignet, im Markt auch ein bisschen durch Intels durchwachsene GPU Lösungen festgesetzt.

Den meisten Konsumenten ist gar nicht bewusst, was ein 12RDNA, 8Zen3 Cores produkt für Thin&Light leisten könnte. Die Ausganglage ist heute von der perspektive eine andere, viele Leute sind im HO, mussten/sind auf Laptops umgestiegen, und wären sicher froh auch ohbe dGPU etwas 3D leistung zu haben.
Nur weil der Markt >GT2 von _Intel_ nicht angenommen hat, bedeutet nicht dass kein Markt für >Vega8 von AMD existiert. Sauberes Gesamtpaket könnte die doch recht häufig vebauten low-end GPUs (gt1030, etc.) obsolet machen.
Mir wärs durchaus einen Aufpreis Wert.

Etwas schade ist auch das Intel sowas ja durchaus versucht hat mit Kaby Lake G, es vom Markt aber leider nicht angenommen wurde. Hätte man bestimmt für Notebooks ummodeln können.

basix

2021-03-05, 16:09:43

Kaby Lake G hatte gegenüber CPU + dGPU halt keine wirklichen Vorteile für den Konsumenten. Und die meisten wollen ein kleines und leichtes Notebook für zum Arbeiten und Unterwegs sein, das ist eher 15-25W Gebiet.

@memory_stick
Ich hätte sowas gerne auf Arbeit als auch zu Hause ;)

robbitop

2021-03-05, 16:23:42

Dass grössere iGPUs nicht gefragt sind hat aber auch durchaus mit Intels GT Lösungen und der relativen CPU Schwäche von AMD zum gleichen Zeitpunkt zu tun.
GT3/4e hatten zwar theoretische (Rohleistungs-)Vorteile, doch Intels Architektur +Treiber haben der ambitionierteren Nugzung dieser GPUs (Gaming, 3D Anwendungen) gleich wieder den Riegel vorgeschoben.
Und eine zwar potente und ausgereifte Grafik mit schwacher CPU von AMD wollte auch keiner.
Also hat sich iGPU == 2D, für Games ungeeignet, im Markt auch ein bisschen durch Intels durchwachsene GPU Lösungen festgesetzt.

Den meisten Konsumenten ist gar nicht bewusst, was ein 12RDNA, 8Zen3 Cores produkt für Thin&Light leisten könnte. Die Ausganglage ist heute von der perspektive eine andere, viele Leute sind im HO, mussten/sind auf Laptops umgestiegen, und wären sicher froh auch ohbe dGPU etwas 3D leistung zu haben.
Nur weil der Markt >GT2 von _Intel_ nicht angenommen hat, bedeutet nicht dass kein Markt für >Vega8 von AMD existiert. Sauberes Gesamtpaket könnte die doch recht häufig vebauten low-end GPUs (gt1030, etc.) obsolet machen.
Mir wärs durchaus einen Aufpreis Wert.
Kabylake G wollte (gemessen am Gesamtmarkt) auch keiner haben. Und das war mit Radeon Grafik.

AMD wird sicherlich auch immer größere Kapazitäten bei TSMC bestellt haben und TSMC baut massiv aus.
Die bauen ja nicht nur für Apple aus.

Apples M1 ist in 5nm auch noch knapp 120mm² groß. Cezanne ist in 7nm "nur" 175mm² groß. Der M1 hat grob 50% mehr Transistoren als Cezanne.

Bisschen wachsen darf Rembrandt schon, man muss ja versuchen mit der Konkurrenz mitzuhalten.

Apple kriegts ja auch irgendwie hin. Und sie haben 1-2 Jahre Vorsprung.
5 nm wird jeder haben wollen. Und man muss sich für AMD mal das upside potential anschauen. Marktanteil bei Epyc ist gerade mal 10%. Da ist noch eine riesen Upside. Marktanteil bei Ryzen und Threadripper ist bei ~20%. Auch da ist noch eine riesen upside. Bei Radeon ist man bei ~25%. Auch noch eine riesen Upside. Da ist viel mehr Upside und Bedarf als man mehr an Kapazität kaufen kann.
Dank der sehr guten Produkte kann man mittlerweile jeden mm² Silizium verkaufen.
Und natürlich wählt man da einen Produktmix der so viel wie möglich Gewinn liefert. APUs sind eher im unteren Mittelbereich was Gewinn pro mm² Wafer angeht.

Locuza

2021-03-05, 16:34:17

Navi23 hat bekanntlich ein 128-Bit GDDR6 Interface, allerdings laut AMD's Treibern nur noch 4MiB große L3$-Tiles pro Speicherkanal.
Bei 8 Channels (8x16-Bit = 128-Bit) wären das nur noch 32MiB:
https://twitter.com/uzzi38/status/1367826488460972037

basix

2021-03-05, 16:50:32

Interessant. Ist aber wohl auch die Erklärung, wie man mit immer noch 32 CUs auf ~240mm2 kommt. Und bei 1080p ("HD" auf der Folie (https://www.hardwareluxx.de/images/cdn01/7F1CF087639E4C8D910AE22C8CFA7BD5/img/35C94090C17B4D9F8F2D5321369B47CF/AMD-Radeon-RX-6000-Series-RDNA2-Deep-Dive-00031_35C94090C17B4D9F8F2D5321369B47CF.jpg)) scheint laut AMD 32 MB recht OK zu sein. Aber auch bei 1440p liegt die Hitrate noch bei ~30% und man erhält dementsprechend effektiv ein ~192b Interface von der Bandbreite her.

davidzo

2021-03-05, 17:00:06

Navi23 hat bekanntlich ein 128-Bit GDDR6 Interface, allerdings laut AMD's Treibern nur noch 4MiB große L3$-Tiles pro Speicherkanal.
Bei 8 Channels (8x16-Bit = 128-Bit) wären das nur noch 32MiB:
https://twitter.com/uzzi38/status/1367826488460972037

Das ist sehr sehr interessant!
Und wir haben uns bisher gefragt wie AMD die Marktsegmentierung vornimmt wenn Navi22 nur 50% der Alus von Navi21 hat und Navi23 immerhin 80% von Navi22.
Am Ende liegt die 6700xt nun viel näher an der 6800 als jeder sich gedacht hat. AMD nimmt bei Navi22 bewusst eine schlechtere Energieefizienz in Kauf, weil das im Performance Marktsegment keine Rolle spielt, wohl aber Diesize und Herstellungskosten.

Ich würde darauf tippen das Navi22 das Gegenteil ist. Ein primär auf mobile optimierter Chip, der im Desktop gar nicht erst mit vollen 32CUs kommt.
Für den Desktop reichen 28CUs + 128bit +32 IF$.

Mit mobile-optimierte Taktraten reicht die Speicherbandbreite mit nur 32MB IF$ ebenfalls, selbst wenn alle 32CUs aktiv sind. Ich könnte mir vorstellen dass die Größe des IFcaches eben doch eine Rolle für den Idle verbrauch spielt und 32mb für 90% der Mobileworkloads ausreichen, so dass das 128bit SI immer erst in games aktiviert wird.

basix

2021-03-05, 17:19:57

N23 sieht für mich "bedarfsgerecht" ausgelegt aus. Von dem her so wie es sein soll.

AMD hat mit RDNA2 ein ziemlich glückliches Händchen, was das Portfolio anbelangt im Vergleich zur Konkurrenz.
-N21 ~GA102 Level und 16 GiB anstatt 10 GiB
-N22 ~GA104 Level und 12 GiB anstatt 8 GiB
-N23 (vermutlich) >GA106 Level, dafür dann nur 8GiB anstatt 12 GiB

Ja, GA102 ist mit der 3090 obenaus noch etwas stärker (dafür auch extrem kostspielig). Der Abstand zwischen Ampere und RDNA2 ist in sehr vielen Bereichen nicht extrem gross (Ausnahmen = DLSS, RT, Productive Compute). RT wird wohl ein Pro Punkt für Nvidia bleiben. Der DLSS Vorteil wird mit FidelityFX SupRes vermutlich stark zusammenschrumpfen.

Wer hätte Gedacht, dass AMD innerhalb so kurzer Zeit so nah an Nvidia rankommt.

KarlKastor

2021-03-05, 19:21:43

Naja, der große DRAM ist auch ein großer Kostenfaktor, also für AMD nicht zwingend positiv. Wenn es die Karten natürlich interessant macht.
Die Performance musste AMD aber auch erreichen, da die GPUs nicht gerade klein sind.
Überraschend ist wirklich der hohe Takt. Mich würde interessieren was Nvidias GPUs auf dem Prozess machen würden. Der Effizienz Unterschied dürfte schon sehr groß sein.

Aber trotzdem ist AMD schon mal gut rangerobbt. Wenn sie wie bei Zen am Ball bleiben, werden die nächsten Jahre interessant.

Was die Abstufungen der GPUs angeht kann ich mir aber immer noch keinen Reim drauf machen.
Ein Navi 22 mit sagen wir 48 CUs hätte die 6800 erreicht und man müsste da nicht den ganz fetten N21 so stark kastrieren. Ich kann mir nicht vorstellen, dass das aus Yield Gründen nötig war.

basix

2021-03-05, 19:39:55

Ja, 48 CU wäre nice gewesen und hätte gut gepasst. Auch gegenüber N23. Naja, ist jetzt so wie es ist.

robbitop

2021-03-05, 19:42:56

Der besonders hohe Takt ist sicherlich nur zu einem kleinen Teil dem 7nm Prozess zuzuschreiben. RDNA2 liegt bei gleichem Prozess ja je nach SKU gute 15-20% in Bezug auf Taktvor RDNA1. Da wurde schon eine ganze Menge am Design gemacht. IIRC hat man da vom CPU Team und deren Erfahrungen profitiert.

RDNA2 ist besser als gedacht. Der RT Hit ist aufgrund des geringeren Grades an FF HW etwas hoch. Ein DLSS Wettbewerber kommt ja noch.
Mit RDNA3 kann man sicherlich erwarten, dass mehr Anteile der FF Pipeline in FF HW gegossen wird.

Der IF$ war offenbar ein guter Tradeoff. Kostet Chipfläche, schaufelt aber offenbar doch eine Menge Energiebudget frei (lokale Daten vs RAM Zugriff). Ein guter Teil der Mehrkosten wird durch das kleinere SI auf Board und GPU (und entsprechend weniger ram bga) wieder eingefangen.

Unterm Strich ein positiver Tradeoff. Würde mich nicht verwundern, wenn die anderen IHVs das auch adoptierten.

Raff

2021-03-05, 20:20:48

Yep, AMD gab auf Nachfrage an, dass man Teile der Pipeline verlängert hat, um den Takt zu erreichen. Das führt zu geringerer Leistung pro Zyklus, fällt aber durch das insgesamt "zackige" Design mit niedrigen Latenzen, nicht zuletzt wegen des Käsches, nicht auf. Unter dem Strich ein echtes Gesamtkunstwerk. Dagegen sieht RDNA 1, der immerhin Turing erreichte und daher für Staunen sorgte, ziemlich alt aus. Navi 1x kann man heute auch niemandem mehr empfehlen, da fehlt einfach zu viel Technik.

MfG
Raff

bbott

2021-03-05, 22:20:37

FidelityFX näher als gedacht?!
https://www.computerbase.de/2021-03/resident-evil-village-amd-radeon-raytracing-rdna-2/

fondness

2021-03-05, 22:21:41

RDNA2 liegt bei gleichem Prozess ja je nach SKU gute 15-20% in Bezug auf Taktvor RDNA1.

Wie kommst du auf 15-20%? Wohl eher 30%+.

w0mbat

2021-03-05, 22:30:11

FidelityFX näher als gedacht?!
https://www.computerbase.de/2021-03/resident-evil-village-amd-radeon-raytracing-rdna-2/
FidelityFX |= DLSS, das gibt es schon eine weile. Du meist wohl FidelityFX SuperSampling.

Raff

2021-03-05, 22:50:50

FidelityFX ist ein Toolset mit mehreren Zutaten (https://gpuopen.com/effects/) - und open-source. Siehe auch Auflistung hier: https://www.pcgameshardware.de/Radeon-RX-6700-XT-Grafikkarte-277204/News/RX-6700-XT-Release-kaufen-1367908/galerie/3485515/

Capcom nutzt einige davon, wird bei CB auch so geschrieben. Die meisten Spiele bedienen sich nur an einem Code-Schnipsel, nämlich FidelityFX CAS, andere implementieren auch Ambient Occlusion (etwa Dirt 5 und WoW).

MfG
Raff

mczak

2021-03-06, 02:56:44

...oder der Betrieb ist allgemein effizienter, z.B. im Office Betrieb.
Ich weiss gar nicht ob da der IF wirklich helfen würde. Heutige eDP Notebook-Displays unterstützen doch alle Panel Self Refresh, bei statischen Inhalten wird also die GPU nicht benötigt um das Bild dauernd vom Speicher zu lesen und auszugeben.

mironicus

2021-03-07, 18:58:28

Super Resolution soll die Performance verdoppeln und auf RDNA1 und RDNA2 laufen.

gcagGbi1FcY

Dampf

2021-03-07, 20:43:32

Super Resolution soll die Performance verdoppeln und auf RDNA1 und RDNA2 laufen.

https://youtu.be/gcagGbi1FcY

Paul hat im Video was wichtiges angesprochen. RDNA1 hat keine INT8/4 Fähigkeit, wenn die FFXSR also wirklich machine learning nutzt, dann wird es schwer sein, es dort zum Laufen zu bringen.

Man könnte dann FP16 nutzen, aber das würde natürlich dann deutlich langsamer laufen, demzufolge muss man das wieder mit einer niedrigeren Qualität ausgleichen.

Am besten man lässt es sein und konzentriert sich voll auf RDNA2. Die RDNA1 Karten haben sowieso kein Leben mehr in sich, da sie keine DX12U-Features können und auch kein Raytracing. Das ist nur alter Elektroschrott, der den Fortschritt aufhaltet, nicht mehr.

Blediator16

2021-03-07, 23:05:41

FidelityFX näher als gedacht?!
https://www.computerbase.de/2021-03/resident-evil-village-amd-radeon-raytracing-rdna-2/

FidelityFX ungleich FidelityFX Super Resolution. FidelityFX gibt es bereits in einigen Spielen.

Edit: wurde bereits geklärt :freak:

Am besten man lässt es sein und konzentriert sich voll auf RDNA2. Die RDNA1 Karten haben sowieso kein Leben mehr in sich, da sie keine DX12U-Features können und auch kein Raytracing. Das ist nur alter Elektroschrott, der den Fortschritt aufhaltet, nicht mehr.

Wäre wohl wirklich das beste.

Savay

2021-03-08, 00:40:00

RDNA1 hat keine INT8/4 Fähigkeit,

Achso?! Lügt AMD oder verwechselt der das mit Vega? :rolleyes:

Whitepaper ab Seite 12.

Vector Execution
(...)
More importantly, the compute unit vector registers
natively support packed data including two half-precision (16-bit) FP values, four 8-bit
integers, or eight 4-bit integers.

Soweit ich weiß gabs da von RDNA1 auf RDNA2 bzw. genauer gesagt von N10 auf N21 eh gar keine wirklich größeren Veränderungen.

Nightspider

2021-03-08, 00:50:55

Yep, AMD gab auf Nachfrage an, dass man Teile der Pipeline verlängert hat, um den Takt zu erreichen.

Kann mir das jemand erklären?

Warum eine längere Pipeline höheren Takt ermöglicht?

Dampf

2021-03-08, 01:23:14

Achso?! Lügt AMD oder verwechselt der das mit Vega? :rolleyes:

Whitepaper ab Seite 12.

Soweit ich weiß gabs da von RDNA1 auf RDNA2 bzw. genauer gesagt von N10 auf N21 eh gar keine wirklich größeren Veränderungen.

Das hat mit Texturen zu tun und ist leicht mit den Instruktionen zu verwechseln, die für ML benutzt werden. Im Whitepaper von RDNA2 wird die Integration von INT8 und INT4 als Neuerung gegenüber RDNA1 behandelt. INT8 und INT4 gibt es erst mit RDNA2 (keine Ahnung was RDNA1.1 sein soll, angeblich hat es was mit der PS5 zu tun?).

https://www.hardwaretimes.com/wp-content/uploads/2020/11/Screenshot_2020-11-18-RDNA-2-questions-areejs12-hardwaretimes-com-Hardware-Times-Mail.png

Brillus

2021-03-08, 02:06:36

Kann mir das jemand erklären?

Warum eine längere Pipeline höheren Takt ermöglicht?
Eine Schaltung besteht grundsätzlich aus 2 Dingern: Flip-Flops das getaktete Speicherzellen sind. Also die 1 mal pro Takt ihren Wert Speichern und ihn halten bis zum nächsten Takt. Und Logikgatter(was man aus boolscher Algebra kennt). Die Logikgattern ändern sich wenn sich die Eingabe ändert. Die haben kei en Takt.

Der maximale Takt ist primär durch die Propagationsgeschwindigkeit zwischen 2 Flip Flops bestimmt. Das heißt jedes Logikgatter zwischen 2 Flip-Flops hat eine bestimmte Zeit die sie braucht um zu schalten.

Um eine Berechnung durchzuführen brauchst du nun eine bestimmte Abfolge an Logikgattern durch die Signale müssen. Längere Pipline heißt einfach mehr Flip-Flops aif dem weg entsprechend gibt es weniger Logikgattern zwischen 2 Flip-Flops und damit geht das schalten schneller zwischen ihnen schneller.

HOT

2021-03-08, 09:03:52

Paul hat im Video was wichtiges angesprochen. RDNA1 hat keine INT8/4 Fähigkeit, wenn die FFXSR also wirklich machine learning nutzt, dann wird es schwer sein, es dort zum Laufen zu bringen.

Man könnte dann FP16 nutzen, aber das würde natürlich dann deutlich langsamer laufen, demzufolge muss man das wieder mit einer niedrigeren Qualität ausgleichen.

Am besten man lässt es sein und konzentriert sich voll auf RDNA2. Die RDNA1 Karten haben sowieso kein Leben mehr in sich, da sie keine DX12U-Features können und auch kein Raytracing. Das ist nur alter Elektroschrott, der den Fortschritt aufhaltet, nicht mehr.
Na ja, mal sehen wieviel Relevanz das für die Praxis hat. Da jetzt sowas abzuleiten ist verfrüht. Wenn AMD das auch für RDNA1 anbietet, dann wird das schon funktionieren, ansonsten hätte man das nicht gemacht ;). Da jetzt nen "Skandal" herbeizudichten ist irgendwie Quatsch. Außerdem kann AMD auch RDNA1 noch 12_2-fähig machen wollen.

Cyberfries

2021-03-08, 09:28:46

N23 sieht für mich "bedarfsgerecht" ausgelegt aus.

N23 ist eben ein Kompromiss, zeigt wo das Korsett zwackt.
Bei 2 CU je WGP und 2Arrays je Shader Engine sind bei 2 SE eben nur 8er-Abstufungen möglich.
Die vlt erwünschten 28 CUs für N23 und 44 CUs für N22 sind da nicht drin.

Mehr als 10 WGP je SE will man eigentlich auch nicht.
N14 fällt gegenüber N10 klar ab und auch die xBox ist nicht das gelbe vom Ei.
Und so landet man schnell bei einem N14-Nachfolger, der flächenmäßig fast bei N10 liegt.
Apropos Fläche, bei N21/N22 passt die Hochrechnung grob, aber bei N23 lande ich bei ca.210mm² statt den tatsächlichen 240.
Wenn kein Rechenfehler vorliegt ... war da nicht mal die Rede von einem Machine Learning Modul? Oder nur bei APUs?

Ich denke die Einschätzung, dass eine N23-Karte (6500xt ?) nur mit 28CUs kommt ist realistisch.
Das ist wohl auch der Punkt, wo man eigentlich hin wollte. Untenrum bleibt dann noch Luft für N24 mit 18-20CUs.
Die Frage ist, wie man SE-SH-WGP-CU dann bei Nachfolgegenerationen löst.
Mehr SEs? Eine andere Aufteilung? Oder findet man einen Weg, viele WGPs je SE besser zu verwalten?

basix

2021-03-08, 10:14:03

Eine Schaltung besteht grundsätzlich aus 2 Dingern: Flip-Flops das getaktete Speicherzellen sind. Also die 1 mal pro Takt ihren Wert Speichern und ihn halten bis zum nächsten Takt. Und Logikgatter(was man aus boolscher Algebra kennt). Die Logikgattern ändern sich wenn sich die Eingabe ändert. Die haben kei en Takt.

Der maximale Takt ist primär durch die Propagationsgeschwindigkeit zwischen 2 Flip Flops bestimmt. Das heißt jedes Logikgatter zwischen 2 Flip-Flops hat eine bestimmte Zeit die sie braucht um zu schalten.

Um eine Berechnung durchzuführen brauchst du nun eine bestimmte Abfolge an Logikgattern durch die Signale müssen. Längere Pipline heißt einfach mehr Flip-Flops aif dem weg entsprechend gibt es weniger Logikgattern zwischen 2 Flip-Flops und damit geht das schalten schneller zwischen ihnen schneller.

Zusatz:
Durch eine längere Pipeline kann man die Arbeit granularer aufbauen und somit Laufzeiten und Synchronisationen genauer aufeinander abstimmen. Ausserdem werden die einzelnen Blöcke wie du sagst einfacher und "kürzer", deswegen geht mehr Takt.

Hier noch etwas (high level) Info dazu:
https://de.wikipedia.org/wiki/Pipeline_(Prozessor)

robbitop

2021-03-08, 11:13:22

Die Frage ist, ob man bei Fidelity FX Superresolution überhaupt auf INT4/8 setzt oder nicht ggf bei 16 bit bleibt. Soweit ich weiß, wird es deutlich herausfordernder ML Modelle mit so geringer Präzision zu bauen, so dass die Resultate zufriedenstellend sind.

Gipsel

2021-03-08, 11:58:32

Die Frage ist, ob man bei Fidelity FX Superresolution überhaupt auf INT4/8 setzt oder nicht ggf bei 16 bit bleibt. Soweit ich weiß, wird es deutlich herausfordernder ML Modelle mit so geringer Präzision zu bauen, so dass die Resultate zufriedenstellend sind.Gab es da nicht mal ein Paper dazu, was hier (bzw. im Technologieforum) schon diskutiert wurde? Ergebnis: Unterschiede sieht man praktisch nicht, aber es ist schneller (wenn die Operationen mit reduzierter Genauigkeit entsprechend schneller abgearbeitet werden). Inference benötigt normalerweise keine hohe Genauigkeit (Training mag anders sein).

Complicated

2021-03-08, 12:12:01

Da kommt doch gar keine KI zum Einsatz
https://www.pcgameshardware.de/AMD-Radeon-Grafikkarte-255597/News/Fidelity-FX-Super-Resolution-wird-Open-Source-1362433/
Im Gegensatz zu Nvidia DLSS setzt AMD bei FSR nicht auf einen KI-Algorithmus. Zudem kann AMDs Lösung plattformübergreifend eingesetzt werden.

Hakim

2021-03-08, 12:12:37

Gerade den Bericht auf CB gelesen wo AMD meint für RT beim neuen Resident Evil eine 6800XT zu benötigen. Das gibt einem schon etwas zu gedenken wenn schon 6800 und 6700xt zu langsam fürs RT sein sollen.

y33H@

2021-03-08, 12:19:41

[...]Woher ist das?

Ravenhearth

2021-03-08, 12:54:01

Ich vermute mal von hier: https://www.hardwaretimes.com/amd-radeon-rdna-2-big-navi-architectural-deep-dive-a-focus-on-efficiency/

w0mbat

2021-03-08, 13:06:45

Gerade den Bericht auf CB gelesen wo AMD meint für RT beim neuen Resident Evil eine 6800XT zu benötigen. Das gibt einem schon etwas zu gedenken wenn schon 6800 und 6700xt zu langsam fürs RT sein sollen.
Das hat CB erfunden, AMD hat nichts dergleichen gesagt. CB macht aus einem "AMD empfiehlt eine RX 6800 XT" einfach "eine RX 6800 XT ist Pflicht". Bringt wohl mehr Klicks.

Linmoum

2021-03-08, 13:15:23

Zumal AMD für non-RT eine 5700 empfiehlt. Nach der Logik ist alles darunter also zu langsam und kaum spielbar.

y33H@

2021-03-08, 13:23:15

Ich vermute mal von hier: https://www.hardwaretimes.com/amd-radeon-rdna-2-big-navi-architectural-deep-dive-a-focus-on-efficiency/Schon klar, aber das PDf oder so ^^

Gipsel

2021-03-08, 13:24:55

Da kommt doch gar keine KI zum Einsatz
https://www.pcgameshardware.de/AMD-Radeon-Grafikkarte-255597/News/Fidelity-FX-Super-Resolution-wird-Open-Source-1362433/Und woanders wurde berichtet, daß AMDs Lösung eventuell auf DirectML aufsetzt. Wobei das noch nicht mal nötig ist. Ein kleines Neuralnetz kann man wohl auch in einen Computeshader packen (und man verläßt sich dann drauf, daß der Treiber die entsprechenden Hints für die benötigte Genauigkeit möglichst gut umsetzt). Die einzige konkrete Aussage von AMD war ja wohl, daß man auf Open Source und offene APIs setzt. Das schließt ein wenig KI nicht unbedingt aus.

mironicus

2021-03-08, 13:27:37

WCtaJwFl5ag

Resizable BAR ist bei NVidia offenbar nur eine Softwarelösung, bei AMD läuft es über die Hardware. Außerdem stellt Igor den generellen positiven Nutzen dar, selbst wenn es mal keine höheren FPS bringt, aber die Frametimes sind nachproduzierbar immer besser, die Mindest-FPS höher.

Savay

2021-03-08, 13:30:51

Das hat mit Texturen zu tun und ist leicht mit den Instruktionen zu verwechseln, die für ML benutzt werden. ]

Was haben die dCUs und Vector Register mit den TMUs zu tun?

https://www.amd.com/system/files/documents/rdna-whitepaper.pdf

Some variants of the dual compute unit expose additional mixed-precision dot-product modes
in the ALUs, primarily for accelerating machine learning inference. A mixed-precision FMA dot2
will compute two half-precision multiplications and then add the results to a single-precision
accumulator. For even greater throughput, some ALUs will support 8-bit integer dot4
operations and 4-bit dot8 operations, all of which use 32-bit accumulators to avoid any
overflows.

Daraus lässt sich m.E. sehr klar schließen, dass es Varianten von RDNA1 aka N1x gibt die das sehr wohl in HW können und das Frontend es grundsätzlich bei allen versteht.

robbitop

2021-03-08, 13:35:39

Die genaue Quelle, wo und was genau Rick Bergman gesagt hat fehlt leider in sämtlichen Artikeln, die im Nov 2020 sagten, dass FSR nicht auf AI basiert. Ich würde gern feststellen, ob es da nicht auch eine Verständnislücke gegeben haben könnte.

@Savay
Wobei das "some ALUs" schon etwas relativierend ist. Also können es nicht alle ALUs. Würde es der Großteil sein, würde es sicherlich heißen "most of the ALUs". Könnte also sein, dass das bloß für die 2x INT Skalar ALUs pro SM gilt. Das ist für den Gesamtdurchsatz dann nicht mehr kriegsentscheidend, wenn es wirklich so gemeint sein könnte.

Savay

2021-03-08, 13:47:47

Da geht es m.E. um die dCUs als ganzes, wovon die "Scalar" ALUs ja eh nur ein kleiner Teil sind...ergo dürfte es da Unterschiede in der Implementation geben.
Jetzt ist nur die Frage welcher Chip welche Fähigkeiten bekommen hat.
Aber AMD wird das sicher schon bedenken wenn und falls die den Support für N1x nachreichen. Immerhin kennen die ihre eigene HW am besten und den Code den die da zusammenbasteln wohl sicher auch.

Die Frage ist eh ob der Gesamtdurchsatz so extrem entscheidend ist, solange der Chip bzw. das Frontend mit den Instruktionen und Datenformaten generell klarkommt, weil man durch die kleinere Auflösung so oder so Zyklen spart und die Frage ja eh noch ist wie gut man das durch Async Compute ggf. sogar noch zusätzlich zu einem gewissen Grad kaschieren kann.

BTW
Die großen V10 und V20 Vega Varianten können ja m.W. auch in HW (RPM u.a.?!) etwas mehr als bspw. die Vega APU Versionen.

amdfanuwe

2021-03-08, 14:26:54

Da wird ja wieder heftig mit KI und ML um sich geworfen, wobei man den Eindruck hat, dass kaum einer Ahnung hat um was es da geht.
Im Prinzip ist ein neuronales Netz nichts anderes als ein digitaler Filter.
ML ist aus einem großen Datensatz die Filterkoeffizienten für den gegebenen Anwendungsfall zu bestimmen.
KI wäre es während der Laufzeit die Filterkoeffizienten anzupassen.
Das ist was ganz böses für einen deutschen Ingenieur da sich das Maschinenverhalten dann nicht exakt vorraussagen läßt und wäre ja auch blöd, wenn sich im Falle von GPUs durch ein Fehllearning zur Laufzeit nur noch Match auf dem Bildschirm erscheint.

Bei den ganzen Bildverbesserungen dürfte es sich also um einen digitalen Filter handeln, dessen Parameter durch ML bestimmt wurden. Digitale Filter und neuronale Netzt lassen sich als Matrix Operationen abbilden. Dabei zeigte sich, dass für neuronale Netze eine 8Bit Codierung der Parameter ausreicht. Wer also 16 oder 32 Bit verwendet, verschwendet etwas mehr Energie.

Da ist nichts magisches dran und vor allem steckt da keine wirkliche KI drin.

Iscaran

2021-03-08, 15:46:14

Da geht es m.E. um die dCUs als ganzes, wovon die "Scalar" ALUs ja eh nur ein kleiner Teil sind...ergo dürfte es da im Unterschiede in der Implementation geben.

Siehe Figure9 im Whitepaper.
Sieht mir eher danach aus als ob das die CUs jede für sich entsprechend kann.
Zumindest mal dot4 und dot8.

Unklar aber was da "for some Navi variants" bedeutet...sind das nur die Konsolenchips und nicht die Original RDNA1 (Navi10?)

Locuza

2021-03-09, 17:11:44

[...]
https://www.amd.com/system/files/documents/rdna-whitepaper.pdf
Daraus lässt sich m.E. sehr klar schließen, dass es Varianten von RDNA1 aka N1x gibt die das sehr wohl in HW können und das Frontend es grundsätzlich bei allen versteht.
Siehe Figure9 im Whitepaper.
Sieht mir eher danach aus als ob das die CUs jede für sich entsprechend kann.
Zumindest mal dot4 und dot8.

Unklar aber was da "for some Navi variants" bedeutet...sind das nur die Konsolenchips und nicht die Original RDNA1 (Navi10?)
Navi10 (GFX1010) unterstützt die Instruktionen nicht, allerdings Navi12 (GFX1012) und Navi14 (GFX1011):
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX1011.html

Bei RDNA2 ist das nun durchgehend ein Standardfeature.

Die Xbox Series X/S unterstützen die Instruktionen ebenso, allerdings bietet die PS5 vermutlich keinen Support dafür.

PS: Vega20 unterstützt die "gleichen" VOP3 encodierten dot-product instructions, Vega10, 12, Raven Ridge, Renoir und Cezanne (soweit ich weiß) tun das nicht.

basix

2021-03-10, 09:30:32

Die Xbox Series X/S unterstützen die Instruktionen ebenso, allerdings bietet die PS5 vermutlich keinen Support dafür.

Wenn das stimmt, ist wohl klar dass AMD nicht auf AI in dem Sinne setzt. AMDs Lösung soll ja auf allen Plattformen nutzbar sein. Hätte vermutlich den positiven Nebeneffekt, dass AMDs SuperResolution auch auf älterer HW laufen könnte (Polaris, APUs, Vega, RDNA1)

robbitop

2021-03-10, 11:29:27

Andererseits kann es eine downside für die Resultate bedeuten. Die temporale Rekonstruktion bei DLSS 2.0 funktioniert ja gerade wegen des NN für das clamping so gut. Temporale Rekonstruktion ohne NN claming gibt es ja verschiedene Verfahren. Und die sind alle wenig vergleichbar was das Endresultat angeht. Die Unreal Engine hat sowas, Insomniac hatte in ihren Spielen so ein Verfahren, Checkerboarding funktioniert praktisch in der Form (auch wenn das Sampling anders funktioniert).
DF hatte mal Checkerboarding mit DLSS 2.0 in Multititeln verglichen. Der Unterschied war schon siginifikant.

Wer weiß: vielleicht findet AMD ohne AI ja ein besseres Verfahren. Es haben schon einige versucht.

Andererseits hat id ihr TSAA auch immer weiter verbessert. In Doom Ethernal ist es schon ziemlich gut. Soweit ich weiß gibt es da auch kein NN für das clamping. Mal schauen.

Ggf. hat man auch Checkerboarding etwas weiterentwickelt. Es bleibt spannend :)

Savay

2021-03-10, 12:40:14

Wenn das stimmt, ist wohl klar dass AMD nicht auf AI in dem Sinne setzt.

Das ist doch quatsch...
Das DNN das DXO in PL4 via DirectML für das Demosaicen und Denoisen von RAWs nutzt läuft bspw. auch bis runter auf Maxwell/Pascal und teilweise noch älter etc. und die können nichtmal RPM.

Zudem könnte man auch unterschiedliche Codepfade nutzen...muss man doch sonst auch oder nicht?
Dann ist der Nettogewinn auf nicht INT8/INT4 fähiger HW halt nur etwas kleiner...falls die es denn überhaupt nutzen.

robbitop

2021-03-10, 12:42:09

Das stimmt. Wobei es dann natürlich auf legacy HW recht langsam sein könnte. Ggf. bis zu dem Punkt an dem es keinen Sinn mehr macht. Es lastet ja die ALUs aus, die auch für das eigentliche Rendering genutzt wird.

Aber Rick Bergman hat anscheinen AI declined. Das ist schon eine sehr solide Quelle da er ein AMD Executive ist.

Complicated

2021-03-10, 12:59:34

Hier könnte AMD gut die ACE-Engines zum Einsatz bringen, die mit GCN eingeführt wurden und möglicherweise besser ausgelastet werden mit einem solchen Compute-typsichen Feature. Da werden die ALUs geschont. Wurde ja häufig für Post-Processing demonstriert.

basix

2021-03-10, 13:25:34

Das ist doch quatsch...
Das DNN das DXO in PL4 via DirectML für das Demosaicen und Denoisen von RAWs nutzt läuft bspw. auch bis runter auf Maxwell/Pascal und teilweise noch älter etc. und die können nichtmal RPM.

Zudem könnte man auch unterschiedliche Codepfade nutzen...muss man doch sonst auch oder nicht?
Dann ist der Nettogewinn auf nicht INT8/INT4 fähiger HW halt nur etwas kleiner...falls die es denn überhaupt nutzen.

Unterschiedliche Codepfade kann man sicher nutzen und wird man auch machen. Nur denke ich nicht, dass es im Interesse von AMD liegt, auf komplett unterschiedliche Formate und allenfalls sogar Algorithmen zu setzen. Zum einen der höhere Wartungs- und Entwicklungsaufwand und zum anderen eine Versplitterung des Marktes, was weder für AMD noch für Spieleentwickler besonders interessant ist: Auf Xbox läuft es so, auf PS5 so und am PC aufgrund der GPU-Vielfalt in zig Varianten? Was ist mit LastGen Consoles mit PS4 und XBone? Auch ohne INT4/8 usw. wird es unterschiedlich auf den verschiedenen Plattformen laufen. Wird es verwendet, wird die Spreizung einfach deutlich grösser. Das ist aber aus AMDs Sicht wohl nicht optimal.

Entweder AMD schränkt sich ein und einzig die PS5 wird wie du beschreibst speziell behandelt (RDNA2+ only; oder gar nur gleichzeitig mit RT) oder man kann sein gesamtes HW-Ökosystem abdecken. Was denkst, hätte AMD lieber? Ersterer Ansatz erlaubt eine höhere Spezialisierung und somit mehr Leistungs- und Qualitätgewinn. Bei letzterem Fall erreicht man den grösstmöglichen Hebel auf Seiten Spieleentwickler (auch LastGen Consoles würden es sehr danken) und DLSS wird mehr oder minder automatisch aussterben, ausser es bestünde ein deutlicher Vorteil irgendeiner Art (Qualität, Performance, ...). Wenn man DLSS in die Zange nimmt, bedrängt man automatisch auch die Tensor Cores und somit auch einiges an Silicon Real Estate des Konkurrenten (Kosten für Nvidia ohne Killer Use-Case = Verschwendung / schlechtere Kostenstruktur).

Nun, was wird schlussendlich verwendet? INT8? FP16? FP32? FP16 via RPM scheint mir am naheliegendsten. Mit RPM sind alle GPUs seit Vega und die PS4 Pro abgedeckt und läuft überall etwa ähnlich schnell. Alle älteren GPUs sind dann einfach nur halb so schnell beim SuperResolution-Algorithmus, haben aber bis auf die LastGen Konsolen nur wenig Marktrelevanz (böse Stimmen könnten nun damit argumentieren, dass all die Mining Polaris-Karten dann weniger Wert wären auf dem Gebrauchtmarkt ;)). FP32 wäre eine Variante, wo keine Architektur spezielle Vorteile hätte --> ausser Nvidias Ampere ;) Also, auch hier ist FP16 die naheliegenste Lösung.

Nächster Punkt sind APUs: Alle GPUs seit Renoir sind Vega und beherrschen somit ebenfalls RPM. Intel beherrscht das erst seit Gen 11 Graphics (Ice Lake). Ist ein Nachteil für Intel, bei neuen CPUs aber nicht mehr vorhanden. Doch: XE beherrscht INT8 Beschleunigung. Setzt AMD also auf INT8: Sie graben ihren eigenen APUs den Boden weg.

Edit zu Pascal:
Pascal beherrscht INT4/INT8 Beschleunigung, aber nur sehr langsames FP16 ;) Nimmt man INT8: Vorteil Nvidia. Nimmt man FP16: Pascal müsste mit FP32 laufen --> Vorteil Vega --> Vorteil Marketing / Image. Und man kreiert eine Gruppe Pascal Nutzer, welche ihre GPU noch lieber upgraden wollen. RDNA2 steht momentan gut am Markt --> Gut für AMD

amdfanuwe

2021-03-10, 13:26:21

Temporale Rekonstruktion ohne NN claming gibt es ja verschiedene Verfahren.
...
Wer weiß: vielleicht findet AMD ohne AI ja ein besseres Verfahren. Es haben schon einige versucht.

Und was macht NN so magisches?
Und wer sagt, das AMD kein NN einsetzt um die entsprechenden Parameter zu finden?
Scheint Nvidia ja echt einen Marketing Erfolg zu haben, dass jeder NN alles zutraut und als was magisches ansieht.
Selbst wenn AMD den selben Algorithmus implementieren würde, würden alle noch auf Nvidia schwören, weil die ja NN nutzen. Aua.

Gipsel

2021-03-10, 13:58:44

Hier könnte AMD gut die ACE-Engines zum Einsatz bringen, die mit GCN eingeführt wurden und möglicherweise besser ausgelastet werden mit einem solchen Compute-typsichen Feature. Da werden die ALUs geschont. Wurde ja häufig für Post-Processing demonstriert.
Die ACEs selber berechnen nichts, die verteilen nur die Arbeit auf die CUs. Die ALUs können also von den ACEs prinzipiell nicht entlastet werden.

basix

2021-03-10, 14:04:54

Die ACEs selber berechnen nichts, die verteilen nur die Arbeit auf die CUs. Die ALUs können also von den ACEs prinzipiell nicht entlastet werden.

Richtig. Vermutlich meinte er, man könnte den Algorithmus parallel laufen lassen. Async Compute ist eine Stärke der AMD GPUs und AMD könnte das zu ihrem Vorteil nutzen.

Iscaran

2021-03-10, 15:12:38

Navi10 (GFX1010) unterstützt die Instruktionen nicht, allerdings Navi12 (GFX1012) und Navi14 (GFX1011):
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX1011.html

Bei RDNA2 ist das nun durchgehend ein Standardfeature.

OK. Interessant - auch wenn ich nicht ganz verstehe wieso hier Navi10 (also gfx1010) das ausgerechnet nicht supporten soll?

Zumal ja nur 2 untergruppen an Zusätzlichen DPP instructions eingebaut werden bei GFX1011 und 1012 gegenüber GFX1010.
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX10.html#dpp16

Kann man denn diese dot2c instruction evtl. irgendwie anders "erstzen" emulieren? Hab da keinen Überblick über solche Details. Die DPP16 Liste bei GFX1010 ist ja recht lang, aber der einzige relevante Detailunterschied scheint sich auf den src0-Teil zu beziehen:

v_dot2c_f32_f16_dpp vdst, vsrc0:f16x2, vsrc1:f16x2 dpp16_ctrl row_mask bank_mask bound_ctrl fi

Alle anderen Teile tauchen auch 1:1 in GFX1010 Befehlssyntax Satz auf - nur diese vsrc0:f16x2 Operation nicht.
Dagegen findet man aber so einige andere vsrc0: operationen...

Möglicherweise könnte man das also 1:1 ersetzen, kostet dann aber evtl. 1 Clockcycle Latenz oder so?

Gipsel

2021-03-10, 16:03:59

OK. Interessant - auch wenn ich nicht ganz verstehe wieso hier Navi10 (also gfx1010) das ausgerechnet nicht supporten soll?

Zumal ja nur 2 untergruppen an Zusätzlichen DPP instructions eingebaut werden bei GFX1011 und 1012 gegenüber GFX1010.
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX10.html#dpp16Verstehe die Frage nicht ganz. Die DPP-Geschichte ermöglicht, Register benachbarter "Threads" als Operanden zu benutzen. Man kann also Werte sharen, ohne local/shared memory zu benutzen.

6.9. Data Parallel Processing (DPP)

Data Parallel ALU operations allow VALU instruction to select operands from different lanes (threads) rather than just using a thread’s own lane. DPP is compatible only with: VOP1 and VOP2. There are no new instructions, but there are two new instruction formats in the form of an extra DWORD of instruction: DPP8 or DPP16.
There are two forms of the DPP instruction word:
DPP8 allows arbitrary swizzling between groups of 8 lanes
DPP16 allows a set of predefined swizzles between groups of 16 lanesDas hat mit der Fähigkeit der ALUs, mit INT8/4-Werten umzugehen und mixed precision dot products zu berechnen, erstmal nichts zu tun.

Complicated

2021-03-10, 17:15:42

Die ACEs selber berechnen nichts, die verteilen nur die Arbeit auf die CUs. Die ALUs können also von den ACEs prinzipiell nicht entlastet werden.Das stimmt, es geht um das Scheduling. Eigentlich werden sie dadurch besser ausgelastet.
Richtig. Vermutlich meinte er, man könnte den Algorithmus parallel laufen lassen. Async Compute ist eine Stärke der AMD GPUs und AMD könnte das zu ihrem Vorteil nutzen.
Das meinte ich. Ich habe mal die Folie raus gekramt:

https://pics.computerbase.de/6/4/0/7/7/5-1080.507571961.pnghttps://pics.computerbase.de/6/4/0/7/7/7-1080.1535412336.png

Gerade für das Post-Processing schienen die ja besonders geeignet zu sein:

https://8images.cgames.de/images/gamestar/226/amd-asynchronous-shader_2622607.jpg

Habe mal direkt bei FidelityFX CAS rein geschaut und eigentlich verwendet AMD das schon bei Fidelity CAS DRS (Dynamic Resolution Scaling). Dort wird das Upscaling dynamisch verwendet für stabile FPS. Ich sehe kein Problem das ganze mit festen Ausflösungen für mehr FPS zu nutzen. Da ist sogar eine detaillierte Powerpointfolie, wo auch Beispiele für die Anwendung Upcaling+CAS zu sehen sind und wie die Compute-Tasks ausgeführt werden, ganz ohne AI ;) mit 32-/16-bit Instruktionen.
https://gpuopen.com/wp-content/uploads/2019/07/FidelityFX-CAS.pptx

Ab Folie 84 werden 4k, upscaling+CAS und ohne CAS verglichen - auf einer RX 5700 XT :)

Iscaran

2021-03-10, 19:54:49

Verstehe die Frage nicht ganz. Die DPP-Geschichte ermöglicht, Register benachbarter "Threads" als Operanden zu benutzen. Man kann also Werte sharen, ohne local/shared memory zu benutzen.

Das hat mit der Fähigkeit der ALUs, mit INT8/4-Werten umzugehen und mixed precision dot products zu berechnen, erstmal nichts zu tun.

Es geht im Kern um die Frage ob Navi10 eben von den mixed precision INT8/INT4 operationen umgehen kann und wieso aber Navi12, 14 sowie alle RDNA2 es können sollen.

Locuza gab daraufhin den Link zu den Instruction codes von LLVM und das es eben genau 2 Einträge zu dot-product (?) operationen gibt die Navi12/14 zusätzlich können.

es geht um diese v_dot2c operationen:
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX1011.html

Beide werden in der Kategorie DPP-Operationen geführt.

Mein Verständisfrage dreht sich nun darum: RDNA1 (Navi10=gfx1010) hat ja schon einen ganzen Haufen DPP Befehle.
Meine Frage war, da ich mit dem Aufbau der Befehlssyntax usw. nicht so viel anfangen kann, inwiefern wäre es denkbar, oder ist es möglich mit dem vorhandenen Instruction sets diese 2 speziellen Operationen "nachzubauen" oder abzubilden und "wieviel" Umweg wäre das ggf.

Denn bis auf Details in den rot-markierten Bereichen im Screenshot. gibt es da kaum Unterschiede?

Scheinbar sind ja diese beiden Zusatzinstruktionen etwas das man für das Fidelity FX Super Resolution wohl brauchen soll...

Gipsel

2021-03-10, 21:03:51

Es geht im Kern um die Frage ob Navi10 eben von den mixed precision INT8/INT4 operationen umgehen kann und wieso aber Navi12, 14 sowie alle RDNA2 es können sollen.

Locuza gab daraufhin den Link zu den Instruction codes von LLVM und das es eben genau 2 Einträge zu dot-product (?) operationen gibt die Navi12/14 zusätzlich können.

es geht um diese v_dot2c operationen:
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX1011.html

Beide werden in der Kategorie DPP-Operationen geführt.

Mein Verständisfrage dreht sich nun darum: RDNA1 (Navi10=gfx1010) hat ja schon einen ganzen Haufen DPP Befehle.
Meine Frage war, da ich mit dem Aufbau der Befehlssyntax usw. nicht so viel anfangen kann, inwiefern wäre es denkbar, oder ist es möglich mit dem vorhandenen Instruction sets diese 2 speziellen Operationen "nachzubauen" oder abzubilden und "wieviel" Umweg wäre das ggf.

Denn bis auf Details in den rot-markierten Bereichen im Screenshot. gibt es da kaum Unterschiede?

Scheinbar sind ja diese beiden Zusatzinstruktionen etwas das man für das Fidelity FX Super Resolution wohl brauchen soll...
Nee, Navi10 fehlen halt alle v_dot* Instruktionen, die diesen mixed Precision-Kram mit reduzierter Genauigkeit machen. Die sind nur bei den kleineren Navi1x (https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX1011.html) und mit RDNA2 an Board. Die DPP-Sachen haben damit wie gesagt erstmal nichts zu tun (gibt zwar diese vier v_dot* Instruktionen, die auch DPP nutzen, aber es gibt eben auch noch 9, die es nicht tun [z.B. alle nichtdestruktiven Varianten und die v_dot8* für die 4 bit breiten UINT4 und INT4 Operanden, von denen es keine DPP-Versionen gibt]).

Navi10 kann einfach keine mixed precision dot products. Fertig.

Iscaran

2021-03-10, 21:56:13

EDIT: ah ... ich sehe meinen Fehler.

Es gibt auch bei gfx1011 und 1012 nur 2 v_dot* instructions...deswegen find ich das ja so etwas befremdlich.

Aber gut. Ist halt so.

mironicus

2021-03-11, 11:22:37

JLEIJhunaW8

Bei NVidia gibt es offenbar einen so starken Driver-Overhead wodurch AMD-GPUs bis zu 20-30% schneller laufen können bei geringeren Auflösungen und nicht so schnellen CPUs.

Gerade deshalb sind die neuen RX6000-Karten inbesonders in 1080P so rasend schnell, da selbst schnelle CPUs mit einer RX3090 in ein Limit kommen können, die bei den AMD-Treibern erst später auftritt und dann können AMD-GPUs in einigen Spielen zweistellige Prozentwerte schneller sein als sie schnellsten NVidia-Karten.

basix

2021-03-11, 22:38:21

Habe mal direkt bei FidelityFX CAS rein geschaut und eigentlich verwendet AMD das schon bei Fidelity CAS DRS (Dynamic Resolution Scaling). Dort wird das Upscaling dynamisch verwendet für stabile FPS. Ich sehe kein Problem das ganze mit festen Ausflösungen für mehr FPS zu nutzen. Da ist sogar eine detaillierte Powerpointfolie, wo auch Beispiele für die Anwendung Upcaling+CAS zu sehen sind und wie die Compute-Tasks ausgeführt werden, ganz ohne AI ;) mit 32-/16-bit Instruktionen.
https://gpuopen.com/wp-content/uploads/2019/07/FidelityFX-CAS.pptx

Ab Folie 84 werden 4k, upscaling+CAS und ohne CAS verglichen - auf einer RX 5700 XT :)

Hatte ich gar nicht mehr auf dem Radar, dass DRS auch dabei war. OK.

Jetzt stellt sich die Frage: Erweitern sie CAS oder gibt es was neues? SuperResolution könnte wie DLSS Bewegungsvektoren und vorhergehende Frames (temporaler Anteil) nutzen. Da sollte auch auf Basis von CAS noch etwas drin liegen. CAS ist ja wirklich nur ein Post Processing Filter.

Iscaran

2021-03-12, 00:31:54

https://youtu.be/JLEIJhunaW8

Bei NVidia gibt es offenbar einen so starken Driver-Overhead wodurch AMD-GPUs bis zu 20-30% schneller laufen können bei geringeren Auflösungen und nicht so schnellen CPUs.

Interessant. Dass ist aber schon extrem wie ausgeprägt das ganze ist, wobei es HWunboxed ja nur bei 2 Spielen getestet hat, könnte also durchaus auch ein Bug sein.

EDIT: Achso, er hat beide mit Framelimiter auf 60 FPS laufen lassen...OK. Ja das zeigt sehr deutlich einen gewissen CPU-Overhead an.
Was mir aber etwas seltsam aufstösst ist, bei Minute 14 rum, zeigt er den CPU/GPU Auslastungsvergleich und KEINE der beiden GPUs ist auch nur annähernd 100% ausgelastet...und die CPUs sind ebenfalls nicht wirklich ausgelastet.

Ein "klassisches" CPU Limit sieht für mich anders aus den im Grund sind hier BEIDE Karten NICHT im GPU-Limit und dennoch läuft das game nicht ordentlich. Könnte auch nur sein, dass da was in den Game Engines kaputt ist, auf das der nVidia-Treiber arg speziell reagiert.

crux2005

2021-03-12, 01:49:21

https://youtu.be/JLEIJhunaW8

Bei NVidia gibt es offenbar einen so starken Driver-Overhead wodurch AMD-GPUs bis zu 20-30% schneller laufen können bei geringeren Auflösungen und nicht so schnellen CPUs.

Gerade deshalb sind die neuen RX6000-Karten inbesonders in 1080P so rasend schnell, da selbst schnelle CPUs mit einer RX3090 in ein Limit kommen können, die bei den AMD-Treibern erst später auftritt und dann können AMD-GPUs in einigen Spielen zweistellige Prozentwerte schneller sein als sie schnellsten NVidia-Karten.

Passt zu meiner Erfahrung mit i7 6700K und RTX 2080.

Dieses Video (HWU verlinkt es auch) erklärt es gut:

nIoZB-cnjc0

Complicated

2021-03-12, 07:40:14

SuperResolution könnte wie DLSS Bewegungsvektoren und vorhergehende Frames (temporaler Anteil) nutzen. Da sollte auch auf Basis von CAS noch etwas drin liegen. CAS ist ja wirklich nur ein Post Processing Filter.
Auch das gibt es ja schon:
CAS was designed to help increase the quality of existing Temporal Anti-Aliasing (TAA) solutions. TAA often introduces a variable amount of blur due to temporal feedback. The adaptive sharpening provided by CAS is ideal to restore detail in images produced after TAA .
Vergleiche mit DLSS auch

https://www.youtube.com/watch?v=F8lCD5iPQiI
https://www.youtube.com/watch?v=7MLr1nijHIo

basix

2021-03-12, 09:04:31

Auch das gibt es ja schon:

Vergleiche mit DLSS auch

https://www.youtube.com/watch?v=F8lCD5iPQiI
https://www.youtube.com/watch?v=7MLr1nijHIo

Ja, das kenne ich.

Aber bekommt der CAS Algorithmus auch temporale Informationen und Bewegungsvektoren? Soweit ich das verstehe, arbeitet allenfalls TAA damit aber CAS nicht. Dem ist es egal, ob es ein statisches Bild ist oder ob von einem Videospiel.
Klar, jetzt kann man sich streiten, ob das dann noch einen Unterschied macht, wenn TAA schon mit temporalen Anteilen arbeitet. Würde mich dennoch interessieren, ob man CAS so verbessern kann.

@CPU Bottleneck Thema:
Hier würden mich noch DX11 Spiele interessieren. Tendenziell sollte hier Nvidia besser wegkommen.

robbitop

2021-03-12, 09:27:55

Ja ich lese aus den Zitaten nicht, dass CAS Zugriff auf Bewegungsvektoren hat. Sondern nur ideal zum Entfernen der inhährenten Unschärfe aus TAA ist.
Würde mich auch sehr wundern. CAS ist IIRC open source und wurde auch in reshade implementiert. Und man kann es AFAIK über so ziemlich jedes Spiel überstülpen. Das wäre wenn es motion vectors bräuchte sicherlich nicht so.

mksn7

2021-03-12, 10:36:53

Passt zu meiner Erfahrung mit i7 6700K und RTX 2080.

Dieses Video (HWU verlinkt es auch) erklärt es gut:

https://youtu.be/nIoZB-cnjc0

Ich widerhole kurz die grundlegende These des Videos, soweit ich sie verstanden habe:

AMD hat mehr scheduling hardware, das ist schnell mit wenig overhead, aber nicht so flexibel. Nvidia macht mehr in software, das hat mehr overhead, aber ist flexibler. Für AMD's hardware ist das serielle draw call submission Modell von DX11 ein schlechter fit, mit DX12 und Vulkan kommt diese hardware viel mehr zum Tragen. Nvidia kann bei DX11 viel flexibler ohne Beteiligung der Entwickler multi threading benutzen.

Diese Aussage mag insgesamt schon so stimmen, das kann ich nicht beurteilen. Zwischendurch ist aber definitiv einiges falsch. Das instruction scheduling auf warp Ebene hat mit der ganzen Thematik nämlich sicherlich nichts zu tun. Da mischt er einiges zusammen was sich ähnlich anhört, aber auf völlig unterschiedlichen Ebenen arbeitet. Und wenn dann, hat GCN das allersimpelste instruction scheduling, nämlich gar keins (für arithmetische Abhängigkeiten).

Complicated

2021-03-12, 11:00:04

Ja ich lese aus den Zitaten nicht, dass CAS Zugriff auf Bewegungsvektoren hat. Sondern nur ideal zum Entfernen der inhährenten Unschärfe aus TAA ist.
Nur finde ich das Ergebnis der Bildqualität teilweise besser als die von DLSS.
Und Upscaling+TAA+CAS reduziert die FPS ebenfalls.
Die Frage ist, was da DLSS anders/besser macht, dass man es als Killerfeature immer wieder nennt. Und vor allem, wie viel Rückstand AMD da tatsächlich hat, wenn man dieses miteinander vergleicht. OpenSource und "Alle Plattformen" stehen da IMHO weit gewichtiger auf der Habenseite, als AI, das nicht besser funktioniert als die klassischen Supersampling Methoden bei der Bildqualität, kombiniert mit Upscaling. Da steht IMHO bei Nvidia lediglich die "Ein-Klick"-Aktivierung und das war es auch schon.

Also welchen Mehrwert bringt der Performancehit von DLSS, wenn der Zugriff auf die Bewegungsvektoren auch nicht bessere Qualität bietet als das zuvor gerenderte Bild bei TAA. Warum sollte Raytracing+Upscaling nicht gleich gut aussehen mit TAA+CAS wie beim Rendering mit Postprocessing?

Fragman

2021-03-12, 11:13:23

Mal als Einwurf weil das hier immer wieder genannt wird und ich meine Beobachtungserfahrung gemacht hab in dem Bereich in dem ich arbeite.
Opensource heisst erst einmal gar nichts. Wichtig ist, wer dahinter steht und mit supported bzw entwickelt und wer es dann auch einsetzt. Amd allein wirds nicht durchdruecken koennen es sei denn es kommt zb in direktx rein oder nv springt mit auf.
Aber mal schauen was sie da haben, vielleicht ist denen mantle 2.0 gelungen (wobei apple diesmal raus ist ;)).

robbitop

2021-03-12, 11:17:24

Nur finde ich das Ergebnis der Bildqualität teilweise besser als die von DLSS.
Und Upscaling+TAA+CAS reduziert die FPS ebenfalls.
Die Frage ist, was da DLSS anders/besser macht, dass man es als Killerfeature immer wieder nennt. Und vor allem, wie viel Rückstand AMD da tatsächlich hat, wenn man dieses miteinander vergleicht. OpenSource und "Alle Plattformen" stehen da IMHO weit gewichtiger auf der Habenseite, als AI, das nicht besser funktioniert als die klassischen Supersampling Methoden bei der Bildqualität, kombiniert mit Upscaling. Da steht IMHO bei Nvidia lediglich die "Ein-Klick"-Aktivierung und das war es auch schon.
Beziehst du dich auf DLSS 2.0+ oder DLSS 1.x?

CAS ist "einfach nur" ein Schärfefilter, der aber adaptiv ist. Content Adaptive Sharpening. Dabei ist die Adaptivität sehr sehr gut. Man kann also insgesamt mehr schärfen, ohne dass ringing/halo Artefakte sichtbar sind.
TAA rekonstruiert zwar mittels temporalen Daten - aber in der Regel ist das Clamping (wichtig für Bewegung) mittels Heuristik implementiert. Dazu kommt, dass es keine höhere Outputresolution generiert. Es es ein Anti Aliasing. Verbessert also den Informationsgehalt pro Pixel.

Upscaling + TAA + CAS erzeugt also eigentlich keine höhere Auflösung. CAS holt einfach nur alles heraus, was machbar ist.

DLSS 2.0 erzeugt hingegen einen höher aufgelösten Framebuffer.
Dass die Implementierungsrichtlinie vorgibt, dass das LoD vom Entwickler anzupassen ist, zeigt, dass es hier einen Schritt weiter geht. Mittels temporalem Jittering nutzt man also temporal vorhandene Daten, um spatiale Auflösung zu rekonstruieren. Es erfindet also keine Information. Es upscaled nicht. Es werden tatsächlich (jedoch temporal) vorhandene Daten genutzt und es wird spatiale Auflösung rekonstruiert.
Das allein ist noch nichts Neues. Checkerboarding tut ja Ähnliches, wenn auch etwas anders. Auch die UE4 hat ein ähnliches Verfahren. Der Unterschied ist jedoch, dass das clamping bei DLSS über ein NN implementiert hat. Und das scheint von der Trefferrate sehr viel besser und konsistenter zu sein als bisherige Heuristiken. Entsprechend aggressiver kann man auch sein was das nutzen der temporalen Informationen angeht.

Ganz Artefaktfrei ist das auch nicht immer. Aber schaut man sich gute Implementierungen an, ist es schon frappierend, wie viel mehr Details entstehen.

In Death Stranding sieht man auf dem Tornister des Protagonisten Details, die so mit der Basisauflösung gar nicht da sind.
In Wolfenstein 2 sieht man in der Ferne mehr Geometriedetails, die man erst mit viel höherer Auflösung erwarten würde. Und das temporal stabil.

Allein daran sieht man intuitiv, dass DLSS 2.0 wirklich Daten nutzt, die vorhanden sind um ein Bild zu rekonstruieren. Das hat mit Upsampling oder Schärfen nicht mehr viel zu tun.

Microsoft hat 2018 in einer Forza Demo mittels DirectML Ähnliches gezeigt. Google Research hatte vor kurzem auch ein ähnliches Projekt mit ähnlichen Ergebnissen gezeigt. Es ist zu hoffen, dass AMD's Superresolution auch in die Richtung geht.

Auch interessant ist id's 8x TSSAA. Das wurde ja von Gen zu Gen immer besser. Das in Doom Ethernal ist IIRC praktisch ghostingfrei, scharf und resolved wirklich mehr Informationen. Statt diese Samples in ein Pixel zu legen, könnte man damit sicherlich auch die Outputresolution erhöhen. Dazu müsste für ideale Ergebnisse aber auch das LoD (sowohl Geometrie als auch Textur LoD) erhöht werden für die Basisauflösung, damit man bestmögliche Ergebnisse erzielt. Offenbar hat Tiago und sein Team das Clamping mittlerweile auch auf andere Höhen gebracht. Wer weiß - ggf. gab es ja einen Austausch mit AMD? :)
Und ggf hat man bei id ja noch mehr in der Pipeline als das was bisher releast ist in der Richtung.

Mal als Einwurf weil das hier immer wieder genannt wird und ich meine Beobachtungserfahrung gemacht hab in dem Bereich in dem ich arbeite.
Opensource heisst erst einmal gar nichts. Wichtig ist, wer dahinter steht und mit supported bzw entwickelt und wer es dann auch einsetzt. Amd allein wirds nicht durchdruecken koennen es sei denn es kommt zb in direktx rein oder nv springt mit auf.
Aber mal schauen was sie da haben, vielleicht ist denen mantle 2.0 gelungen (wobei apple diesmal raus ist ;)).
Mantle ist in Vulkan aufgegangen. Das war eine richtige Entscheidung. Aber ggf meinst du das damit? ;)

Laut AMD will man CAS Superresolution komplett open source machen und keine proprietären IPs nutzen. Das war ein wesentliches Feedback von den Gamestudios. Entsprechend sollte es dann auch auf modernen nicht AMD GPUs laufen und auf den Konsolen. Entsprechend mehr Reichweite haben die Studios, wenn sie das implementieren.

AMD verfolgt diesen Ansatz seit Jahren. Und es macht auch Sinn. Allein bekämen sie keine Standards durchgedrückt. Da fehlt ihnen die Marktmacht. Es ist die einzig sinnvolle Option für AMD.
Und natürlich versuchen sie entsprechende Partner zu finden und zu supporten. War ja bei VESA VRR vs FPGA VRR und vielen anderen Dingen auch so.

vinacis_vivids

2021-03-12, 11:37:00

Ist zwar jetzt off-topic, aber DLSS 2.0 verursacht bei der Kompression des Framebuffers störende Artifakte:

https://www.hardwareluxx.de/community/attachments/20201112011205_1-jpg.548775/

robbitop

2021-03-12, 11:45:22

Kannst du das etwas weiter ausführen? Beziehst du dich auf reguläre Framebuffercompression der GPU? Denn die ist verlustfrei. Woran stellt man fest, dass es die Framebuffercompression diese erzeugt? Man kann sie nicht deaktivieren - entsprechend wäre das schwierig diese These zu validieren.

vinacis_vivids

2021-03-12, 13:11:51

Verlustfrei ;D
Über diesen Begriff muss ich lachen ;D
http://jcgt.org/published/0001/01/02/
Our compression scheme allows a full-color image to be directly rasterized using only two color channels at each pixel, instead of three, thus reducing both the consumed storage space and bandwidth during the rendering process.

Statt drei volle Farbkänle werden halt nur zwei Kanäle pro Pixel berechnet. Das ist eine Reduktion von 33,33% der Daten. Verlustfrei ;D

robbitop

2021-03-12, 13:14:36

Die Hardware Color und Z Compression bei NV und AMD sind verlustfrei komprimiert. Was das Paper, was du da verlinkt hast damit zu tun haben soll, erschließt sich mir nicht. Das hat nichts mit der HW FB Compression zu tun.

vinacis_vivids

2021-03-12, 13:22:38

Es gibt in der Physik,- bzw. Informationstheorie keine verlustfreie Komprimierung. Das was als verlustfrei verkauft wird, ist reines Marketing.
Wenn ein Farbkanal, also eins von drei weggelassen wird, ist es verlustbehaftet. Und nur weil du es mit deinem limitierten Glaubsätzen nicht kennst, heißt es nicht das es das nicht gibt.

amdfanuwe

2021-03-12, 13:38:47

Und nur weil du es mit deinem limitierten Glaubsätzen nicht kennst, heißt es nicht das es das nicht gibt.
Arbeite mal an deinen Glaubenssätzen.

robbitop

2021-03-12, 13:41:34

Es gibt in der Physik,- bzw. Informationstheorie keine verlustfreie Komprimierung. Das was als verlustfrei verkauft wird, ist reines Marketing.
Wenn ein Farbkanal, also eins von drei weggelassen wird, ist es verlustbehaftet. Und nur weil du es mit deinem limitierten Glaubsätzen nicht kennst, heißt es nicht das es das nicht gibt.
https://de.wikipedia.org/wiki/Datenkompression#:~:text=heute%20nicht%20ausbezahlt.-,Verlustfreie%20Kompression,den%20komprimierten%20Daten%20wiederhergestellt%20we rden.

Bei der verlustfreien Kompression können die Originaldaten exakt aus den komprimierten Daten wiederhergestellt werden. Dabei geht keinerlei Information verloren. Im Wesentlichen nutzen verlustfreie Kompressionsverfahren die Redundanz von Daten aus, man spricht auch von Redundanzreduktion.

Die theoretische Grundlage bildet die Informationstheorie (verwandt mit der algorithmischen Informationstheorie). Sie gibt durch den Informationsgehalt eine minimale Anzahl an Bits vor, die zur Kodierung eines Symbols benötigt werden. Verlustlose Kompressionsverfahren versuchen nun Nachrichten so zu kodieren, dass sie sich ihrer Entropie möglichst gut annähern.
usw usf.

Ich verstehe nicht, wie dir diese selbstbewusste Unwissenheit nicht peinlich sein kann. (das platzt gerade aus mir heraus, weil das leider nicht das erste Mal ist in letzter Zeit).

basix

2021-03-12, 13:44:08

Es gibt in der Physik,- bzw. Informationstheorie keine verlustfreie Komprimierung.

What? :conf2: Ich weiss nicht, woher du das hast. Aber es ist definitiv falsch:
Lossless compression techniques, as their name implies, involve no loss of information. If data have been losslessly compressed, the original data can be recovered exactly from the compressed data. Lossless compression is generally used for applications that cannot tolerate any difference between the original and reconstructed data.
https://www.sciencedirect.com/topics/computer-science/lossless-compression
https://en.wikipedia.org/wiki/Lossless_compression

Edit:
robbi war schneller

Leonidas

2021-03-12, 13:50:05

Umfangreiche Rasterizer- und RayTracing-Benchmarks zur Radeon RX 6700 XT aufgetaucht
https://www.3dcenter.org/news/umfangreiche-rasterizer-und-raytracing-benchmarks-zur-radeon-rx-6700-xt-aufgetaucht

RitterRost

2021-03-12, 14:03:09

Es gibt in der Physik,- bzw. Informationstheorie keine verlustfreie Komprimierung. Das was als verlustfrei verkauft wird, ist reines Marketing.
Wenn ein Farbkanal, also eins von drei weggelassen wird, ist es verlustbehaftet. Und nur weil du es mit deinem limitierten Glaubsätzen nicht kennst, heißt es nicht das es das nicht gibt.

Bitte ein .ZIP Archiv auspacken!

Gipsel

2021-03-12, 14:24:22

Ist zwar jetzt off-topic, aber DLSS 2.0 verursacht bei der Kompression des Framebuffers störende Artifakte:

https://www.hardwareluxx.de/community/attachments/20201112011205_1-jpg.548775/Mal korrigiert.
Meinst Du diese komischen Muster im Hintergrund an den Bergen? Egal, was auch immer Du meinst, es hat - wie robbitop schon bemerkte - mit Framebufferkompression nichts zu tun.
PS: Informationsmenge ist nicht gleich Datenmenge.

aufkrawall

2021-03-12, 14:54:25

Beziehst du dich auf DLSS 2.0+ oder DLSS 1.x?

Bei ihm kann AMD immer alles schon seit Jahren. Entweder wirft er regelmäßig alles unsinnig durcheinander, oder er will einfach nur Fake News verbreiten.
Leider wird dein gut gemeinter längerer Beitrag da entsprechend absolut 0 fruchten und in ein paar Wochen/Monaten macht er es wieder...

fondness

2021-03-12, 15:29:55

AMD verfolgt diesen Ansatz seit Jahren. Und es macht auch Sinn. Allein bekämen sie keine Standards durchgedrückt. Da fehlt ihnen die Marktmacht. Es ist die einzig sinnvolle Option für AMD.

AMD könnte genauso Studios dafür zahlen, dass sie ihren proprietären Mist einbauen. Sie verfolgen nur diese Assi Taktik nicht.

Oder glaubst du ernsthaft irgendein Studio ist besonders erfreut darüber, wieder irgendeinen proprietären Mist von Nvidia einbauen zu dürfen? Ich bitte dich, das ist eine rein betriebswirtschaftliche Rechnung.

robbitop

2021-03-12, 16:15:23

AMD könnte genauso Studios dafür zahlen, dass sie ihren proprietären Mist einbauen. Sie verfolgen nur diese Assi Taktik nicht.

Oder glaubst du ernsthaft irgendein Studio ist besonders erfreut darüber, wieder irgendeinen proprietären Mist von Nvidia einbauen zu dürfen? Ich bitte dich, das ist eine rein betriebswirtschaftliche Rechnung.
Es ist Kalkül von NV. Ihr Ziel ist customer retention. Je mehr proprietäres Zeug verbreitet wird, was den Endkunden das Gefühl von Mehrwert liefert, was man aber nur bei NV bekommen kann, desto langfristiger bindet man den Kunden. Und es führt auch noch dazu, dass man mehr Kunden bekommt und man seine Preise steigern kann. Also mehr Marge und mehr Umsatz.

Dank der Marktmacht und des Cashbestandes ist das für NV deutlich leichter als für AMD.

Ja AMD macht das sicherlich zusätzlich dazu auch aus der eigenen moralischen Vorstellung heraus auch nicht. Aber selbst wenn morgen Jensen AMD CEO wäre, würde er es massiv schwieriger haben, mit AMD das genauso erfolgreich umzusetzen.

Am Ende können wir als Endkunden froh sein, dass es AMD gibt. Ansonsten hätten uns so viele proprietäre Features ohne offene Alternative schon überrannt, so dass es keine sinnvolle Alternative mehr gäbe.

Ein gesunder Wettbewerb ist das Ziel. :)

Lurtz

2021-03-12, 16:23:46

Es gibt in der Physik,- bzw. Informationstheorie keine verlustfreie Komprimierung. Das was als verlustfrei verkauft wird, ist reines Marketing.
:facepalm:

Bitte pack das in deine Signatur, dann kann man sich weitere Diskussionen sparen.

AlterSack

2021-03-12, 17:31:47

Ansonsten hätten uns so viele proprietäre Features ohne offene Alternative schon überrannt, so dass es keine sinnvolle Alternative mehr gäbe.

Na schön, wenn "Mutti" nicht mehr im Kanzleramt sitzt,
wird sie CEO bei NV und verkauft deren Kram als "alternativlos".
Das ist das, was sie am besten kann. :eek:

davidzo

2021-03-12, 17:48:27

Es gibt in der Physik,- bzw. Informationstheorie keine verlustfreie Komprimierung. Das was als verlustfrei verkauft wird, ist reines Marketing.
Wenn ein Farbkanal, also eins von drei weggelassen wird, ist es verlustbehaftet. Und nur weil du es mit deinem limitierten Glaubsätzen nicht kennst, heißt es nicht das es das nicht gibt.

:facepalm:

Bitte pack das in deine Signatur, dann kann man sich weitere Diskussionen sparen.

:up: Made my day :lol:

Dural

2021-03-12, 17:53:30

AMD verfolgt diese Richtung weil sie gar keine andere Möglichkeit haben, keine Marktmacht und kein Geld dafür.

Und was dran schlecht sein soll das NV richtig viel Geld für ihre Kunden investiert soll mir hier mal einer genau erklären. Das es für NV finanziell lohnt liegt in der Sache der Natur, sonst würden sie es ja auch nicht machen... :rolleyes:
Keine Aktien Firma der Welt würde von sich aus alleine Geld in was stecken wodurch Konkurrenz Firmen profitieren würden, ihr geht ja auch nicht auf die Strasse und verteilt Gratis Smartphones...

dargo

2021-03-12, 17:57:03

Umfangreiche Rasterizer- und RayTracing-Benchmarks zur Radeon RX 6700 XT aufgetaucht
https://www.3dcenter.org/news/umfangreiche-rasterizer-und-raytracing-benchmarks-zur-radeon-rx-6700-xt-aufgetaucht
Hieß es nicht von Dural N21 im Vollausbau erreicht höchstens die RTX 3070? :D

Es ist Kalkül von NV. Ihr Ziel ist customer retention. Je mehr proprietäres Zeug verbreitet wird, was den Endkunden das Gefühl von Mehrwert liefert, was man aber nur bei NV bekommen kann, desto langfristiger bindet man den Kunden. Und es führt auch noch dazu, dass man mehr Kunden bekommt und man seine Preise steigern kann. Also mehr Marge und mehr Umsatz.

Dann soll die Lederjacke eine brauchbare Konkurrenz zur XBox und Playstation rausbringen! Dort kann er sich mit seinem proprietären Mist voll austoben. Beim PC-Gaming hat dieser Mist nichts verloren, völlig bescheuerte Marktspaltung! Noch besser wäre es wenn endlich auch Intel bei dGPUs ernsthaft mitspielen würde. Dann gäbe es imo noch weniger von diesem proprietären Schwachfug. Irgendwann zeigen dir die DEVs den Vogel.

Gipsel

2021-03-12, 18:01:57

Und was dran schlecht sein soll das NV richtig viel Geld für ihre Kunden investiert soll mir hier mal einer genau erklären.Was für den Kunden mittel- und langfristig gut daran sein soll, daß eine Firma einen marktfeindlichen Vendor-Lock-in mit einer Menge proprietärer Features (für die es alternativ auch eine offene Herangehensweise gäbe) befeuert, soll Dural hier mal genau erklären. :rolleyes:

w0mbat

2021-03-12, 18:15:57

AMD verfolgt diese Richtung weil sie gar keine andere Möglichkeit haben, keine Marktmacht und kein Geld dafür.
Ich glaub du hast die letzten 4 Jahre verpasst. :freak:

HOT

2021-03-12, 18:38:53

Hieß es nicht von Dural N21 im Vollausbau erreicht höchstens die RTX 3070? :D

Dann soll die Lederjacke eine brauchbare Konkurrenz zur XBSX und PS5 rausbringen! Dort kann er sich mit seinem proprietären Mist voll austoben. Beim PC-Gaming hat dieser Mist nichts verloren, völlig bescheuerte Marktspaltung! Noch besser wäre es wenn endlich auch Intel bei dGPUs ernsthaft mitspielen würde. Dann gäbe es imo noch weniger von diesem proprietären Schwachfug. Irgendwann zeigen dir die DEVs den Vogel.
Zumal Intel auch gern echte Standards setzt, denke ich auch, dass das ne Bereicherung sein wird.

Distroia

2021-03-12, 19:33:28

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Winzip kann man seit Ewigkeiten kostenlos benutzen, weil die genau wissen, dass keiner für den Mist bezahlen würde und deshalb versuchen die auch so verzweifeln uns ihre Lizenzen anzudrehen, für ein Programm, das man sowieso kostenlos nutzen kann. Reinstes Marketing.

Complicated

2021-03-12, 19:44:44

Beziehst du dich auf DLSS 2.0+ oder DLSS 1.x?

[...]
Upscaling + TAA + CAS erzeugt also eigentlich keine höhere Auflösung. CAS holt einfach nur alles heraus, was machbar ist.

DLSS 2.0 erzeugt hingegen einen höher aufgelösten Framebuffer.

Das ist richtig. Doch wofür wird der höher aufgelöste Framebuffer verwendet? Um das Sampling abzugreifen von angelernten KI-Algorithmen und über die niedriger aufgelöste tatsächliche Renderauflösung zu legen. Der höher aufgelöste am Ende ausgegebene Framebuffer hat bei Ausgabe auch nicht die selben Bildinformationen wie nativ 4K. Hier unterscheidet es sich doch lediglich wo das Upscaling stattfindet in der Pipeline. Am Ende gibt AMD ebenso wie Nvidia ein niedriger gerendertes Bild in 4K aus+Bildverbesserung. Bisher sehen für mich die DLLS 2.0 Bilder nicht immer besser aus, als die CAS/TAA Bilder von AMD. Und wenn AMD hier noch ein paar Tricks aus dem Ärmel schütteln kann aus der Architektur, wird das bei Raytracing auch funktionieren.

Nakai

2021-03-12, 20:26:57

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Winzip kann man seit Ewigkeiten kostenlos benutzen, weil die genau wissen, dass keiner für den Mist bezahlen würde und deshalb versuchen die auch so verzweifeln uns ihre Lizenzen anzudrehen, für ein Programm, das man sowieso kostenlos nutzen kann. Reinstes Marketing.

:facepalm:

robbitop

2021-03-12, 20:27:44

Ja. Es hat nicht dieselben Informationen. Es kann zu Artefakten kommen. Es kann aber auch hin und wieder besser aussehen.
Mit Upsampling hat das aber nichts zu tun. Es ist viel eher eine Art Checkerboarding mit viel viel besserem Clamping.

Upscaling kann keine Geometriedetails erzeugen und grundsätzlich keime Ddetails die nicht da sind. Mit Rekonstruktion geht das, weil die Daten ja temporal vorhanden sind. Das sind so sehr zwei verschiedene paar Schuhe.

DLSS 2.0 ist vom Endergebnis sehr sehr stark davon abhängig wie gut es implementiert wurde. Da gibt es ein paar schlechte Implementierungen, viele mittelmäßige und ein paar richtig gute. Die Wahrscheinlichkeit ist relativ hoch dass die Konsistenz und durchschnittliche Güte über die Zeit besser wird, da mehr Erfahrungen gesammelt werden.

Die richtig guten Implementierungen zeigen das Potenzial von sehr guter Temporaler Rekonstruktion. Da sieht es im quality mode so gut oder besser aus als nativ. Es zeigt Details die mit der Basisauflösung unmöglich wären.
Das macht schon Sinn. Und da steckt noch eine Menge Potenzial drin. Ich bin mir intuitiv sicher, dass ähnliche Verfahren mittelfristig der neue Standard werden.
Auch auf Konsolen und mobile Konsolen. Es reduziert, wenn gut implementiert, den Rechenaufwand pro BQ einfach zu sehr.
Und ich kann mir gut vorstellen, dass es basierend auf dem jetzt bekannten Level von DLSS 2.0 noch einiges an Luft nach oben. Und das meine ich nicht im Bezug auf NVs Verfahren sondern im Allgemeinen.

gurgelhals

2021-03-12, 20:29:30

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Winzip kann man seit Ewigkeiten kostenlos benutzen, weil die genau wissen, dass keiner für den Mist bezahlen würde und deshalb versuchen die auch so verzweifeln uns ihre Lizenzen anzudrehen, für ein Programm, das man sowieso kostenlos nutzen kann. Reinstes Marketing.

Meine Damen und Herren, hier ist die neue Messlatte für unqualifizierte Beiträge.

aufkrawall

2021-03-12, 20:36:23

Die Wahrscheinlichkeit ist relativ hoch dass die Konsistenz und durchschnittliche Güte über die Zeit besser wird, da mehr Erfahrungen gesammelt werden.

Bislang wurde es nach der ersten Implementierung in YB offenbar höchstens schlechter statt besser.

gedi

2021-03-12, 20:37:38

Ja. Es hat nicht dieselben Informationen. Es kann zu Artefakten kommen. Es kann aber auch hin und wieder besser aussehen.
Mit Upsampling hat das aber nichts zu tun. Es ist viel eher eine Art Checkerboarding mit viel viel besserem Clamping.

Upscaling kann keine Geometriedetails erzeugen und grundsätzlich keime Ddetails die nicht da sind. Mit Rekonstruktion geht das, weil die Daten ja temporal vorhanden sind. Das sind so sehr zwei verschiedene paar Schuhe.

DLSS 2.0 ist vom Endergebnis sehr sehr stark davon abhängig wie gut es implementiert wurde. Da gibt es ein paar schlechte Implementierungen, viele mittelmäßige und ein paar richtig gute. Die Wahrscheinlichkeit ist relativ hoch dass die Konsistenz und durchschnittliche Güte über die Zeit besser wird, da mehr Erfahrungen gesammelt werden.

Die richtig guten Implementierungen zeigen das Potenzial von sehr guter Temporaler Rekonstruktion. Da sieht es im quality mode so gut oder besser aus als nativ. Es zeigt Details die mit der Basisauflösung unmöglich wären.
Das macht schon Sinn. Und da steckt noch eine Menge Potenzial drin. Ich bin mir intuitiv sicher, dass ähnliche Verfahren mittelfristig der neue Standard werden.
Auch auf Konsolen und mobile Konsolen. Es reduziert, wenn gut implementiert, den Rechenaufwand pro BQ einfach zu sehr.
Und ich kann mir gut vorstellen, dass es basierend auf dem jetzt bekannten Level von DLSS 2.0 noch einiges an Luft nach oben. Und das meine ich nicht im Bezug auf NVs Verfahren sondern im Allgemeinen.

:rolleyes:

Sunrise

2021-03-12, 21:23:02

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Winzip kann man seit Ewigkeiten kostenlos benutzen, weil die genau wissen, dass keiner für den Mist bezahlen würde und deshalb versuchen die auch so verzweifeln uns ihre Lizenzen anzudrehen, für ein Programm, das man sowieso kostenlos nutzen kann. Reinstes Marketing.
Du nimmst uns auf den Arm, oder? Immer diese Freitage...

M4xw0lf

2021-03-12, 21:32:46

Hier müssen dringend ein paar Ironiedetektoren nachjustiert werden.

Distroia

2021-03-12, 21:41:31

:facepalm:
Meine Damen und Herren, hier ist die neue Messlatte für unqualifizierte Beiträge.

Wahrscheinlich habt ihr für Winzip bezahlt und versucht jetzt euren Kauf zu rechtfertigen.

Ich habe es gerade nochmal mit mehreren Programmen getestet. Programm komprimiert, dekomprimiert und wieder gestartet. Fast alle Features waren verschwunden!

Hier ein paar Beispiele:

Photoshop:

https://i.ibb.co/VTgGv3T/Capture2.png

MS Word:
https://i.ibb.co/GVkbFKD/Capture3.png

Tomb Raider:

Einfach so die Kleidung wegkomprimiert!

Naja, glaubt doch, was ihr wollt, ist mir auch egal. Ich geh jetzt Tomb Raider spielen.

Piefkee

2021-03-12, 21:45:31

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Winzip kann man seit Ewigkeiten kostenlos benutzen, weil die genau wissen, dass keiner für den Mist bezahlen würde und deshalb versuchen die auch so verzweifeln uns ihre Lizenzen anzudrehen, für ein Programm, das man sowieso kostenlos nutzen kann. Reinstes Marketing.

Hahaha... ich hoffe der Post purer Sarkasmus

x-force

2021-03-12, 23:21:02

Hahaha... ich hoffe der Post purer Sarkasmus

nachdem lutschpuppe hier aufgetaucht und noch nicht gesperrt ist, wäre ich mir da nicht so sicher :rolleyes:

Dino-Fossil

2021-03-13, 00:43:21

Wahrscheinlich habt ihr für Winzip bezahlt und versucht jetzt euren Kauf zu rechtfertigen.

Ich habe es gerade nochmal mit mehreren Programmen getestet. Programm komprimiert, dekomprimiert und wieder gestartet. Fast alle Features waren verschwunden!

Endlich spricht es mal einer aus!

-/\-CruNcher-/\-

2021-03-13, 03:47:09

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Winzip kann man seit Ewigkeiten kostenlos benutzen, weil die genau wissen, dass keiner für den Mist bezahlen würde und deshalb versuchen die auch so verzweifeln uns ihre Lizenzen anzudrehen, für ein Programm, das man sowieso kostenlos nutzen kann. Reinstes Marketing.

Wahrscheinlich habt ihr für Winzip bezahlt und versucht jetzt euren Kauf zu rechtfertigen.

Ich habe es gerade nochmal mit mehreren Programmen getestet. Programm komprimiert, dekomprimiert und wieder gestartet. Fast alle Features waren verschwunden!

Hier ein paar Beispiele:

Photoshop:

https://i.ibb.co/VTgGv3T/Capture2.png

MS Word:
https://i.ibb.co/GVkbFKD/Capture3.png

Tomb Raider:
Einfach so die Kleidung wegkomprimiert!

Naja, glaubt doch, was ihr wollt, ist mir auch egal. Ich geh jetzt Tomb Raider spielen.

Da ist ja der verschwundene Computerbild Redakteur :D

Leonidas

2021-03-13, 03:52:54

Bedeutet das, dass die CDU/CSU das Datenmaterial zu allen deren Schmiergeldaffären nur einmal zippen muss, damit es nachher nur noch unzusammenhängenden Datenschrott gibt, wo alle wichtigen Beweise verkomprimiert und damit unnutzbar wurden? Wenn das nur jemand der CDU/CSU sagen könnte!

robbitop

2021-03-13, 12:02:12

:rolleyes:

Guter Beitrag :up:

Zossel

2021-03-13, 12:13:04

Ihr habt doch alle keine Ahnung von Kompression. Ich lade zum Beispiel grundsätzlich keine gezippten Programme runter, weil durch die Verluste bei der Kompression Funktionen der Programmen hinterher einfach weg sind. Im schlimmsten Fall merkt man nicht mal, dass das an der Kompression lag und weiß nicht, warum da Funktionen fehlen.

Wenn man mal ein bisschen drüber nachdenkt, sollte einem auch klar werden, dass das in der Physiktheorie auch gar nicht möglich ist, weil Energie nicht verschwinden, sondern nur in andere Energieformen umgewandelt werden kann und laut Informationstheorie sind Informationen auch nichts anderes als Energie.

Dann hast du ja bestimmt ein Beispiel parat.

w0mbat

2021-03-13, 12:21:12

Hat er doch gebracht. Ist jetzt auch nichts neues, das Zippen Daten kaputt macht.

robbitop

2021-03-13, 13:23:29

Nicht jeder versteht Sarkasmus ohne Emojiis. Manch einer nimmt das noch für bare Münze ;)

Distroia

2021-03-13, 18:04:38

Jetzt hat die Winzipmafia schon meinen Tomb Raider Screenshot löschen lassen. Da möchte wohl jemand nicht, dass die Wahrheit ans Licht kommt. :mad:

mironicus

2021-03-13, 18:41:04

Die neueste Version von GPU Z 2.38 zeigt jetzt an ob Resizable BAR an ist.
https://www.pcgameshardware.de/GPU-Z-Software-255577/News/Update-bringt-Erkennung-von-Resizable-BAR-1368544/

dargo

2021-03-13, 18:47:55

Passt. :)

https://abload.de/img/same1jfr.gif