Diskussion zu: Hardware- und Nachrichten-Links des 14. August 2020 [Archiv]

Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Hardware- und Nachrichten-Links des 14. August 2020

Leonidas

2020-08-15, 12:24:42

Link zur News:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-14-august-2020

Complicated

2020-08-15, 13:50:09

Denkbar im übrigen, dass GDDR6X von Seiten des Grafikchips sogar etwas energieeffizienter sein könnte: Die Datenrate steigt zwar, aber die Taktrate des ankommenden Signals ist beachtbar niedriger – und die ganz hohen Taktraten waren noch nie gut für den Stromverbrauch von GDDR-Interfaces.HBM2E ist um 17% Energieeffizienter pro transferiertes bit, bei 2,5x Datenrate, laut der Micron-Quelle.

Zergra

2020-08-15, 13:57:30

Das wäre relativ wenig... kein Wunter das HBM sich nicht im Markt durchsetzt. Dazu noch der höhere Preis.

Gast

2020-08-15, 13:59:19

Dies macht augenscheinlich zwar nichts einfacher (der Aufwand für GDDR6X auf den entsprechenden Platinen soll letztlich sogar höher liegen), aber dies ergibt erhebliche Reserven für die Zukunft – man denke an GDDR6X mit Taktraten von bis zu 3000 MHz

Unwahrscheinlich. Es hat seinen Grund, warum man fast überall immer noch auf rein binäre Übertragung bzw. Speicherung setzt, und das ist die extrem gute Stabilität.

Wenn man 4 Zustände unterscheiden muss, muss die Signalintegrität um einiges besser sein als nur bei 2 Zuständen, womit man mit 2 Zuständen bei gleicher physikalischer Technologie immer wesentlich höhere Taktraten erreichen wird können.

Interessant finde ich übrigend das Schaubild zur Effizienz.
https://images.anandtech.com/doci/15978/MicronPower2.png

Wie man sieht fehlt GDDR6X eigentlich nichts mehr auf HBM2, HBM2e zeigt zwar Vorteile aber durchaus im überschaubaren Rahmen. Die extremen Vorteile in der Energieeffizienz die beim Start von HBM prognostiziert wurden scheinen sich auf Dauer nicht zu bewahrheiten, was wohl auch der Grund ist warum man im Consumersegment weiter, bzw. bei AMD wieder auf GDDR setzt und nicht versucht HBM zu pushen um die Kostennachteile zu reduzieren.

Der Abstand schein eher wieder zu schrumpfen, HBM hatte eigentlich als HBM1 gegenüber der damaligen GDDR Technik die größten Vorteile.

Complicated

2020-08-15, 14:08:52

Das wäre relativ wenig... kein Wunter das HBM sich nicht im Markt durchsetzt. Dazu noch der höhere Preis.
Bei 2,5 facher Datenrate? Das nennst du relativ wenig?
Wieviel Strom frisst GDDR6X um die selbe Datenrate zu erreichen?->2,5 fache Bestückung+SI +17%
=> Überschlagen ca. 400% mit den gelisteten Komponenten angenommen und 2,5 mal mehr Speicher erkauft.
Der höhere Packaging-Preis für HMB2E ist dann kein Nachteil mehr, wenn die Bandbreite zwingend nötig ist. Es gibt da einen Breakeven, wo die Balance eben kippt.

Iscaran

2020-08-15, 14:23:59

Ich glaube nicht das wir 24 GB bei einer RTX3090 sehen werden.

Ich glaube es wird 12 GB geben...oder vielleicht 15 oder 18 (sofern das mit 384 Bit SI realisierbar wäre) ? Aber mehr sicher nicht.

Leonidas

2020-08-15, 14:43:45

..oder vielleicht 15 oder 18 (sofern das mit 384 Bit SI realisierbar wäre)?

Nein. Nur bei 1,5-GByte-Chips, die aber keiner auflegt.

Cyberfries

2020-08-15, 15:05:29

Amd schafft bei der xBox auch 16GB an einem 320bit-Interface.
nVidia ist ähnliches zuzutrauen, wenn auch eher unwahrscheinlich.

Leonidas

2020-08-15, 15:09:28

Ich glaube nicht, das man solche Misch-Speicherbandbreiten im Grafikkarten-Geschäft macht. Bei der Konsole, die ja auch CPU-Aufgaben lösen muß, geht das, aber bei reinen Grafikkarten ist es kontraproduktiv. Technisch machbar, aber eher unsinnig.

Complicated

2020-08-15, 15:16:03

Cyberfries

2020-08-15, 15:22:43

Problem war bei der 970, dass man es nicht bekannt gegeben hat.
Ich denke wenn nVidia das gut verkauft...
Viel zu viele Menschen mit denen ich mich persönlich unterhalten habe, haben nVidia für ihre 970er-Lüge auch noch gefeiert.

Aber wie gesagt, ich halte so etwas auch für eher unwahrscheinlich.

Berniyh

2020-08-15, 16:14:36

Wie man sieht fehlt GDDR6X eigentlich nichts mehr auf HBM2, HBM2e zeigt zwar Vorteile aber durchaus im überschaubaren Rahmen. Die extremen Vorteile in der Energieeffizienz die beim Start von HBM prognostiziert wurden scheinen sich auf Dauer nicht zu bewahrheiten, was wohl auch der Grund ist warum man im Consumersegment weiter, bzw. bei AMD wieder auf GDDR setzt und nicht versucht HBM zu pushen um die Kostennachteile zu reduzieren.

Der Abstand schein eher wieder zu schrumpfen, HBM hatte eigentlich als HBM1 gegenüber der damaligen GDDR Technik die größten Vorteile.
Naja, GDDR ist State-of-the-Art, da wird deutlich mehr an Entwicklungskosten investiert und trotzdem sind die Sprünge ziemlich klein zwischen den gezeigten Generationen.
Dazu kommt, dass bei GDDR auch meistens die aktuellsten Chips relativ schnell in Devices umgesetzt werden, was bei HBM (derzeit) noch nicht der Fall ist.

Und zu guter letzt steht ja auch die Welt um HBM nicht still, sondern entwickelt sich weiter.

Lehdro

2020-08-15, 17:58:14

Naja bei der GTX 970 hat Nvidia ja was unorthodoxes probiert um 3,5 GB auf 4 GB "aufzubessern" - wie das ausgegangen ist weiss man ja. Ein zweites mal werden Sie da nicht viel verkaufen, da die Leute schon genauer auf die Anbindung des GPU-Speichers schauen, seit der Aktion.
Und 2 Jahre vorher haben sie das auch schon einmal gebracht (https://www.computerbase.de/2012-09/test-nvidia-geforce-gtx-660/), kommuniziert(!), und siehe da es kam positiv an. Eine Mischbestückung ist einer Unterbestückung immer vorzuziehen, selbst wenn es potenziell Performance kostet. Aber immerhin keinen kompletten Einbruch wie bei akutem Speichermangel.

MasterElwood

2020-08-15, 18:47:19

Eine Mischbestückung ist einer Unterbestückung immer vorzuziehen, selbst wenn es potenziell Performance kostet. Aber immerhin keinen kompletten Einbruch wie bei akutem Speichermangel.

Seh ich genauso - solange der Treiber den langsamen Speicher WIRKLICH nur angreift wenn es sein MUSS.

Complicated

2020-08-15, 19:01:13

Gast

2020-08-15, 21:30:45

Was hat es der 970 gebracht. Als WIRKLICH auf die zusätzlichen 0,5 GB zugegriffen wurde ist alles eingebrochen. Das war in jedem Review zu sehen. Also als Placebo brauch ich mehr Speicher nicht, damit ich mich gut fühle solange er nicht gebraucht wird. Und wenn er gebraucht wird das ganze ausbremst.

Die 0,5GB waren sogar sehr intelligent, das ist ungefähr der Speicher den der Windows Desktop bei einer üblichen Anzahl offener Fenster braucht, und die kann man gerne darin ablegen.

Abgesehen davon hat der Großteil immer noch nicht verstanden, dass bei der 970 der komplette Speicher voll angebunden war. Das Problem der 970 war/ist dass nicht der volle L2 Cache zur Verfügung steht, und was das noch schlimmer gemacht hat war, dass dieser L2 Cache konzentriert in einem Speicherkanal deaktiviert war, so dass dieser nur die Hälfte hatte, während alle anderen Speicherkanäle weiterhin den vollen Cache hatten.

Gast

2020-08-15, 23:19:11

Bei 2,5 facher Datenrate? Das nennst du relativ wenig?
Wieviel Strom frisst GDDR6X um die selbe Datenrate zu erreichen?->2,5 fache Bestückung+SI +17%
=> Überschlagen ca. 400% mit den gelisteten Komponenten angenommen und 2,5 mal mehr Speicher erkauft.
Der höhere Packaging-Preis für HMB2E ist dann kein Nachteil mehr, wenn die Bandbreite zwingend nötig ist. Es gibt da einen Breakeven, wo die Balance eben kippt.
Ist HMB2e ist in den Bereichen nicht wirtschaftlich genung egal wie du das siehst, die am Amrkt befindlichen GPU`s sind der beste Beweis.

Gast

2020-08-16, 02:18:19

Und zu guter letzt steht ja auch die Welt um HBM nicht still, sondern entwickelt sich weiter.

Aktuell dreht sich die Welt bei GDDR aber schneller.
Der Vorsprung von HBM war damals als die ersten Produkte auf den Markt kamen deutlich größer.

Bei der Effizienz hat sich bei HBM seit dem eher weniger getan, HBM2 hat "nur" die Bandbreite deutlich vergrößert ohne großartig an Effizienz zuzulegen, erst mit HBM2e hat sich auch bei der Effizienz wieder was getan.

Complicated

2020-08-16, 02:44:57

Die 0,5GB waren sogar sehr intelligent, das ist ungefähr der Speicher den der Windows Desktop bei einer üblichen Anzahl offener Fenster braucht, und die kann man gerne darin ablegen.

Nur ging das nicht. Auf die 0,5 GB konnten nicht gleichzeitig wie die 3,5 GB zugegriffen waren. Die waren nicht mit halbem L2 Cache angebunden, sondern an die Xbar angeflanscht.

Ich schrieb schon oben, dass es einen Balancepunkt gibt, wo es wirtschaftlich wird, weil es einfach sonst gar nicht geht ab eine bestimmten benötigten Speicheranbindung.

Beweisführung für kommende Produkte durch bestehende ist ja niedlich. Gilt das so auch für die Speichermenge? Du siehst wie absurd das ist.

Leonidas

2020-08-16, 03:48:22

Ich glaube nicht, dass das Prinzip der GTX660 auf echte dicke Karten übertragbar ist. Und nach dem 970er Debakel muss NV damit rechnen, das jeder Artikel zu so einer Karte direkt mit dem Verweis auf die 970 anfängt .... schlechter Einstieg, das wird man sich sparen, es sei denn es geht überhaupt nicht anders.

Troyan

2020-08-16, 11:27:58

GTX660 hat die selben Probleme gehabt. Informationen werden Bit-weise in den Speicher geschrieben, so dass gleichzeitig mit voller Bandbreite gelesen werden kann. Wird auf den "langsam" aber mit doppelter Größe angebundenen Speicher gelesen, reduziert sich massiv die Bandbreite. Die GTX970 hatte eben "volle" 3,5Gb mit 224bit.

Bei der Xbox Series X werden daher auch nur die 12GB relevant sein und der Rest wird wohl gesperrt werden.

Gast

2020-08-16, 11:48:30

Nur ging das nicht. Auf die 0,5 GB konnten nicht gleichzeitig wie die 3,5 GB zugegriffen waren. Die waren nicht mit halbem L2 Cache angebunden, sondern an die Xbar angeflanscht.

Es konnte durchaus auf beide Bereiche gleichzeitig zugegriffen werden, nur nicht völlig frei. Beispielsweise konnte ein Bereich Lesen und der andere Bereich gleichzeitig schreiben, nur beides gleichzeitig ging nicht, da dann der L2 zum Nadelöhr wurde.

Für den von mir gebrachten Punkt ist das aber irrelevant, du musst eh nicht gleichzeitig auf die Daten vom DWM zugreifen, und und jene vom Spiel.

Wenn das Spiel im Vordergrund ist, reicht es auf diese Daten zuzugreifen, und wenn man mit Alt-Tab rausspringt braucht man nur mehr den Zugriff auf den Desktop und nicht mehr auf die Daten vom Spiel.

Complicated

2020-08-16, 13:36:00

Bitte belege das mit einer Quelle, das die beiden getrennten Speicherbereiche zeitgleich lesen respektive schreiben konnten. Das ist neu für mich und alle Quellen die ich kenne widersprechen dem.

Und das andere mit dem Spiel im Vordergrund lege ich mal unter phantastische Geschichte ab und brauch dazu auch keine Quelle. Wir reden von GPU-Speicher.

Oder andersherum präziser formuliert:
Es ist eines ob das theoretisch möglich ist und etwas anderes ob es solche passenden Workloads in der Praxis gibt
https://www.anandtech.com/show/8935/geforce-gtx-970-correcting-the-specs-exploring-memory-allocation/2
The end result of all of this is that the GTX 970 has a unique memory layout that needs to be accounted for by the operating system and NVIDIA’s drivers, as the use of multiple segments adds a new level of complexity to optimizing memory performance. Unequal in size and performance, among the two segments the 3.5GB segment is a larger, faster, and otherwise more preferable segment to the 512MB segment. Which means from a logical hierarchical perspective, the 512MB segment essentially serves as an additional layer of memory between the main VRAM and system memory, being slower than the 3.5GB segment but offering almost 2x the performance of going out over the PCIe bus to system memory

Gast

2020-08-16, 14:03:54

Bitte belege das mit einer Quelle, das die beiden getrennten Speicherbereiche zeitgleich lesen respektive schreiben konnten. Das ist neu für mich und alle Quellen die ich kenne widersprechen dem.

https://www.anandtech.com/show/8935/geforce-gtx-970-correcting-the-specs-exploring-memory-allocation/2

Anandtech hat die Hardwaregegebenheiten der GTX 970 sehr gut beschrieben, und darin auch festgestellt, dass die Karte den vollen 256bit Speicherbus hat und dieser auch funktioniert.

BTW: Ich sehe gerade du hast auch auf den gleichen Artikel verlinkt, dann lies ihn bitte auch vollständig und nicht nur ein paar Teile davon.

Complicated

2020-08-16, 14:25:46

Ja ich habe dir das Fazit zitiert. Lies es ;)

Berniyh

2020-08-16, 17:12:35

Aktuell dreht sich die Welt bei GDDR aber schneller.
Der Vorsprung von HBM war damals als die ersten Produkte auf den Markt kamen deutlich größer.

Bei der Effizienz hat sich bei HBM seit dem eher weniger getan, HBM2 hat "nur" die Bandbreite deutlich vergrößert ohne großartig an Effizienz zuzulegen, erst mit HBM2e hat sich auch bei der Effizienz wieder was getan.
Das ist es ja was ich mit "State-of-the-Art" meinte. Da wird immer schneller entwickelt, ist normal.
Das heißt aber auch – und darauf wollte ich eigentlich hinaus – dass bei HBM noch deutlich mehr zu holen ist, sprich sollte sich die Technologie durchsetzen (und davon gehe ich aus, ist nur die Frage auf welcher Zeitskala), dann wird der Abstand wieder größer.

JVC

2020-08-16, 18:49:33

Weil es grad passt.
https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Micron-kuendigt-HBMnext-an-1356231/ (16.08.2020)
"Micron: HBMnext offiziell angekündigt"
"HBMnext soll frühestens Ende 2022 erscheinen und eine Bandbreite von bis zu 3,2 Gbps bieten."

M.f.G. JVC

Gast

2020-08-16, 19:25:59

Ja ich habe dir das Fazit zitiert. Lies es ;)

Sag mal muss man dir wirklich alles vorkauen?

Lies den gesamten Artikel und nicht nur das zusammenfassende Fazit:

Ultimately due to the design of the crossbars and the memory controllers, it is not possible for 1 crossbar port to carry the full load of 2 memory channels in all circumstances. The crossbar port and its attached ROP/L2 unit can access both memory channels at once, splitting up the 4 operations among them, but there is only 1 read return bus and 1 write data bas, and hence in practice it cannot issue identical operations to both memory channels at once . As a result NVIDIA has segmented the GTX 970’s memory into the now-familiar 3.5GB and 512MB segments. In the case of the 3.5GB segment, this behaves otherwise identically to a fully enabled card such as the GTX 980, with the 1KB stride being striped over 7 crossbar ports, and hence 7 DRAM modules. Meanwhile the 8th and final DRAM module sits in its own 512MB segment, and must be addressed by the crossbar on its own.

This in turn is why the 224GB/sec memory bandwidth number for the GTX 970 is technically correct and yet still not entirely useful as we move past the memory controllers, as it is not possible to actually get that much bandwidth at once when doing a pure read or a pure write. In the case of pure reads for example, GTX 970 can read the 3.5GB segment at 196GB/sec (7GHz * 7 ports * 32-bits), or it can read the 512MB segment at 28GB/sec, but it cannot read from both at once; it is a true XOR situation. The same is also true for writes, as only one segment can be written to at a time.

Unfortunately what this means is that accessing the weaker 512MB segment blocks access to the stronger 3.5GB segment if both memory operations are identical; or put another way, using the 512MB segment can harm the performance of the 3.5GB segment. For example, if we want to issue reads to both segments at once, reading the 512MB segment blocks any other reads to the 3.5GB segment for that cycle. If the 3.5GB segment is blocked in this fashion and doesn't have a non-blocking write to work on instead, it would have to go idle for that cycle, which would reduce the effective memory bandwidth of the 3.5GB segment. This means that taken over time in our example, the larger the percentage of the time the crossbar is reading the 512MB segment, the lower the effective read memory bandwidth would be from the 3.5GB segment.

Despite all of this, achieving peak memory bandwidth performance on the GTX 970 is still possible, but it requires much more effort since simple striping will not do the trick. The easiest and most effective solution in this regard is to interleave reads and writes over the segments, such that one segment is writing while another segment is reading. Interleaving in this fashion allows both segments to work at once – avoiding the blocking effect of the shared read and write buses – and makes it more likely that both segments are doing useful work rather than waiting for their turn on an operation. However because this is only applicable to situations where more than 3.5GB of VRAM is in use and both segments are necessary, this means it's only theoretically possible to achieve 224GB/sec when more than 3.5GB of VRAM is in use. In any situations below 3.5GB we are de-facto limited to just the larger segment, in which case there are only 7 memory channels (196GB/sec) to stripe memory operations across. NVIDIA could of course interleave operations sooner than that and use both segments more often, but due to the blocking effect we've discussed before the performance hit from using the 512MB segment can quickly become greater than any gains.

Hier wird genau beschrieben unter welchen Umständen es möglich ist die gesamte Bandbreite auszunutzen und unter welchen eben nicht.

Complicated

2020-08-16, 20:44:45

Du musst mir nichts vorkauen, sondern verstehen, dass im Artikel beschrieben Hardwarefunktionen in Verbindung mit OS und Software eben genau das im Fazit beschriebene Ergebnis haben. Wo ist denn da der 0,5 GB Speicher gleichwertig wie du behauptest? Du kannst nun mal nicht immer genau dann schreiben wenn der andere liest - das kann die Hardware (Soweit stimmst du dem Artikel ja zu, warum dem Rest nicht auch noch?), nur wenn 4GB gelesen werden müssen sind die halt nicht da, wie Tests bewiesen haben, sondern nur 3,5 und der Rest muss dann nachgeladen werden. Dass die 0,5 GB doppelt so schnell nachgeladen werden als aus dem System-RAM macht sie immer noch deutlich langsamer als die 3,5 GB VRAM die vernünftig angebunden sind.

Gast

2020-08-16, 21:21:44

Wo ist denn da der 0,5 GB Speicher gleichwertig wie du behauptest?

Das habe ich nie behauptet, ich habe nur gesagt, dass die Karte unter bestimmten Umständen die volle Bandbreite ausnutzen kann, und zwar genau dann wenn in ein Segment geschrieben und im anderen gelesen wird oder umgekehrt.

Was nicht geht ist gleichzeitig sowohl im 3,5GB als auch um 0,5GB Segment lesen oder schreiben und das habe ich auch nie behauptet.

Complicated

2020-08-17, 08:59:24

Abgesehen davon hat der Großteil immer noch nicht verstanden, dass bei der 970 der komplette Speicher voll angebunden war. Wenn der Speicher voll angebunden gewesen wäre bedeutet zwangsläufig, dass dies möglich sein muß. Denn sonst ist er ja nicht voll angebunden. Diese Formulierung hatte wohl den Eindruck bei mir erweckt.

Diese ominösen "bestimmten Umstände" konnten halt in keinem realen Test gefunden werden.

Iscaran

2020-08-17, 11:23:37

Und nun ein Beleg warum ich denke dass wir 12GB und nicht 24 GB bei der 3090 sehen werden:
https://www.computerbase.de/2020-08/geforce-rtx-3080-userbenchmark/

Bleibt evtl. die Option dass eine Titan unbeschnitten und mehr Speicher und leicht höheren Takt hat als eine etwaige 3090.

So oder so im Herbst wirds spannend wenn RDNA2 vs Ampere antreten. Endlich passiert mal wieder was im GPU Markt :-)

Leonidas

2020-08-17, 11:58:53

In diesem Fall würde NV eine dicke Flanke offenlassen. Selbst wenn AMD das Preisfeld der 3090 nicht besetzen kann, dann geht man eben gegen eine 3080 oder notfalls eine 3070Ti an. Die kann man dann locker mit gleicher Performance zu gleichem Preispunkt und aber gleich 16 GB regelrecht abschießen.

WedgeAntilles

2020-08-17, 12:05:18

Und nun ein Beleg warum ich denke dass wir 12GB und nicht 24 GB bei der 3090 sehen werden:
https://www.computerbase.de/2020-08/geforce-rtx-3080-userbenchmark/

Das ist doch kein Hinweis darauf, dass wir keine Wahlmöglichkiet zwischen 12GB bzw. 24GB (11GB/22GB bzw. 10GB/20GB) haben werden.

Dass es NUR die hohen Speicherbestückungen gibt, stand ja glaube ich nie zur Debatte, oder?

Leonidas

2020-08-17, 13:28:19

Behauptung seitens WCCF Tech, hier dokumentiert:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-1516-august-2020

Gast

2020-08-17, 19:22:28

Wenn der Speicher voll angebunden gewesen wäre bedeutet zwangsläufig, dass dies möglich sein muß. Denn sonst ist er ja nicht voll angebunden.

https://images.anandtech.com/doci/8935/GM204_arch_575px.jpg

Wie man an diesem Schaltbild eindeutig erkennen kann ist das Speicherinterface in keinster weise beschnitten. Was beschnitten ist, ist die Anbindung von L2 an den internen Crossbar.

Und auch wenn das Ergebnis ein ähnliches ist, kann man in einem Technikforum schon erwarten, dass dieser Unterschied verstanden wird.