PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 11. März 2024


Leonidas
2024-03-12, 07:14:52
Link zur News:
https://www.3dcenter.org/news/news-des-11-maerz-2024

MD_Enigma
2024-03-12, 10:01:39
Für Zen5 wird der Dispatcher also um 1/3 "größer". Das könnte im optimierten Single-Thread-Use-Case doch einiges rausholen. Ob das beim Gaming genau so viel ausmacht, wage ich zu bezweifeln, da muss noch einiges an Takt kommen, damit wir den Zen3 auf Zen4 sprung sehen.

Geldmann3
2024-03-12, 10:12:26
Vielleicht konzentriert man sich auf das 512Bit Speicherinterface, weil es Wunschdenken ist? Ich würde es mir jedenfalls wünschen, eine 2000€ Enthusiast-Lösung mit 48GB Vram zu sehen, die effektiv 50% schneller als das aktuelle Flaggschiff ist. (Straßen/Custom-Preis bestimmt eher 2400€)

Unten dann eine 1000€ 4070 Ti 16GB, 5% schneller als eine RTX 4090 und die Welt wäre in Ordnung.

Leonidas
2024-03-12, 10:28:34
Man konzentriert sich auf die 512-Bit, weil der Top-Chip wie üblich 80% der Berichterstattung abbekommt. Obwohl jedem klar sein muß, dass weniger als 10% der Verkäufe in diese Richtung gehen werden.

Milchkanne
2024-03-12, 11:01:42
Wird bei DDR7 Speicher die Breite des Interfaces nicht irgendwie automatisch breiter? Weil durch das Encoding jetzt weniger Datenleitungen pro Bit benötigt werden. IIRC waren das auf 12 Leitungen 16 Bit. Dann wird aus 384 Datenleitungen ein 512 Bit Speicherinterface.

Leonidas
2024-03-12, 12:06:09
Nein, die Interfaces werden durch die Speichernorm nicht breiter. GDDR7 überträgt 3 Bits pro 2 Takte.

Milchkanne
2024-03-12, 13:00:32
Nein, die Interfaces werden durch die Speichernorm nicht breiter. GDDR7 überträgt 3 Bits pro 2 Takte.

Ich habs jetzt nochmal rausgesucht:

In PAM3 mode GDDR7 SGRAMs transfer a total of 176 symbols per burst access over 11 data lines (BL
16 x 11 DQs = 176 Symbols). Write data is PAM3 decoded before written to the memory array, read data
is PAM3 encoded before it is transmitted. The maximum burst data payload is 276 bits, as in the case of
read direction when CRC and poison are enabled (256 data bits + 18 CRC bits + 1 Severity bit + 1 Poison
bit).

Also in 16 Takten werden über 11 Leitungen 256 Nutz-bits übertragen. Also 16 Bits pro 11 Leitungen und Takt.

Was verstehe ich da falsch? Ein 16-Bit Speicherinterface hat nur 11 Leitungen oder? Mit der gleichen Anzahl Leitungen, kann ich dann doch ein breiteres Speicherinterface bauen?

*edit* Das 3b/2s gilt auch nur für die CRC. Nutzdaten werden mit 11b/7s übertragen.

Leonidas
2024-03-12, 13:57:47
Die "Data Lines" dürfen irgendwas internes sein. Relevant hier ist nicht, was der Speicher intern macht, sondern wie das Interface nach draußen gestaltet ist. Da sind es (grob) 3 Bits pro 1 Pins pro 2 Takte.

Milchkanne
2024-03-12, 14:23:51
Die "Data Lines" dürfen irgendwas internes sein. Relevant hier ist nicht, was der Speicher intern macht, sondern wie das Interface nach draußen gestaltet ist. Da sind es (grob) 3 Bits pro 1 Pins pro 2 Takte.

Ich denke nicht.

Auf Seite 39 der Spec ist der Burst 8 Data Lanes und 11 Pins zugeordnet. Die Pins werden als DQ0-9 + DQE (weitgehend für CRC) zugeordnet. Im Ball-out auf Seite 310 gibt es genau die Pins DQ0-9+e je 1x pro Channel (Channel A-D). Ein Speicherchip hat 322 266 Pins.

In der GDDR6 Spec gibt es x32 und x64 Ball-outs. Das x64 Ball-out hat auch 4 Channels mit je 16 DQx Pins und gesamt 460 Pins.

bad_sign
2024-03-12, 14:40:47
512Bit für AI mit viel Bandbreite und Kapazität - die Karte hat nichts mit Gaming zu tun ;)

Leonidas
2024-03-12, 14:53:56
Ich denke nicht.

Da hast Du Dich jetzt augenscheinlich eingehender damit beschäftigt - während ich nur geraten haben (und falsch lag).

So oder so muß sich am Ende ein 32-Bit-Interface pro Speicherchip herausbilden. genau so werden die (angeblich) verdrahtet.

MasterElwood
2024-03-12, 17:48:47
Vielleicht konzentriert man sich auf das 512Bit Speicherinterface, weil es Wunschdenken ist? Ich würde es mir jedenfalls wünschen, eine 2000€ Enthusiast-Lösung mit 48GB Vram zu sehen, die effektiv 50% schneller als das aktuelle Flaggschiff ist. (Straßen/Custom-Preis bestimmt eher 2400€)


Wozu? Ich würde eine 24GB Variante die dafür 70-80% schneller ist jederzeit vorziehen....

Milchkanne
2024-03-12, 19:14:25
So oder so muß sich am Ende ein 32-Bit-Interface pro Speicherchip herausbilden. genau so werden die (angeblich) verdrahtet.

Ich denke nicht. GDDR6 hatte 2 ball-outs. x32 mit 180 balls und x64 mit satten 480 balls. Dabei hatten die eben 2x 16 bzw. 4x16 Datenpins. GDDR7 ist nur mit 266 Balls spezifiziert mit 4x11 Datenpins, wobei dann effektiv 4x16 Bits pro Takt übertragen werden. GDDR7 hat IMO immer effektiv 64 Bit pro Chip. PAM3 darf dann nicht mehr irgendwie mit 3/2 in die Datenrate eingerechnet werden.

Theoretisch könnten sie die natürlich auch mit 44Bit pro Chip vermarkten und dann PAM3 mit Faktor 1,45 in die Datenrate einrechnen. Aber eher unwahrscheinlich.

*edit* Hinweis: Ich bin kein Fachmann auf dem Gebiet. Es ist das erste mal, dass ich Speicherspezifikationen lese...

Leonidas
2024-03-13, 03:18:00
Ich weiss, dass das intern nicht ganz so exakt ist wie offiziell genannt. Aber im Endeffekt hat die Speicherindustrie auch mit dem Gbps eine gute General-Angabe gefunden. Den 28 Gbps pro Pin ist es egal, wie es intern läuft. Und jene "pro Pin" beziehen sich in diesem Fall eindeutig auf die Gegenseite, sprich die Bit-Breite des Interfaces. 28 Gbps x 512-bit ergibt die nominelle Speicherbandbreite. Intern wird es sicherlich ein klein wenig anders laufen.

Zossel
2024-03-13, 07:40:59
Ich denke nicht. GDDR6 hatte 2 ball-outs. x32 mit 180 balls und x64 mit satten 480 balls. Dabei hatten die eben 2x 16 bzw. 4x16 Datenpins. GDDR7 ist nur mit 266 Balls spezifiziert mit 4x11 Datenpins, wobei dann effektiv 4x16 Bits pro Takt übertragen werden. GDDR7 hat IMO immer effektiv 64 Bit pro Chip. PAM3 darf dann nicht mehr irgendwie mit 3/2 in die Datenrate eingerechnet werden.

Theoretisch könnten sie die natürlich auch mit 44Bit pro Chip vermarkten und dann PAM3 mit Faktor 1,45 in die Datenrate einrechnen. Aber eher unwahrscheinlich.

*edit* Hinweis: Ich bin kein Fachmann auf dem Gebiet. Es ist das erste mal, dass ich Speicherspezifikationen lese...

Speicher-Chips gibt es schon seit Anno Schnuck unterschiedlich organisiert.

Milchkanne
2024-03-13, 08:59:26
Ich weiss, dass das intern nicht ganz so exakt ist wie offiziell genannt. Aber im Endeffekt hat die Speicherindustrie auch mit dem Gbps eine gute General-Angabe gefunden. Den 28 Gbps pro Pin ist es egal, wie es intern läuft. Und jene "pro Pin" beziehen sich in diesem Fall eindeutig auf die Gegenseite, sprich die Bit-Breite des Interfaces. 28 Gbps x 512-bit ergibt die nominelle Speicherbandbreite. Intern wird es sicherlich ein klein wenig anders laufen.

In der Tabelle1 der Spec werden 14 Gbaud/pin genannt, also Symbole pro Sekunde pro Pin. Und dann steht als Randnotiz "The 14 GBaud in PAM3 mode correspond to a data rate of 28 Gbps over 8 DQs or a per-channel memory bandwidth of 28 GB/s."

Es ist halt die Frage, was das Marketing draus macht. Physikalisch hat jeder Chip halt 44 Pins und überträgt 44 Symbole pro Takt. Das entspricht 64 Bit/Takt.
Wenn man es aber mit 8 DQs pro Channel vergleicht (8x4=32Bit) hat man eben eine Datenrate von 28Gbps pro pin. Das ist IMO aber die falscheste Betrachtungsweise.

Das Marketing wird entscheiden, ob das Interface doppelt so groß bei normaler Datenrate pro Pin wird oder ob das Interface gleich breit bleibt und sich die Datenrate verdoppelt.

Ich hab jetzt nochmal schnell in die Spec geguckt. Tatsächlich betrachten die das dort mit 4f pro Pin, also wie 32 Bit und PAM3 verdoppelt (!) die Datenrate, weil eben nicht 32-Bit, sondern sogar 44 Symbole=64 Bit übertragen werden.

Dennoch: Wenn Leaker irgendeine Bit-Breite angeben, kann es sein, dass die Quelle die andere Marketingweise genutzt hat.

Leonidas
2024-03-13, 10:03:38
Danke für die Hinweise. Dies bedeutet für mich, dass man sich auf Angaben aus der Speicherindustrie faktisch nicht verlassen kann. In jedem Fall sollte man Spekulationen darauf basierend vermeiden, da kann man in die Falle falscher Begrifflichkeiten tappen.

Milchkanne
2024-03-13, 10:45:58
Nochmal zu Blackwell: Bei PCGH steht ja explizit 512Bit@28Gbps. Das ist schon eindeutig. Wenn sich da jemand dann mit den 32/64-Bit vertan haben sollte, würde das die Bandbreite halbieren, das wären dann nur 864 GB/s, sicherlich zu wenig. Mit 36Gbps wären das dann immerhin 1152GB/s also ~10% mehr als bei AD102.

Es besteht auch die Möglichkeit, dass jemand die realen Datenleitungen pro Chip (44) falsch gerundet hat. Also 8x44=352 und daraus dann 384 macht. Das entspricht dann 256Bit bei 28Gbps, bzw. 512Bit bei 14Gbps.

Oder 12x44=528 => ~512 Datenleitungen == 384Bit@28Gbps bzw. 768Bit@14Gbps. Falls irgendwo ein Fehler vorliegt ist das vielleicht sogar das wahrscheinlichste.

Milchkanne
2024-03-13, 10:53:35
Noch eine Sache: x32 GDDR6 hat 32 Datenleitungen. Ein GDDR7 Chip hat 44 Datenleitungen. Von 384Bit GDDR6 zu 512 Bit GDDR7 mit 32-Bit/Chip interpretation sind also nicht 33% sondern 83% mehr Datenleitungen! Und die müssen dann auch noch PAM3 fähig sein.

Orko
2024-03-13, 11:38:32
@ Milchkanne, Leo & interessierte

So, ich hab mich jetzt auch in das Thema GDRR7 Interfacebreite u co eingearbeitet.

Soweit ich das sehe kommt die Diskrepanz aus dem was gemeint ist.

A) Ist mit Interfacebreite die Anzahl der physikalischen Datenleitungen gemeint, dann ist die korrekte Antwort
32 für GDDR1 bis GDDR6(X) 32
und 44 für GDDR7

B) Ist mit Interfacebreite eine Kennzeichnung des Interfaces zur Umrechnung zwischen Speichergeschwindigkeit und Nutzdatenbandbreite gemeint, dann ist die korrekte Antwort
32 für GDDR1 bis GDDR7

Beispiele: Interfacebreite * Speichergeschwindigkeit * Umrechnungskonstante = Nutzdatenrate pro Chip

GDDR5: 32 bits * 8Gbit/s * 1/bit = 32 GByte/s
GDDR6 (QDR mode): 32 bits * 16Gbit/s * 1/bit = 64 GByte/s
GDDR6x: 32 bits * 24Gbit/s * 1/bit = 96 GByte/s
GDDR7: 32 bits * 32Gbit/s * 1/bit = 128 GByte/s

Detaildarstellung folgt.

Das Problem ergibt sich dadurch, dass bis GDDR6(X) beide Bedeutungen zusammengefallen sind, während für GDDR 7 erstmals die Anzahl der physikalischen Datenleitungen vom Umrechnungsfaktor in einer historisch gewachsenen Umrechnungsformel abweichen.

Orko
2024-03-13, 11:39:55
1) exemplarisches Beispiel GDDR5:

32 Speicherzellen pro Speicherchip, 32 physikalische Datenleitungen pro Speicherchip

Die Speicherzellen laufen mit 1000 MHz ("C4 clock")
Prefetch ist 8
Die zu übertragende Nutzdatenrate pro Speicherzelle ist 8bit * 1000MHz = 8Gbit/s
Dies ist der in Spezifikationen üblicherweise angegebene Wert für die Speichergeschwindigkeit

physikalisches Interface:
Der physikalische Datentransfer läuft mit einer Clock von 4000 MHz ("WCK_c/t" = 4x "C4 clock")
Die Symbolrate (per Datenleitung) ist wegen DDR ( double data rate = 2 symbole pro takt) 8000 MT/s = 8GT/s
Die Codierung ist NRZ, also 1 Symbol = 2 Zustände = 1 bit
Die Datenrate (per Datenleitung) ist damit 8Gbit/s

Jede der 32 Speicherzellen bedient eine der 32 Datenleitungen.
Die Gesamt-Nutzdatenrate ist 32 * 8Gbit/s * 1Byte/8bit = 32 GByte/s pro Speicherchip

es gilt:
"Interfacebreite" * "Speichergeschwindigkeit * Umrechnungskonstante = Nutzdatenrate pro Chip
32 bits * 8Gbit/s * 1/bit = 32 GByte/s

Je nach Anzahl der verbauten Speicherchips ergibt sich:
Anzahl Speicherchips Interfacebreite Nutzdatenrate
3 96 bit 96 GByte/s
4 128 bit 128 GByte/s
6 192 bits 192 GByte/s
8 256 bits 256 GByte/s
12 384 bits 384 GByte/s
16 512 bits 512 GByte/s

Orko
2024-03-13, 11:42:47
2) exemplarisches Beispiel GDDR6 im QDR Modus:

32 Speicherzellen pro Speicherchip, 32 physikalische Datenleitungen pro Speicherchip

Die Speicherzellen laufen mit 1000 MHz ("C4 clock")
Prefetch ist 16
Die zu übertragende Nutzdatenrate pro Speicherzelle ist 16bit * 1000MHz = 16Gbit/s
Dies ist der in Spezifikationen üblicherweise angegebene Wert für die Speichergeschwindigkeit

physikalisches Interface:
Der physikalische Datentransfer läuft mit einer Clock von 4000 MHz ("WCK_c/t" = 4x "C4 clock")
Die Symbolrate (per Datenleitung) ist wegen QDR ( quadruple data rate = 4 symbole pro takt) 16000 MT/s = 16GT/s
Die Codierung ist NRZ, also 1 Symbol = 2 Zustände = 1 bit
Die Datenrate (per Datenleitung) ist damit 16Gbit/s

Jede der 32 Speicherzellen bedient eine der 32 Datenleitungen.
Die Gesamt-Nutzdatenrate ist 32 * 16Gbit/s * 1Byte/8bit = 64 GByte/s pro Speicherchip

es gilt:
"Interfacebreite" * "Speichergeschwindigkeit * Umrechnungskonstante = Nutzdatenrate pro Chip
32 bits * 16Gbit/s * 1/bit = 64 GByte/s

Je nach Anzahl der verbauten Speicherchips ergibt sich:
Anzahl Speicherchips Interfacebreite Nutzdatenrate
3 96 bit 192 GByte/s
4 128 bit 256 GByte/s
6 192 bits 384 GByte/s
8 256 bits 512 GByte/s
12 384 bits 768 GByte/s
16 512 bits 1024 GByte/s

Orko
2024-03-13, 11:43:49
3) exemplarisches Beispiel GDDR6x:

32 Speicherzellen pro Speicherchip, 32 physikalische Datenleitungen pro Speicherchip

Die Speicherzellen laufen mit 1500 MHz ("C4 clock")
Prefetch ist 16
Die zu übertragende Nutzdatenrate pro Speicherzelle ist 16bit * 1500MHz = 24Gbit/s
Dies ist der in Spezifikationen üblicherweise angegebene Wert für die Speichergeschwindigkeit

physikalisches Interface:
Der physikalische Datentransfer läuft mit einer Clock von 6000 MHz ("WCK_c/t" = 4x "C4 clock")
Die Symbolrate (per Datenleitung) ist 12000 MT/s = 12GT/s (DDR Prinzip bezüglich Zeitachse: 2 Symbole pro takt)
Die Codierung ist PAM4, also 1 Symbol = 4 Zustände = 2 bit
Die Datenrate (per Datenleitung) ist damit 24Gbit/s (QDR Prinzip)

Jede der 32 Speicherzellen bedient eine der 32 Datenleitungen.
Die Gesamt-Nutzdatenrate ist 32 * 24Gbit/s * 1Byte/8bit = 96 GByte/s pro Speicherchip

es gilt:
"Interfacebreite" * "Speichergeschwindigkeit * Umrechnungskonstante = Nutzdatenrate pro Chip
32 bits * 24Gbit/s * 1/bit = 96 GByte/s


Je nach Anzahl der verbauten Speicherchips ergibt sich:
Anzahl Speicherchips Interfacebreite Nutzdatenrate
3 96 bit 288 GByte/s
4 128 bit 384 GByte/s
6 192 bits 576 GByte/s
8 256 bits 768 GByte/s
12 384 bits 1152 GByte/s
16 512 bits 1536 GByte/s

Orko
2024-03-13, 11:45:19
4) exemplarisches Beispiel GDDR7:

32 Speicherzellen pro Speicherchip, 44 (!) physikalische Datenleitungen pro Speicherchip

Die Speicherzellen laufen mit 1000 MHz
Prefetch ist 32
Die zu übertragende Nutzdatenrate pro Speicherzelle ist 32bit * 1000MHz = 32Gbit/s
Dies ist wohl der in Spezifikationen üblicherweise angegebene Wert für die Speichergeschwindigkeit
(komplett unabhängig von der physikalischen Implementierung des Übertragungskanals)
Die Gesamt-Nutzdatenrate ist: 32 Speicherzellen * 32Gbit/s * 1Byte/8bit = 128 GByte/s pro Speicherchip

physikalisches Interface:
Der physikalische Datentransfer läuft mit einer Clock von 8000 MHz ("WCK_c/t")
Die Symbolrate (per Datenleitung) ist 16000 MT/s = 16GT/s (DDR Prinzip bezüglich Zeitachse: 2 Symbole pro takt)
Die Symbol-Codierung ist PAM3
Die physikalische Kanal-Kapazität ist damit:
pro Datenleitung: Log(3;2) bits/Symbol * 1 Symbol/Transfer * 16GT/s = 25.3594 Gbit/s
pro Speicherchip: 44 Datenleitungen * 25.3594 Gbit/s = 139.4767 GByte/s
Zusätzlich wird mit GDDR7 eine ECC-Kanalkodierung eingeführt. Dabei werden effektiv 256 bit Nutzdaten auf 176 PAM3 Symbole gemappt. (Rein informationstechnisch wären ohne ECC dafür 162 PAM3 Symbole ausreichend. Auch wird hier NICHT die einfachste Form des PAM3 Mappings ohne ECC verwendet, bei der 3 Bits auf 2 Symbole gemappt werden.) Weitere Details der Interface Implementierung (Verteilung der 176 Symbole auf 11 parallele Datenleitungen, Burst-Länge, ... ) sind für diese grundlegende Betrachtung nicht relevant.
Die effektive Nutz-Datenrate (per Datenleitung) ist damit 256bit / 176 Symbole * 1 Symbol/Transfer * 16GT/s = 23,27 Gbit/sec
Die Gesamtdatenrate ist: 44 Datenleitungen * 23,27 Gbit/sec * 1Byte/8bit = 128 GByte/s pro Speicherchip

es gilt:
"effektive Interfacebreite" * "Speichergeschwindigkeit * Umrechnungskonstante = Nutzdatenrate pro Chip
32 bits * 32Gbit/s * 1/bit = 128 GByte/s

Hier liegt wohl der Grund des Missverständnisses:
Zum einen die physikalische Interfacebreite in Form von 44 Datenleitungen
Zum anderen die "effektive Interfacebreite" von 32 (bits)
- als Umrechnungsfaktor zwischen Speichergeschwindigkeit und Nutzdatenrate
- und für Vergleiche von Graphikkarten-Konfigurationen.
(Die Chipanzahl ist wegen Clamshell und Doppelchips kein geeignetes Maß dafür)



Je nach Anzahl der verbauten Speicherchips ergibt sich:
Anzahl Speicherchips physikalische Interfacebreite effektive Interfacebreite Nutzdatenrate
3 132 bit 96 bit 384 GByte/s
4 176 bit 128 bit 512 GByte/s
6 264 bits 192 bit 768 GByte/s
8 352 bits 256 bit 1024 GByte/s
12 528 bits 384 bit 1536 GByte/s
16 704 bits 512 bit 2048 GByte/s

Leonidas
2024-03-13, 11:57:33
Wundervoll :up: