PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : PHYs, Linkbündelung und Signaling Rate (am Beispiel des Zeppelin-Dies)


Complicated
2017-08-07, 12:14:18
Dafür müßten auf dem jeweiligen Vega-Part dann allerdings die entsprechenden GMI-PHYs verbaut sein (die sind kleiner als die PCIE-PHYs), denn man will wohl kaum PCIe-Lanes für die on-Package Verbindung nutzen (wenig ernergieeffizient [verbrauchen knapp 4mal so viel wie die GMI-Links pro übertragenem Bit] und man hat in der Konfiguration nicht viele davon).
Die CCIX - Demo nutzte aber auch keine spezifischen GMI-PHYs oder andere als die bei PCIe genutzten:
https://www.youtube.com/watch?v=JpUSAcnn7VA
In this demo video, see a data pattern transferred at 25 Gbps between two Xilinx FPGAs, across a channel comprised of an Amphenol/FCI PCI Express CEM connector and a trace card. The two FPGAs contain Xilinx transceivers electrically compliant with CCIX. By using the PCI Express infrastructure common today in all data centers, the 25 Gbps performance milestone was achieved. This is the fastest known data transfer between accelerators over PCI Express connections ever achieved and 3x faster than PCI Express Gen3 solutions available today.
Also bestehende und übliche Infrastruktur!

BoMbY
2017-08-07, 12:50:12
Also bestehende und übliche Infrastruktur!

Natürlich. Wie schon gesagt ist CCIX voll kompatibel zu PCIe:

"CCIX is backward compatible with PCIe 3.0 and 4.0, leveraging existing server ecosystems and form factors while lowering software barriers." (https://www.ccixconsortium.com/single-post/2017/06/28/Welcome-to-the-new-CCIX-Blog)

Oder auch hier (https://www.openfabrics.org/images/eventpresos/2017presentations/213_CCIXGen-Z_BBenton.pdf):

http://i.imgur.com/aFYWNzH.png

Gipsel
2017-08-07, 14:16:26
Die CCIX - Demo nutzte aber auch keine spezifischen GMI-PHYs oder andere als die bei PCIe genutzten:
https://www.youtube.com/watch?v=JpUSAcnn7VA

Also bestehende und übliche Infrastruktur!
Natürlich. Wie schon gesagt ist CCIX voll kompatibel zu PCIe:

"CCIX is backward compatible with PCIe 3.0 and 4.0, leveraging existing server ecosystems and form factors while lowering software barriers." (https://www.ccixconsortium.com/single-post/2017/06/28/Welcome-to-the-new-CCIX-Blog)

Oder auch hier (https://www.openfabrics.org/images/eventpresos/2017presentations/213_CCIXGen-Z_BBenton.pdf):

http://i.imgur.com/aFYWNzH.pngDeswegen können die PCIe-PHYs weder in Ryzen noch in Vega mit einem Male magischerweise 25GT/s oder gar 56GT/s übertragen. Die müssen dafür gebaut werden und eben auch CCIX oder xGMI unterstützen. Und das ist eben nicht mal einfach so der Fall, das muß explizit eingebaut werden. Die Multipurpose-PHYs (die können PCIe, SATA, xGMI, Ethernet) auf den Zeppelin-Dies können wie gesagt maximal 12,5GT/s, mehr geht sowieso nicht. Da müßten logischerweise andere PHYs für 25GT/s (oder mehr) verbaut werden, bevor man mehr nutzen kann. Und das auf beiden Seiten (GPU und CPU).
Die GMI-PHYs funktionieren anders (doppelt so breit und single ended, kein LVDS), sind physisch separat und außerdem nur für on-Package-Verbindungen geeignet (wie z.B. eine HPC-APU aus Vega + 2 Zeppelin-Dies in einem Sockel). Und da ist es fraglich, ob Vega10 diese überhaupt besitzt.

Also bisher wird hier ziemlich viel an Luftschlössern gebaut. :rolleyes:

=============================

Hast du noch nen Link zu der Folie?

Und vor allem war/ist das offiziell von AMD so verlautbart?

Bzw. ghibt es zu Vega20 schon nähere Infos dazu? Ich bin da wirklich sehr sehr gespannt drauf, wie sich das entwickelt. Aber wenn es richtig gut wird, wäre man schon ziemlich spät dran, wenn man dann erst mit der Softwareentwicklung anfangen würde...
Zwar Videocardz, aber bisher haben sich die Angaben auf den Folien bestätigt:
https://videocardz.com/65521/amd-vega-10-and-vega-20-slides-revealed

Vega10 steht da mit PCIe3-Interface, Vega 20 für 2018 mit xGMI (und PCIe4, also vermutlich dann mit 16 bzw. eventuell 25 GT/s).

Gipsel
2017-08-07, 14:33:16
Gab doch dieses Layoutdiagramm von Zepplin, doch, der hat entsprechende PHY. Die Frage ist eher, ob der AM4 das auch entsprechend herausführen kann, oder ob dazu nur SR3 in der Lage ist.Das sind die PHYs, die auch für PCIe benutzt werden. Und die werden natürlich aus dem Sockel herausgeführt, sonst könnte man ja keine Grafikkarte ranhängen. Aber die können eben maximal 12,5GT/s (in einem 2S Epyc-System laufen die mit 10,6GT/s). Alles über 12,5GT/s ist reine Phantasie. Die GMI-Links werden dagegen nie aus dem Sockel geführt. Wäre auch sinnlos, denn die sind für kurze on-package-Verbindungen gebaut und für nichts anderes nutzbar.
Eine andere Baustelle ist da eher Vega, ob V10 das schon bis ins Letzte beherrscht, oder ob erst V20 dazu in der Lage ist, IF über PCIe auszuführen.Genau das ist laut den oben verlinkten Folien der Fall: xGMI, d.h. IF über die Multipurpose(PCIe)-PHYs geht erst mit Vega 20 (dann aber angeblich auch mit 16 bzw. 25 GT/s).
Weiterhin stellt sich die Frage, ob Vega 10 oder Vega 20 auch die GMI-PHYs (ohne x) wie das Zeppelin-Die besitzt, mit dem man eine Multi-Die-APU im SP3/TR4-Sockel bauen könnte, also in einem Sockel (on-Package) ein Vega-Die so an die Zeppelin-Dies linken könnte, wie das bei Epyc oder Threadripper zwischen den Zeppelin-Dies funktioniert (dafür wird ja GMI benutzt, nicht xGMI).

Complicated
2017-08-07, 15:02:57
http://i.imgur.com/aFYWNzH.png
Deswegen können die PCIe-PHYs weder in Ryzen noch in Vega mit einem Male magischerweise 25GT/s oder gar 56GT/s übertragen. Die müssen dafür gebaut werden und eben auch CCIX oder xGMI unterstützen. Und das ist eben nicht mal einfach so der Fall, das muß explizit eingebaut werden. Die Multipurpose-PHYs (die können PCIe, SATA, xGMI, Ethernet) auf den Zeppelin-Dies können wie gesagt maximal 12,5GT/s, mehr geht sowieso nicht.
Bombys Quelle sagt hier etwas anderes. Würden diese spezifischen PHYs benötigt, wäre es dort eingetragen wie es auch bei OpenCAPI/NVLink eingetragen ist. Hast du eine Quelle für die max. 12.5 GT/s für die Multipurpose PHYs?
Das sind die PHYs, die auch für PCIe benutzt werden. Und die werden natürlich aus dem Sockel herausgeführt, sonst könnte man ja keine Grafikkarte ranhängen. Aber die können eben maximal 12,5GT/s (in einem 2S Epyc-System laufen die mit 10,6GT/s). Alles über 12,5GT/s ist reine Phantasie.
Wie gesagt habe ich die Quelle verpasst dafür. Kannst du einen Link anbieten für die max. 12,5 GT/s?

Eine bestehende Datacenter-Infrastruktur zu nutzen um dann ALLE CPUs, FPGAs und GPUs etc. ersetzen zu müssen weil die verbauten PHYs nicht nutzbar sind ergibt keinerlei Vorteil gegenüber irgendeinem anderen Interconnect, wie z.B. PCIe4. Das ist aber eben genau der Grund warum überhaupt CCIX existiert - Hardwarebeschleuniger können direkt mit schon vorhandenen CPUs - nicht nur den neuen AMD CPUs - genutzt werden.

Complicated
2017-08-07, 15:23:54
Hier warum es sehr gut möglich ist, dass Vega und schon ausgelieferte AMD CPUs diesen EDR/ESM Mode der PHYs nutzen können:
https://news.synopsys.com/AMD-and-Synopsys-Expand-IP-Partnership
Synopsys, Inc. (Nasdaq:SNPS), a global leader providing software, IP and services used to accelerate innovation in chips and electronic systems and AMD (NYSE: AMD) today announced they have signed a multi-year agreement that gives AMD access to a range of Synopsys DesignWare® interface, memory compiler, logic library and analog IP on advanced 16/14-nanometer (nm) and 10-nm FinFET process technologies. Synopsys is also hiring approximately 150 AMD IP R&D engineers and gains access to AMD’s leading interface and foundation IP.
https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.html
To be noticed, these layers will be user defined, Synopsys providing the PCIe 4.0 controller able to support up to 16 lanes running at 25Gbps. And the PCI Express set of command/responses will carry the coherency protocol command/responses, acting as a transport layer.

The internal SoC logic is expected to provide the implementing portion of the coherency, so the coherency protocol can be tightly tied to CPU, offering opportunities for innovation and differentiation. Synopsys consider that their customers are likely to separate data path for CCIX traffic vs “normal” PCIe traffic, and the PCI Express protocol offers Virtual Channels (VC), these can be used by CCIX.
https://www.semiwiki.com/forum/attachments/content/attachments/19922d1496842059-1-ccix-pcie-ctrl-min-jpg https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg
The PHY associated with the CCIX protocol will have to support the classical PCIe 4.0 mode up to 16GBbps (2.5GT/s, 5GT/s, 8GT/s, 16GT/s) and also Extended Speed Modes (ESM), allowing Extended Data Rate (EDR) support. ESM Data Rate0 (8.0GT/s or 16.0 GT/s) and ESM Data Rate1, defined for 20.0 GT/s or 25.0 GT/s.
Synopsis wirbt erst ab dem PCIe 4.0 MC mit diesen zusätzlichen Modi, doch dies bedeutet nicht, dass sie nicht schon entsprechende IP für Partner zur Verfügung gestellt haben wie AMD.

BoMbY
2017-08-07, 16:36:15
https://www.semiwiki.com/forum/attachments/content/attachments/19922d1496842059-1-ccix-pcie-ctrl-min-jpg https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg


ESM ist ein gutes Stichwort.

Aus 'root/drivers/gpu/drm/amd/include/asic_reg/vega10/NBIO/nbio_6_1_sh_mask.h (https://cgit.freedesktop.org/~agd5f/linux/tree/drivers/gpu/drm/amd/include/asic_reg/vega10/NBIO/nbio_6_1_sh_mask.h?h=drm-next-4.14-wip&id=40262418f30ec4be0e2718dfb422ce82f2a91289)':


//PCIE_ESM_CTRL
#define PCIE_ESM_CTRL__ESM_GEN_3_DATA_RATE__SHIFT 0x0
#define PCIE_ESM_CTRL__ESM_GEN_4_DATA_RATE__SHIFT 0x8
#define PCIE_ESM_CTRL__ESM_ENABLED__SHIFT 0xf
#define PCIE_ESM_CTRL__ESM_GEN_3_DATA_RATE_MASK 0x007FL
#define PCIE_ESM_CTRL__ESM_GEN_4_DATA_RATE_MASK 0x7F00L
#define PCIE_ESM_CTRL__ESM_ENABLED_MASK 0x8000L


(Raven hat übrigens schon NBIO 7.0, im Gegensatz zum NBIO 6.1 bei Vega 10.)

Das scheint aber bisher nicht aktiv in den offenen Linux Treibern verwendet zu werden, wobei das schwer zu durchsuchen ist.

Complicated
2017-08-07, 16:39:05
Damit ist aber zumindest bestätigt, dass es ESM in der PCIe V3 und PCIe v4 gibt bei Vega10. Es besteht die Möglichkeit, dass bei PCIe v3 die maximale Datenrate 16 GT/s ESM DataRate0 (bei 16 Lanes) ist. Das wäre aber immer noch das doppelte der PCIe 3 Datenrate.

Gipsel
2017-08-07, 16:44:06
Bombys Quelle sagt hier etwas anderes.Nein, tut sie nicht.
Würden diese spezifischen PHYs benötigt, wäre es dort eingetragen wie es auch bei OpenCAPI/NVLink eingetragen ist.Wenn ein PHY das passende Protokoll und die Enkodierung nicht unterstützt, kannst Du das nicht über diesen PHY nutzen. Punkt. Fertig. Aus.
Hast du eine Quelle für die max. 12.5 GT/s für die Multipurpose PHYs? Wie gesagt habe ich die Quelle verpasst dafür. Kannst du einen Link anbieten für die max. 12,5 GT/s?
Ja (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=11390214#post11390214). Die dort genannten "Enterprise 12G Combo PHYs" findet man bei Synopsis (https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g) (und bitte aufpassen, was da optional ist! Was genau die auf dem Zeppelin-Die können, steht bei AMD [erster Link]).
Eine bestehende Datacenter-Infrastruktur zu nutzen um dann ALLE CPUs, FPGAs und GPUs etc. ersetzen zu müssen weil die verbauten PHYs nicht nutzbar sind ergibt keinerlei Vorteil gegenüber irgendeinem anderen Interconnect, wie z.B. PCIe4. Das ist aber eben genau der Grund warum überhaupt CCIX existiert - Hardwarebeschleuniger können direkt mit schon vorhandenen CPUs - nicht nur den neuen AMD CPUs - genutzt werden.Deswegen rede ich ja von Luftschlössern und Zukunftsmusik ;). Eine PCIe2-Karte in einem PCIe3-Board hat auch keine Vorteile von PCIe3, oder? Erst wenn Alles in der Infrastruktur damit klar kommt, kann man höhere Bandbreiten nutzen. Man kann nicht einfach mal so das Doppelte oder Dreifache an Bandbreite über bestehende PHYs zaubern. Wie soll das gehen? Es benötigt dazu natürlich neue PHYs auf beiden Seiten der Verbindung.
Und übrigens, es bieten sich natürlich auch Vorteile, falls die Bandbreite identisch wäre.
Hier warum es sehr gut möglich ist, dass Vega und schon ausgelieferte AMD CPUs diesen EDR/ESM Mode der PHYs nutzen können:
https://news.synopsys.com/AMD-and-Synopsys-Expand-IP-Partnership

https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.html

https://www.semiwiki.com/forum/attachments/content/attachments/19922d1496842059-1-ccix-pcie-ctrl-min-jpg https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg

Synopsis wirbt erst ab dem PCIe 4.0 MC mit diesen zusätzlichen Modi, doch dies bedeutet nicht, dass sie nicht schon entsprechende IP für Partner zur Verfügung gestellt haben wie AMD.Die auf dem Zeppelin-Die verbauten PHYs können es nicht, die in Vega10 höchstwahrscheinlich auch nicht. PCIe4 (16Gbps) und xGMI (vermutlich dann mit bis zu 25Gbps?) standen erst für Vega20 auf einer Folie.
=> Zukunftsmusik

=========================

Zumal bei Vega immer mit IF-Tauglichkeit geworben wurde IIRC.Vega benutzt IF on-Die als Verbindung zwischen den CUs und den Speichercontrollern. Völlig uninteressant hier.
Es hieß ja immer Vega+Zen als IF-Verbund. Da geh ich natürlich davon aus, dass das für alle Vega und Zen gilt.Da gehst Du von zu viel aus. Genausogut kann das für eine HPC-APU aus 2 Pinnacle-Ridge/Zen2 und einem Vega20-Die gelten.
Grundsätzlich wird das mit Zepplin über PCIe problemlos gehen und dass es mit V10 (alias Greenland) geht war eigentlich obligatorisch.Warum sollte das so sein? Das wurde nirgendwo versprochen. Das uralte "Leak" mit der HPC-APU kann sich auch auf Vega20 beziehen oder in den letzten 2 Jahren eingestellt worden sein. Und da lief das gerade nicht über PCIe-PHYs sondern über GMI (on-Package).
Jetzt heißt es plötzlich es geht nicht mehr bei V10, das kann aber wie Complicated ausführt tatsächlich auch nur ein Missverständnis sein. Was natürlich sein kann, dass der bisherige AGESA nicht IF-fähig ist und das das einfach noch nachgeliefert wird - die haben ja im Moment auch noch andere Baustellen als dieses Luxusproblem. Aber ich stimme zu, dass CCIX hier über die PCIe PHYs geliefert werden muss, da sonst IF über PCIe-Infrastruktur einfach nur sinnlos wäre. Das wird auf jeden Fall so funktionieren. Die werden beides können und so war das auch in dem Zepplin Diagramm vermerkt IIRC.Das bisherige Zeppelin-Die kann kein CCIX (es sei denn, xGMI ist identisch dazu).

BoMbY
2017-08-07, 16:59:56
Die auf dem Zeppelin-Die verbauten PHYs können es nicht, die in Vega10 höchstwahrscheinlich auch nicht. PCIe4 (16Gbps) und xGMI (vermutlich dann mit bis zu 25Gbps?) standen erst für Vega20 auf einer Folie.


Also das würde ich so nicht sagen:

http://i.imgur.com/YT8y6A5.jpg

=> Alle Links können auch IF.

http://i.imgur.com/GzUgqSL.jpg

=> Edit: Alle Links können 38 GB/s (merke: großes B) -> Vermutlich pro 16 Lanes @ 20 GT/s (entsprechend CCIX ESM Data Rate1).

Edit: Nicht zu vergessen "Extending beyond SoC":

http://i.imgur.com/G7Tpr7T.jpg

foenfrisur
2017-08-07, 17:20:21
gibt es hier einen Zusammenhang bzgl. des immer noch fehlenden, offiziellen pcie3.0 Support bei allen ryzen boards?

MfG

Complicated
2017-08-07, 17:31:10
Ja (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=11390214#post11390214). Die dort genannten "Enterprise 12G Combo PHYs" findet man bei Synopsis (https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g) (und bitte aufpassen, was da optional ist! Was genau die auf dem Zeppelin-Die können, steht bei AMD [erster Link]).

[...]

Die auf dem Zeppelin-Die verbauten PHYs können es nicht, die in Vega10 höchstwahrscheinlich auch nicht. PCIe4 (16Gbps) und xGMI (vermutlich dann mit bis zu 25Gbps?) standen erst für Vega20 auf einer Folie.
=> Zukunftsmusik

Danke für die Links.
Bei dem Synopsis-Link sind alles TSMC Implementierungen für 16nm/28nm Produkte, laut der Dokumentation dort.

Im ersten Link von AMDs 17h-Family CPUs ist xGMI vorhanden.
Dort sind die PHYs auch als 2xPHY E12G und 4xPHY E12G eingezeichnet.
Nutzen demnach Dual-Channel und Quad-Channel, wie von Synopsis vorgesehen (Optional)
Aus der Kurzbeschreibung des PHYs:
Aggregation (x2 to x16) and bifurcation
Bis zu 16x Aggregation und ebenfalls möglich einen PHY zu splitten.

Damit würde ich sagen die 4xPHYs des Typs E12G können laut AMD Doku Seite 28 (Das Bild, welches du gepostet hast) 4x12,5 GT/s = 50 GT/s x6 und 2x12,5 GT/s = 25 GT/s x 5 wie auch in der Liste geschrieben Seite 27:
Enterprise 12G (E12G) Combo PHYs, PCS, and UPI muxing
• 6 x4 PHYs plus 5 x2 PHYs

Hier ein Link wie PHYs aggregiert werden: http://www.ieee802.org/3/hssg/public/sep06/frazier_01_0906.pdf

Pirx
2017-08-07, 21:19:17
...
=> Edit: Alle Links können 38 GB/s (merke: großes B) -> Vermutlich pro 16 Lanes @ 20 GT/s (entsprechend CCIX ESM Data Rate1)....
Das sind doch nur die GMI-Links, oder?

edit: eigentlich nicht

Gipsel
2017-08-08, 02:18:23
Also das würde ich so nicht sagen:

http://i.imgur.com/YT8y6A5.jpg
=> Alle Links können auch IF.Daß IF für GPUs genutzt wird, steht da nicht. Die Karten kann man auch über PCIe anbinden. Und die xGMI/PCIe-Combo-PHYs von Ryzen können keine 25 GT/s. Die können maximal 12,5GT/s. Da geht nichts dran vorbei. Daß die PCIe-Combo-PHYs auch xGMI (bis maximal 10,6GT/s momentan genutzt, 12,5GT/s max spec) können, ist ja unstrittig.
http://i.imgur.com/GzUgqSL.jpgUnd?
Die Combo-PHYs auf den Zeppelin-Dies können PCIe und xGMI (IF). Das sagt gar nichts darüber aus, was die PCIe-PHYs in Vega 10 können. Laut bisher bekannten Folien ist das nur PCIe3. Erst Vega20 kommt angeblich mit xGMI (und PCIe4).
=> Edit: Alle Links können 38 GB/s (merke: großes B) -> Vermutlich pro 16 Lanes @ 20 GT/s (entsprechend CCIX ESM Data Rate1).Nö, das ist aggregiert über beide Richtungen. Mit xGMI kommt eine etwas ineffizientere (bezüglich Nutzdatenrate) Codierung zum Einsatz, so daß die 10,67GT/s nicht ganz in 21,33 GB/s pro Richtung (42,67 GB/s aggregiert) resultieren, sondern in etwas weniger.
Edit: Nicht zu vergessen "Extending beyond SoC":

http://i.imgur.com/G7Tpr7T.jpgDas verdeutlicht die Möglichkeiten, nicht was in aktuellen Produkten verfügbar ist.

============================

Danke für die Links.
Bei dem Synopsis-Link sind alles TSMC Implementierungen für 16nm/28nm Produkte, laut der Dokumentation dort.Und AMD hat eben eine Implementierung für GFs 14nm Prozeß geordert. Daß immer mehr verfügbar ist, als auf den Webseiten steht, sollte doch spätestens klar sein, seit dem AMD 8Hi HBM-Stacks mit 1,89 Gbps ausliefert ;). Weder 8Hi, noch den Speedgrade gibt es offiziell laut den Webseiten der Hersteller, und schon gar nicht in der Kombination (und auf den MI25-Karten gar noch mit ECC).
Im ersten Link von AMDs 17h-Family CPUs ist xGMI vorhanden.
Dort sind die PHYs auch als 2xPHY E12G und 4xPHY E12G eingezeichnet.
Nutzen demnach Dual-Channel und Quad-Channel, wie von Synopsis vorgesehen (Optional)
Aus der Kurzbeschreibung des PHYs:

Bis zu 16x Aggregation und ebenfalls möglich einen PHY zu splitten.

Damit würde ich sagen die 4xPHYs des Typs E12G können laut AMD Doku Seite 28 (Das Bild, welches du gepostet hast) 4x12,5 GT/s = 50 GT/s x6 und 2x12,5 GT/s = 25 GT/s x 5 wie auch in der Liste geschrieben Seite 27:Ganz falsch. Das sagt lediglich, wie man das Interface in einzelne Links splitten kann bzw. mehrere Lanes zu einem Link zusammenfassen kann (z.B. einen x16 PCIe-Link oder einen x8, einen x4, einen x2 und zwei x1 Links, oder auch eine fast beliebige Kombination zwischen xGMI, PCIe und SATA oder Ethernet innerhalb des Interfaces erlaubt ist). Jede Lane ist immer auf 12,5 GT/s limitiert. Mehr kann der PHY schlicht nicht.

Complicated
2017-08-08, 10:32:42
Ganz falsch. Das sagt lediglich, wie man das Interface in einzelne Links splitten kann bzw. mehrere Lanes zu einem Link zusammenfassen kann (z.B. einen x16 PCIe-Link oder einen x8, einen x4, einen x2 und zwei x1 Links, oder auch eine fast beliebige Kombination zwischen xGMI, PCIe und SATA oder Ethernet innerhalb des Interfaces erlaubt ist). Jede Lane ist immer auf 12,5 GT/s limitiert. Mehr kann der PHY schlicht nicht.
Wenn das stimmen würde wäre a) Dieser Eintrag seltsam (kein 8x und 16x??)
Enterprise 12G (E12G) Combo PHYs, PCS, and UPI muxing
• 6 x4 PHYs plus 5 x2 PHYs
b) Dies nicht anwendbar für AMD:
Hier ein Link wie PHYs aggregiert werden: http://www.ieee802.org/3/hssg/public...er_01_0906.pdf (http://www.ieee802.org/3/hssg/public/sep06/frazier_01_0906.pdf)
Und c) Das was du eben erklärt hast doppelt gemoppelt in der Grafik:
https://abload.de/img/ryzen_soc_diagramm4uq6.png

Und wenn jede Lane (PCIe) auf 12,5 GT/s limitiert ist, dann ist das bei 16x noch deutlich mehr als das worüber wir hier schreiben. Ich denke du solltest diese Grafik neu betrachten und sehen dass die bis zu 16x Bündelung der PCIe Lanes in der Mitte verzeichnet ist (LAN, SATA, PCIe) und die PHYs zusammen geschaltet werden um eben ein vielfaches von den 12,5 GT/PHY zu ermöglichen.

Die Vielfachen hinter dem PHY-Muxer sind nur noch auf die PHY selber bezogen und daran werden alle externen Anbindungen angeschlossen. Die selbe Darstellung bei USB und den GMI-Links. Je 2 GMI-PHYs zu einem GMI-Link zusammen geschlossen=> 4 GMI-Links nach draußen geleitet. Jeder Link nutzt 2 PHYs aggregiert.

Zumal in dem Link zur IEEE deutlich erklärt wird warum ein Interconnect nicht auf die max. Speed eines PHYs limitiert ist. Es gibt keine 40 GBit PHYs zum Beispiel. Es werden 4x10GBit PHYs aggregiert.

Gipsel
2017-08-08, 11:56:56
ESM ist ein gutes Stichwort.

Aus 'root/drivers/gpu/drm/amd/include/asic_reg/vega10/NBIO/nbio_6_1_sh_mask.h (https://cgit.freedesktop.org/~agd5f/linux/tree/drivers/gpu/drm/amd/include/asic_reg/vega10/NBIO/nbio_6_1_sh_mask.h?h=drm-next-4.14-wip&id=40262418f30ec4be0e2718dfb422ce82f2a91289)':

//PCIE_ESM_CTRL
#define PCIE_ESM_CTRL__ESM_GEN_3_DATA_RATE__SHIFT 0x0
#define PCIE_ESM_CTRL__ESM_GEN_4_DATA_RATE__SHIFT 0x8
#define PCIE_ESM_CTRL__ESM_ENABLED__SHIFT 0xf
#define PCIE_ESM_CTRL__ESM_GEN_3_DATA_RATE_MASK 0x007FL
#define PCIE_ESM_CTRL__ESM_GEN_4_DATA_RATE_MASK 0x7F00L
#define PCIE_ESM_CTRL__ESM_ENABLED_MASK 0x8000LDamit ist aber zumindest bestätigt, dass es ESM in der PCIe V3 und PCIe v4 gibt bei Vega10.Nicht unbedingt. Es kann auch lediglich bedeuten, daß sie den Code für spätere Vega-Versionen vorbereiten, damit man dafür dort nichts ändern muß.

===========================

Wenn das stimmen würde wäre a) Dieser Eintrag seltsam (kein 8x und 16x??)Ähm, die Synopsis-PHYs können per Link-Aggregierung die Lanes über mehrere PHYs auch zusammenfassen. So ein 16er-Block aus Lanes (3x4 + 2x2) kann beinahe beliebig gesplittet und zusammengefaßt werden (mit dem Maximum von 8 einzelnen Links).
b) Dies nicht anwendbar für AMD:Was? Erstens bezieht sich das dort auf Ethernet und zweitens doch, das funktioniert ganz ähnlich dazu.
Und c) Das was du eben erklärt hast doppelt gemoppelt in der Grafik:
https://abload.de/img/ryzen_soc_diagramm4uq6.pngWas soll in der von mir verlinkten Grafik doppelt gemoppelt sein? Da steht doch genau das drin, was ich sage (wenn man noch den erläuternden Text dazu in dem von mir verlinkten AMD-Dokument liest).
Und wenn jede Lane (PCIe) auf 12,5 GT/s limitiert ist, dann ist das bei 16x noch deutlich mehr als das worüber wir hier schreiben.Wenn man einen 16er-Link hat, hat man 16 Lanes zu je 8 GT/s bei PCIe3 (also 16GB/s pro Richtung). Und wenn das im xGMI-Modus läuft, hat man 16 Lanes zu je 10,6 GT/s (21,2GB/s pro Richtung brutto [netto etwas weniger]). Die Gesamtbandbreite des Links ist das Produkt aus Übertragungsgeschwindigkeit auf einer Lane mit der Anzahl der Lanes. Nur weil man Lanes bündelt, wird erhöht sich doch nicht die Geschwindigkeit einer Lane.
Ich denke du solltest diese Grafik neu betrachten und sehen dass die bis zu 16x Bündelung der PCIe Lanes in der Mitte verzeichnet ist (LAN, SATA, PCIe) und die PHYs zusammen geschaltet werden um eben ein vielfaches von den 12,5 GT/PHY zu ermöglichen.Vielleicht liest Du mal bei Synopsis nach (Link habe ich angegeben), was das Ding kann und was nicht.
Auf Zeppelin sind zwei PCIe-Controller verbaut, die jeweils bis zu 8 PCIe-Links (bis 16x) betreiben können. Jeder davon hat seinen eigenen Physical Coding Sublayer (der das eigentlich PCIe Physical Layer Protokoll handhabt) Diese (insgesamt bis zu 16 Links beliebiger Breite bis x16) können dann (in beliebiger Mischung mit zusätzlich 8 SATA-Links, 4 Ethernet-Links und 2 xGMI-Links) auf die eigentlichen Lanes (32 Stück) der PHYs multiplexed werden (Alles gleichzeitig geht natürlich nicht). Das war's.
Die Vielfachen hinter dem PHY-Muxer sind nur noch auf die PHY selber bezogen und daran werden alle externen Anbindungen angeschlossen.Das gibt lediglich das physische Layout der PHYs an (die Blöcke kann man so wie angegeben auf Dieshots sehen!). Durch das Muxing ist das aber flexibel einsetzbar und praktisch nicht von Belang (außer für die Leute, die den Code [steckt in Agesa höchstwahrscheinlich] schreiben, um das wie gewünscht zu konfigurieren).
Die selbe Darstellung bei USB und den GMI-Links. Je 2 GMI-PHYs zu einem GMI-Link zusammen geschlossen=> 4 GMI-Links nach draußen geleitet. Jeder Link nutzt 2 PHYs aggregiert.Nein.
Es gibt 4 USB3-Controller on-Die und man hat dafür genau 4 spezialisierte PHYs.
Und GMI funktioniert anders. Jeder der 4 GMI-Links (mit eigenem PCS) besteht eigentlich aus zwei unidirektionalen Sublinks (sieht man auch auf dem Ryzen Die-Shot und wurde schon diskutiert, bevor das AMD-Manual mit dem Schma veröffentlicht wurde!) und AMD hat sich entschieden, die auch so wie vorhanden einzeln als PHY einzuzeichnen.
Zumal in dem Link zur IEEE deutlich erklärt wird warum ein Interconnect nicht auf die max. Speed eines PHYs limitiert ist. Es gibt keine 40 GBit PHYs zum Beispiel. Es werden 4x10GBit PHYs aggregiert.Das stimmt nicht. Link-Aggregierung (ein deutsches Wört wäre Kanalbündelung) ist mehr oder weniger eine logische Operation. Das kann man machen, um hohe Datenmengen ohne die passend schnellen Interconnects und PHYs übertragen zu können, es ist praktisch eine Art Notlösung. Aber nicht nur bei Synopsis kann man inzwischen PHYs erwerben, die physisch 25GT/s pro Lane oder auch noch mehr (50 oder 56GT/s) machen, ganz ohne Aggregierung.

Da das jetzt aber kaum noch was mit Vega zu tun hat, würde ich darum bitten, daß falls weiter Diskussionbedarf besteht, ein neuer Thread dazu aufgemacht wird (ich schiebe dann auch ein paar Posts dahin rüber).

Skysnake
2017-08-08, 12:12:08
@Complicated
Ums mal kurz zu machen. Gipsel hat Recht und du nicht.

Complicated
2017-08-08, 13:12:48
Link-Aggregierung (ein deutsches Wört wäre Kanalbündelung) ist mehr oder weniger eine logische Operation. Das kann man machen, um hohe Datenmengen ohne die passend schnellen Interconnects und PHYs übertragen zu können, es ist praktisch eine Art Notlösung. Aber nicht nur bei Synopsis kann man inzwischen PHYs erwerben, die physisch 25GT/s pro Lane oder auch noch mehr (50 oder 56GT/s) machen, ganz ohne Aggregierung.

Also damit ist doch schon die Limitierung auf 12,5 GT/s vom Tisch. Und nur darum geht es bei der Diskussion.
@Complicated
Ums mal kurz zu machen. Gipsel hat Recht und du nicht.
Gipsel argumentiert, dass wegen der 12,5 GT/ PHYs nicht mehr Daten übertragen werden können auf dem PCIe. Damit hat er nicht Recht. Die PHYs sind nicht zwangsläufig das Limit auch wenn es noch schnellere PHYs gibt. Das Prinzip ist das selbe wie 10 Gbit PHYs bei 40 Gbit LAN zum Einsatz kommen (wie verlinkt zu IEEE) und 4 davon gebündelt werden. Mehr habe ich nicht geschrieben. Auch Bombys Folien von AMD zeigen das.

BoMbY
2017-08-08, 13:33:32
Jede Lane ist immer auf 12,5 GT/s limitiert. Mehr kann der PHY schlicht nicht.

Gibt es da irgendeinen Beleg für? Oder ist das wieder nur eine Verwirrung mit Full Duplex? 12,5 GT/s gibt es nirgendwo, vermutlich sind es eher 25 GT/s. PCIe 3.0 ist 8 GT/s, 4.0 ist 16 GT/s, und bei CCIX gibt es 20 GT/s oder 25 GT/s.

Gipsel
2017-08-08, 13:39:19
Also damit ist doch schon die Limitierung auf 12,5 GT/s vom Tisch. Und nur darum geht es bei der Diskussion.

Gipsel argumentiert, dass wegen der 12,5 GT/ PHYs nicht mehr Daten übertragen werden können auf dem PCIe. Damit hat er nicht Recht. Die PHYs sind nicht zwangsläufig das Limit auch wenn es noch schnellere PHYs gibt. Das Prinzip ist das selbe wie 10 Gbit PHYs bei 40 Gbit LAN zum Einsatz kommen (wie verlinkt zu IEEE) und 4 davon gebündelt werden. Mehr habe ich nicht geschrieben. Auch Bombys Folien von AMD zeigen das.Wenn Du 16 Lanes in einem Link (z.B. zum anderen Sockel oder zur Grafikkarte) hast und die PHYs maximal 12,5GT/s können, kannst Du damit pro Richtung nicht mehr als 12,5GT/s*16bit = 200GBit/s = 25GB/s an Daten übertragen, Link-Aggregierung hin oder her. So schwer ist das doch nicht zu verstehen. Du kannst über eine Datenleitung (oder auch 16 davon) nicht einfach mal das Doppelte an Daten zaubern. Das geht nicht. Wenn Du zwei mal 16 Lanes hättest (also 32), geht natürlich doppelt so viel. Allerdings sind in einem PCIe-Slot physisch halt nur 16 Lanes verdrahtet, da bekommst Du keine 32 durch und Du kannst die 16 Lanes nicht schneller betreiben, als daß was die PHYs können. Deswegen limitiert die maximale Geschwindigkeit einer Lane (also das, was der PHY maximal unterstützt) natürlich die Geschwindigkeit. Und wenn Du über 4 parallele Kabel jeweils 10 GBit überträgst um in der Summe 40 GBit/s zu haben, hast Du trotzdem kein Kabel, in dem 40GBit/s übertragen werden sondern immer noch 4 Kabel zu je 10 GBit/s (die wegen der Linkbündelung logisch als ein 40 GBit/s Link aufgefaßt werden können, physisch sind es nur vier parallele 10 GBit/s Links).

=====================

Gibt es da irgendeinen Beleg für? Oder ist das wieder nur eine Verwirrung mit Full Duplex? 12,5 GT/s gibt es nirgendwo, vermutlich sind es eher 25 GT/s. PCIe 3.0 ist 8 GT/s, 4.0 ist 16 GT/s, und bei CCIX gibt es 20 GT/s oder 25 GT/s.Schau Dir die von mir gelieferten Links zu AMDs Manual an, die heißen "12G" PHYs und bei Synopsis steht explizit 12,5GT/s als Maximum (daher der Name!) dafür. Da beißt die Maus keinen Faden ab.
Und ja, bei der Epyc-Präsentation hat AMD die Bandbreiten für beide Richtungen aggregiert angegeben.

=====================

Und jetzt ist hier Schluß damit! Macht einen neuen Thread auf, wenn Ihr das nicht glauben und weiter diskutieren wollt!

Complicated
2017-08-08, 14:14:25
Wenn Du 16 Lanes in einem Link (z.B. zum anderen Sockel oder zur Grafikkarte) hast und die PHYs maximal 12,5GT/s können, kannst Du damit pro Richtung nicht mehr als 12,5GT/s*16bit = 200GBit/s = 25GB/s an Daten übertragen, Link-Aggregierung hin oder her.
Also die Fähigkeit ob Vega nun über PCIe mehr als die 16xPCIe, sprich ´32 GB/s-50GB/s übertragen kann ist hier Topic und eines der Kernfeatures, welches AMD angekündigt hat. Du behauptest steif und fest hier würde ein Hardware-Limit der PHYs vorliegen weil ein einzelner Synopsis-PHY nicht schneller als 12,5 GT/s bei den CPUs von AMD kann.

Ich sage dir nun das dritte mal dass der von dir zitierte Teil nur die halbe Wahrheit ist, siehe erneut die Präsentation der IEEE:
http://www.ieee802.org/3/hssg/public/sep06/frazier_01_0906.pdf
Hier werden 4x 10 GBit PHYs genutzt um 40 Gbit LAN zu ermöglichen. Das selbe wird auch bei den PHYs des Vega Chips funktionieren. Da können 4xPHYs zusammengeschlossen (Aggregation) um 4 mal so schnell wie ein einzelner zu sein.
So schwer ist das doch nicht zu verstehen.Möchte ich gerne zurück geben und mit einem Bild aus der nun zum dritten mal verlinkten Präsentation unterstreichen:
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60757&stc=1&d=1502194264

Und ganz genau nach dem selben Prinzip lassen sich 4x12,5 GT/s zu 50 GT/s bündeln. Also limitiert die Geschwindigkeit eines einzelnen PHYs nicht die Interconnects so wie du es behauptest die ganze Zeit. Da ist auf Vega demnach sehr wohl zu erwarten, dass mit Ryzen mehr über den PCIe als die 16x-Speed von 8 GB/s übertragen werden kann.

Gipsel
2017-08-08, 14:28:36
Also die Fähigkeit ob Vega nun über PCIe mehr als die 16xPCIe, sprich ´32 GB/s-50GB/s übertragen kann ist hier Topic und eines der Kernfeatures, welches AMD angekündigt hat.Nein, ist es nicht.
Du behauptest steif und fest hier würde ein Hardware-Limit der PHYs vorliegen weil ein einzelner Synopsis-PHY nicht schneller als 12,5 GT/s bei den CPUs von AMD kann.Weil das schlicht so ist. Wie willst Du über die Leitungen das Doppelte oder gar mehr von bekommen, wenn der Hersteller des Interfaces als Maximum spezifiziert?
Ich sage dir nun das dritte mal dass der von dir zitierte Teil nur die halbe Wahrheit ist, siehe erneut die Präsentation der IEEE:
http://www.ieee802.org/3/hssg/public/sep06/frazier_01_0906.pdf
Hier werden 4x 10 GBit PHYs genutzt um 40 Gbit LAN zu ermöglichen. Das selbe wird auch bei den PHYs des Vega Chips funktionieren. Da können 4xPHYs zusammengeschlossen (Aggregation) um 4 mal so schnell wie ein einzelner zu sein.
Möchte ich gerne zurück geben und mit einem Bild aus der nun zum dritten mal verlinkten Präsentation unterstreichen:
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60757&stc=1&d=1502194264Falls Du nicht blind bist, wäre Dir dort aufgefallen, daß das "simple" Kanalbündelung ist. Statt einem 40 GT/s PHY nutzt man parallel vier 10GT/s PHYs, um 40Gbit/s zu übertragen. Und genau so ist das in dem Schema auch eingezeichnet. Das ist eben nicht damit vergleichbar, über 16 vorhandenen Lanes das Doppelte an Daten quetschen zu wollen. Da müssen die PHYs physisch schneller werden. Oder wie ich schon einmal darauf geantwortet habe:Und wenn Du über 4 parallele Kabel jeweils 10 GBit überträgst um in der Summe 40 GBit/s zu haben, hast Du trotzdem kein Kabel, in dem 40GBit/s übertragen werden sondern immer noch 4 Kabel zu je 10 GBit/s (die wegen der Linkbündelung logisch als ein 40 GBit/s Link aufgefaßt werden können, physisch sind es nur vier parallele 10 GBit/s Links).
=============
Und ganz genau nach dem selben Prinzip lassen sich 4x12,5 GT/s zu 50 GT/s bündeln.Für diese Kanalbündelung mit Faktor vier würdest Du ausgehend von einem x16-Link aber 64 Lanes für die Übertragung benötigen. Weder hat ein Zeppelin-Die so viele Lanes noch stecken im PCIe-Konnektor so viele drin. Zeppelin hat 32 Lanes und in einem x16 PCIe-Slot gibt es bekanntlich nur genau 16. Das geht also schlicht nicht. Und Du bist auf das Maximum limitiert, was Du über 16 Lanes drüberbekommst. Und das ist eben das Maximum der Signaling Rate (hier also 12,5GT/s * 16 Lanes = 25 GB/s pro Richtung). Nix mit 25 oder gar 50GT/s und ~3 bzw. ~6fachen Durchsatz im Vergleich zu PCIe3 (8GT/s).
Also limitiert die Geschwindigkeit eines einzelnen PHYs nicht die Interconnects so wie du es behauptest die ganze Zeit.Und wenn Du das noch 10mal sagst, wird es trotzdem nicht wahrer.
Informiere Dich bitte über die technischen Grundlagen! Das erspart uns dann diese sinnlose Diskussion.

Screemer
2017-08-08, 15:24:01
Das hab ich bisher auch absolut anders verstanden. Schon in der ersten Diskussion um if und ccix war konsens, dass man per agragation zusammengeschalteten phys über eine lane die doppelte Datenrate prügelt. Nicht umsonst lassen sich per ccix wesentlich höhere Datenraten bei gleicher lane Anzahl erreichen ohne das einzelne phys den max. Durchsatz erreichen müssen. Natürlich vorausgesetzt Dämpfung, etc. grätschen da nicht rein. Warum wird das jetzt plötzlich in Frage gestellt?

|MatMan|
2017-08-08, 15:46:27
Vielleicht hilft ein Auto-Vergleich:
- eine Lane entspricht einer Spur einer Autobahn
- die Übertragungsrate eines PHYs (z.B. 12,5 GT/s) entspricht der der Anzahl an LKW, die pro Zeiteinheit durchkommen (also der Geschwindigkeit eines LKW)
- Aggregation (Kanalbündelung) bedeutet nichts anderes als die Autobahn mit mehr Spuren auszubauen (maximal 16 bei den aktuellen PCIe Steckern)
- die Übertragungsrate des PHYs zu erhöhen bedeutet die LKW schneller fahren zu lassen (das ist schon der Fall um von 8 GT/s auf 12,5 GT/s zu kommen)
- wenn der LKW die Höchstgeschwindigkeit erreicht hat, für die er gebaut wurde, braucht es eben einen neuen Typ LKW, der eine höhere Höchstgeschwindigkeit hat (z.B. PHYs nach PCIe 4 Standard) und ggf. eine bessere Fahrbahn (Leiterbahnen nach einer bestimmten Spezifikation)

Complicated
2017-08-08, 15:51:52
Nein, ist es nicht.
Weil das schlicht so ist. Wie willst Du über die Leitungen das Doppelte oder gar mehr von bekommen, wenn der Hersteller des Interfaces als Maximum spezifiziert?
Falls Du nicht blind bist, wäre Dir dort aufgefallen, daß das "simple" Kanalbündelung ist. Statt einem 40 GT/s PHY nutzt man parallel vier 10GT/s PHYs, um 40Gbit/s zu übertragen. Und genau so ist das in dem Schema auch eingezeichnet. Das ist eben nicht damit vergleichbar, über 16 vorhandenen Lanes das Doppelte an Daten quetschen zu wollen. Da müssen die PHYs physisch schneller werden.
Das stimmt alles einfach so nicht.

Zunächst einmal würde ich den Ton gerne mal wieder normalisieren. Ich bin nicht blind, doch du scheinst hier zwei Dinge immer wieder argumentativ zu vermischen:
CCIX kann über 16x PCIe Lanes mehr Daten übertragen als mit PCIe-Protokoll möglich ist. Die Technik dazu heisst ESM/EDR:
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg

Also streich das mal bitte aus deiner Argumentation raus, da du hier einfach falsch liegst! Punkt.

Diese erhöhten Datenraten, behauptest du nun werden limitiert an dem E12-PHY. Weil der nur max. 12,5 GT/s kann. Dass über die 16 PCIe-Lanes mehr als dies möglich ist zeigt die obere Grafik. Bei 8 GT/s im PCIe Mode bis zu 16 GT/s mit ESM. 8.0 GT/s ist PCIe3 Spezifikation. 16 GT/s entspricht 32 GB/s im ESM Mode.

um die 16 GT/s über das aus PHYs bestehende Interface zu übermitteln reicht es aus wenn man 2 der 12,5 GT/s PHYs aggregiert und zusammenfasst. Das ist problemlos möglich wie nun mehrere Quellen dir zeigen.
Statt einem 40 GT/s PHY nutzt man parallel vier 10GT/s PHYs, um 40Gbit/s zu übertragen.Ja und das sage ich auch die ganze Zeit wenn "du nicht blind" bist. Und warum denkst du sei es nun unmöglich 2x12,5 oder 4x 12,5 GT/s PHYs zu bündeln um die 32GB/s-50GB/s, die über den PCIe im ESM Mode übertragen werden nach draußen an ein anderes Gerät mit den selben Eigenschaften zu übertragen? Analog zu der Bündelung der 10GB-LAN PHYs? Ebensowenig wie die 10 Gbit-PHYs im LAN das Limit sind, ist der 12,5 GT/s nicht das Limit was nach draußen geführt werden kann am PCIe-Interface. Es gibt mehr als nur einen 12,5 GT/s PHY.

Aus dem AMD Family 17h Dokument:
Enterprise 12G (E12G) Combo PHYs, PCS, and UPI muxing
• 6 x4 PHYs plus 5 x2 PHYs
Bitte rechne mir mal die gesamte Bandbreite dieser Angabe aus nach deiner Leseart. Bitte einmal die Bandbreite der PCIe Lanes und einmal die Bandbreite der PHYs, da diese nicht identisch sind.

Skysnake
2017-08-08, 16:35:45
Complicated, das sind nur Möglichkeiten.

Gipsel hat absolut recht. Die PHYs können einfach nicht mehr als die 12 GT/s wobei eine Transaktion einem Bit Bruttorate entspricht.

Man kann jetzt natürlich bündeln. Macht man bei Pcie ja von 1x bis 32x laufen Spezifikation. Aber man kann mit einfach 32 lanes bündeln/ weil kein Pcie Device 32x als Anbindung bereit stellt sondern nur 16x. Damit ist man bei der Bündelung eben beschränkt und das die PHYs eben eine gewisse maximalfrequenz haben ergeben sich eben die von Gipsel genannten Bandbreiten.

Da muss man nicht drüber diskutieren.

Um mit nem dummen Auto Vergleich zu kommen. Nur weil Porsche drauf steht fährt das Ding 280 km/h....

Es hängt halt immer von der Implementierung ab, und bei Ryzen sind eben die von Gipsel genannten Werte das Maximum. Ryzen2 kann wahrscheinlich mehr, wenn er mal kommt.

Eventuell könnte eventuell sogar Ryzen mehr, aber am Ende hat man sich eben auf die genannten Werte geeinigt/ weil diese eben eine zuverlässigen Betrieb ermöglichen mit den entsprechenden yield raten.

Gipsel
2017-08-08, 16:48:43
Das hab ich bisher auch absolut anders verstanden. Schon in der ersten Diskussion um if und ccix war konsens, dass man per agragation zusammengeschalteten phys über eine lane die doppelte Datenrate prügelt. Nicht umsonst lassen sich per ccix wesentlich höhere Datenraten bei gleicher lane Anzahl erreichen ohne das einzelne phys den max. Durchsatz erreichen müssen. Natürlich vorausgesetzt Dämpfung, etc. grätschen da nicht rein. Warum wird das jetzt plötzlich in Frage gestellt?Da wird nichts in Frage gestellt, da haben vielleicht Einige nur was gründlich mißverstanden. Eine Datenleitung (bzw. ein differentielles Leitungspaar bei LVDS), die an einem PHY hängt, ist natürlich IMMER auf die maximale Geschwindigkeit des PHYs limitiert, an dem es hängt. Das nebenan noch ein zweiter PHY mit einem zweiten Leitungspaar existiert, hilft Dir da ja nicht weiter, wenn es darum geht über dieses eine Leitungspaar Daten zu schaufeln.

Gipsel
2017-08-08, 17:28:24
Das stimmt alles einfach so nicht.

Zunächst einmal würde ich den Ton gerne mal wieder normalisieren. Ich bin nicht blind,
Aber Du übersiehst ganz offensichtlich, daß in der von Dir angeführten Grafik zur Link-Aggregation nach der 802.3-Norm ganz klar 4 Kanäle parallel genutzt werden um über 4 Leitungspaaare jeweils 10 GT/s zu schicken. Auf beiden Seiten der Verbindung gibt es je vier 10 GT/s PHYs und dazwischen laufen 4 Leitungspaare. Nirgendwo gibt es da eine Signaling-Rate von 40 GT/s auf einer Leitung. Hier mal fett mit rotem Kästchen markiert:
https://abload.de/img/ieee802.3_aggregations9qbp.jpg

Ich finde die Diskussion schon beinahe absurd.
doch du scheinst hier zwei Dinge immer wieder argumentativ zu vermischen:
CCIX kann über 16x PCIe Lanes mehr Daten übertragen als mit PCIe-Protokoll möglich ist. Die Technik dazu heisst ESM/EDR:
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpgWenn Du PHYs verbaust, die 25GT/s oder gar mehr können, sicher. Allein, das können die "Enterprise 12G Combo PHYs" in Ryzen nicht. Die können maximal 12,5GT/s.
Also streich das mal bitte aus deiner Argumentation raus, da du hier einfach falsch liegst! Punkt.Lies Dir die Argumente noch mal in Ruhe durch und überdenke sie!
Diese erhöhten Datenraten, behauptest du nun werden limitiert an dem E12-PHY. Weil der nur max. 12,5 GT/s kann. Dass über die 16 PCIe-Lanes mehr als dies möglich ist zeigt die obere Grafik. Bei 8 GT/s im PCIe Mode bis zu 16 GT/s mit ESM. 8.0 GT/s ist PCIe3 Spezifikation. 16 GT/s entspricht 32 GB/s im ESM Mode.Wenn Du PHYs verbaust, die 16/20/25 GT/s können, dann stimmt das ja auch. Nur hat das AMD nicht getan. Für Vega20 stand mal auf einer Folie drauf, daß dort PCIe4 und xGMI unterstützt wird. Da müßte also sowas an Board sein (mindestens 16 GT/s, eventuell etwas schneller als das wie jetzt auch schon bei Zeppelin, der auch bis 12 GT/s kann und nicht nur 8 GT/s). Bei den Zeppelin-Dies ist das aber momentan sicher nicht der Fall. Kommt vielleicht schon mit Raven Ridge oder dann mit Pinnacle Ridge (Zen+ oder Zen2) und eben vermutlich Vega20 (wenn sich die Planung nicht noch geändert hat).
um die 16 GT/s über das aus PHYs bestehende Interface zu übermitteln reicht es aus wenn man 2 der 12,5 GT/s PHYs aggregiert und zusammenfasst. Das ist problemlos möglich wie nun mehrere Quellen dir zeigen.Nein, Du mißverstehst die angeführten Quellen. Zwei parallele Leitungen zu je 12,5GT/s ergeben keine Leitung mit 25 GT/s. Da gibt es ganz klare physikalische Gründe dagegen. Und deswegen wirst Du mit einem x16-Link auch nicht über 25GB/s pro Richtung kommen (das ist das Maximum mit 16 Lanes und den spezifizierten 12,5GT/s). Willst Du mehr übertragen, benötigst Du mehr Lanes oder schnellere PHYs, ganz einfach.
Ja und das sage ich auch die ganze Zeit wenn "du nicht blind" bist. Und warum denkst du sei es nun unmöglich 2x12,5 oder 4x 12,5 GT/s PHYs zu bündeln um die 32GB/s-50GB/s, die über den PCIe im ESM Mode übertragen werden nach draußen an ein anderes Gerät mit den selben Eigenschaften zu übertragen?Habe ich doch schon gesagt: 1. hast Du gar nicht so viele Lanes zum Bündeln und zweitens stecken im PCIe-Slot immer noch nur 16 Lanes drin. Da sind nicht magischerweise mit einem Mal 32 oder 64 Lanes drin. Und genauso bekommst Du auch nicht mit einem Mal 25 oder gar 50GT/s über ein PHY, welches nur für 12,5GT/s gebaut wurde.
Analog zu der Bündelung der 10GB-LAN PHYs?Ja ganz genauso, wo Du dann vier mal so viele Leitungen benutzen mußt, was auch bereits mehrfach angegebenen Gründen hier schlicht nicht möglich ist. :rolleyes:
Ebensowenig wie die 10 Gbit-PHYs im LAN das Limit sind, ist der 12,5 GT/s nicht das Limit was nach draußen geführt werden kann am PCIe-Interface.Bei begrenzter Anzahl an zu benutzenden Lanes ist das natürlich ein Limit. Du kannst ja nicht mehr Lanes benutzen, als da Leitungen liegen (16 Lanes für die Grafikkarte in einem x16 PCIe-Slot). Das wäre eine völlig andere Verdrahtung.
Es gibt mehr als nur einen 12,5 GT/s PHY.Ja, und man kann maximal 16 davon an einen x16 PCIe-Slot hängen. Do the math!
Aus dem AMD Family 17h Dokument:

Bitte rechne mir mal die gesamte Bandbreite dieser Angabe aus nach deiner Leseart. Bitte einmal die Bandbreite der PCIe Lanes und einmal die Bandbreite der PHYs, da diese nicht identisch sind.Was willst Du mir da jetzt sagen? Ein Zeppelin-Die hat bekanntlich 2x16=32 PCIe Lanes (+zwei 12G Lanes für andere Zwecke) maximal (diese Combo PHYs, die wahlweise SATA, Ethernet, PCIe oder xGMI machen, Alles zusammen muß sich diese 32 Lanes teilen [zumindest bei Epyc, im AM4 für Ryzen werden ja weniger Lanes rausgeführt]). Dementsprechend kommen da im SATA3(6G)-Modus maximal 6Gbit/s (0,75GB/s) pro Lane, im PCIe3-Modus (8GT/s) maximal 1 GB/s pro Lane, für Ethernet maximal 10GBit/s (1,25GB/s) pro Lane (abhängig vom Modus, in dem das betrieben wird, das Ganze unterstützt laut Synopsis auch Link-Aggregation auf bis zu 10 Lanes, um 100GBit/s Netzwerke ansteuern zu können [100GBASE-CR10]) und im xGMI-Modus (in Epyc maximal mit 10,6 GT/s betrieben) noch minimal mehr (1,33GB/s pro Lane brutto). Und?
Pro Lane kommst Du nie über 12,5GBit/s Brutto-Datenrate (1,56GB/s). Mehr können die PHYs eben nicht. Und wenn Du maximal 16 Lanes in einem PCIe-Slot nutzen kannst...

BoMbY
2017-08-08, 17:33:58
Okay, die Processor Programming Reference (PPR) for AMD Family 17h Models 00h-0Fh Processors (http://support.amd.com/TechDocs/54945_PPR_Family_17h_Models_00h-0Fh.pdf) scheint tatsächlich auf den Synopsys DesignWare Enterprise 12G PHY (https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g) mit 12.5 Gbps hinzuweisen. Das war mir bisher so nicht bewusst.

Edit: Nachfolger wäre dann vermutlich DesignWare Multi-Protocol 25G PHY (https://www.synopsys.com/dw/ipdir.php?ds=dwc_multi_protocol_25g_phy) in Verbindung mit DesignWare CCIX Controller IP (https://www.synopsys.com/dw/ipdir.php?ds=dwc_ccix_controller) (Edit: bzw. Infinity Fabric dahinter), was wir dann vielleicht ab Pinnacle Ridge, oder spätestens mit Zen2 erwarten dürften.

Complicated
2017-08-09, 09:25:19
Gipsel hat absolut recht. Die PHYs können einfach nicht mehr als die 12 GT/s wobei eine Transaktion einem Bit Bruttorate entspricht.

Das streitet doch überhaupt niemand ab.

Man kann jetzt natürlich bündeln. Macht man bei Pcie ja von 1x bis 32x laufen Spezifikation. Aber man kann mit einfach 32 lanes bündeln/ weil kein Pcie Device 32x als Anbindung bereit stellt sondern nur 16x. Damit ist man bei der Bündelung eben beschränkt und das die PHYs eben eine gewisse maximalfrequenz haben ergeben sich eben die von Gipsel genannten Bandbreiten.
Und das ist so einfach nicht korrekt.
a) es werden nicht mehr PCIe Lanes benötigt um mehr Daten zu übertragen. Die Quelle zu der ESM/EDR Technik ist von mir mehr als einmal verlinkt worden.

Anstatt 1 GT/s pro lane werden damit 2 GT/s pro lane übertragen. Es bleiben 16 lanes und es verdoppelt sich die Datanerate. Warum das stätig ignoriert wird und mir unterstellt wird ich würde zusätzliche Lanes hinzudichten ist mir völlig unklar in dieser Diskussion.
Hier nochmals die Quelle, warum keine zusätzlichen Lanes benötigt werden für die ESM Data Rate:
https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.html
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg

But PCIe 4.0 is defined by the PCI-SIG to run up to 16Gbps only, so the CCIX consortium has defined extended speed modes up to 25Gbps (2.5Gbps, 8Gbps, 16Gbps, 25Gbps). The goal is to allow multiple processor architectures with different instruction sets to seamlessly share data in a cache coherent manner with existing interconnects, boosted up to 25Gbps to fulfill the bandwidth needs of tomorrow applications, like big data analytics, search machine learning, network functions virtualizations (NFV), video analytics, wireless 4G/5G, and more.
Gipsels Argumentation folgend würde PCIe4 bei 16 Gbps sein maximum erreichen. Genau das ändert das CCIX Protokoll - auf der selben Zahl von lanes

Wenn wir darüber mal Übereinstimmung haben, können wir uns den PHYs zuwenden. Aber die Argumentation über das Limit von 16 lanes muss hier beendet sein, da der ESM Mode mehr Daten überträgt ohne zusätzliche Lanes.

Gipsel
2017-08-09, 10:50:49
Das streitet doch überhaupt niemand ab.Doch. Du behauptest im Prinzip, man könnte über eine Lane auch einfach so mal mehr übertragen.
Und das ist so einfach nicht korrekt.
a) es werden nicht mehr PCIe Lanes benötigt um mehr Daten zu übertragen.Wenn man die Datenrate auf einer Leitung nicht erhöhen kann, weil die PHYs schlicht nicht mehr können, dann doch.
Die Quelle zu der ESM/EDR Technik ist von mir mehr als einmal verlinkt worden.Und dafür benötigst Du PHYs, die 25GT/s schaffen, um die 25GT/s nutzen zu können. PHYs, die für maximal 12 GT/s ausgelegt wurden, können das natürlich nicht.
C'mon, it's not that complicated!
Anstatt 1 GT/s pro lane werden damit 2 GT/s pro lane übertragen. Es bleiben 16 lanes und es verdoppelt sich die Datanerate. Warum das stätig ignoriert wird und mir unterstellt wird ich würde zusätzliche Lanes hinzudichten ist mir völlig unklar in dieser Diskussion.Du hast gesagt, daß kommt von der Fähigkeit der Link-Aggregierung. Und da aggregiert man eben mehrere Lanes, benötigt also mehr. Ganz einfach. Link-Aggregierung erhöht nicht magischerweise die Signaling-Rate auf einer Lane.
Hier nochmals die Quelle, warum keine zusätzlichen Lanes benötigt werden für die ESM Data Rate:
https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.html
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpgUnd nochmal: Dazu benötigst Du PHYs, die zu dieser Datenrate fähig sind. Die auf Ryzen/Epyc/Threadripper sind es nicht.
Gipsels Argumentation folgend würde PCIe4 bei 16 Gbps sein maximum erreichen. Genau das ändert das CCIX Protokoll - auf der selben Zahl von lanes
Wenn wir darüber mal Übereinstimmung haben, können wir uns den PHYs zuwenden.Es ist völlig unstrittig, daß wenn man PHYs hat, die eine höhere Datenrate unterstützen als irgenein PCIe# spezifiziert, man diese in einem anderen Modus nutzen kann. Die PHYs auf den Zeppelin-Dies fahren die PHYs ja z.B. auf 10,6GT/s im xGMI-Modus (und auf 8GT/s im PCIe3-Modus und nur 6GT/s im SATA3-Modus). Genauso kann ein 25GT/s PHY, welches PCIe4 mit 16GT/s kann, z.B. das hypotehetische xGMI-2 mit 21,2 GT/s fahren oder eben die EDR-Modi von CCIX mit 20GT/s oder 25GT/s, falls das beim Design der PHYs entsprechend berücksichtigt wurde, das also CCIX-PHYs mit Support von 25GT/s sind (und nicht nur stinknormale PCIe4-PHYs, die bei 16 GT/s am Ende sind und eben keine höheren Datenraten unterstützen). Darüber herrscht nicht die geringste Unklarheit.
Aber die Argumentation über das Limit von 16 lanes muss hier beendet sein, da der ESM Mode mehr Daten überträgt ohne zusätzliche Lanes.Aber nur wenn die PHYs das auch unterstützen. Die müssen dafür gebaut sein, Signale mit der hohen Datenrate auf die Leitung schicken zu können und auch im Empfangsteil die Signallevel schnell und genau genug samplen können, damit man daraus wieder das sehr hochfrequente Signal extrahieren kann. Dies ist bei PHYs, die nur maximal 12,5GT/s unterstützen, ganz klar nicht der Fall. Die schaffen schlicht die 20 oder 25GT/s nicht.

Screemer
2017-08-09, 12:01:15
Ich habe es tatsächlich so verstanden, dass die phys und damit der durchsatz vor den lanes aggregierte wird. Sprich dann eben 2 phys im Wechsel auf einer lane/leiteungspaar kommunizieren. Davon scheint complicatet auch auszugehen. Wenn das schaltungstechnisch nicht möglich ist, dann haben wir doch den Wurm in der Diskussion gefunden, oder nicht?

ndrs
2017-08-09, 12:48:22
Ich habe es tatsächlich so verstanden, dass die phys und damit der durchsatz vor den lanes aggregierte wird. Sprich dann eben 2 phys im Wechsel auf einer lane/leiteungspaar kommunizieren. Davon scheint complicatet auch auszugehen. Wenn das schaltungstechnisch nicht möglich ist, dann haben wir doch den Wurm in der Diskussion gefunden, oder nicht?
:confused::confused::confused:
Das ist nicht nur nicht möglich, sondern vollkommen absurd. Schau dir mal ein typisches Augendiagramm für so eine Highspeed-Verbindung an. Wenn sich da zwei abwechseln sollten, müssten diese effektiv mit der doppelten Geschwindigkeit arbeiten, weil einfach kein Zeitslot für einen anderen Teilnehmer ist. Dann hättest du genau Null gewonnen.

Man hat Busse nicht umsonst zunehmend gegen Punkt-zu-Punkt-Verbindungen ausgetauscht.

Complicated
2017-08-09, 12:51:57
Das dies Schaltungstechnisch nicht möglich sein soll widerlegt doch eben diese Grafik:
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg

Was soll denn da der ESM Modus sein? Der dazugehörige Artikel erklärt das doch auch wunderbar und schreibt explizit, dass eben mehr Daten im ESM-Modus übertragen werden als im PCIe-Modus. Sowohl auf dem PHY als auch auf den PCIe Lanes. Synopsis erklärt, dass die PHYs im Dual- oder Quad-Channle Modus funktionieren.

Doch. Du behauptest im Prinzip, man könnte über eine Lane auch einfach so mal mehr übertragen.Nicht "auf einmal", sondern im ESM Modus wie die Quelle doch eindeutig zeigt. Warum bist du gegen diese eindeutig belegte Information dermaßen resistent?
https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.html
Synopsys consider that their customers are likely to separate data path for CCIX traffic vs “normal” PCIe traffic, and the PCI Express protocol offers Virtual Channels (VC), these can be used by CCIX.
The CCIX controller proposed by Synopsys gets all features of the PCIe controller, supporting all transfer speeds from 2.5G to 16G and ESM to 25G. The digital controller is highly configurable, supporting CCIX r2.0, PCIe 4.0 and Single Root I/O Virtualization (SR-IOV), being also backward compatible with PCIe 3.1, 2.1 and 1.1. The controller supports End Point (EP), Root Port (RP), Dual Mode (EP and RP) and Switch, with x1 to x16 lanes.

Weder "magisch" noch "auf einmal" oder sonst irgendwie aus dem Bauch heraus.
Es ist das Ergebnis der 2014 begonnen gemeinsamen Arbeit an diesen Features. 150 AMD Ingenieure sind zu Synopsis in die R&D gewandert und haben mit dem gemeinsamen Zugriff auf die Interconnect-IP diese Arbeit geleistet.
20.9.2014: https://news.synopsys.com/AMD-and-Synopsys-Expand-IP-Partnership
Synopsys, Inc. (Nasdaq:SNPS), a global leader providing software, IP and services used to accelerate innovation in chips and electronic systems and AMD (NYSE: AMD) today announced they have signed a multi-year agreement that gives AMD access to a range of Synopsys DesignWare® interface, memory compiler, logic library and analog IP on advanced 16/14-nanometer (nm) and 10-nm FinFET process technologies. Synopsys is also hiring approximately 150 AMD IP R&D engineers and gains access to AMD’s leading interface and foundation IP.

Aber nur wenn die PHYs das auch unterstützen. Die müssen dafür gebaut sein, Signale mit der hohen Datenrate auf die Leitung schicken zu können und auch im Empfangsteil die Signallevel schnell und genau genug samplen können, damit man daraus wieder das sehr hochfrequente Signal extrahieren kann. Dies ist bei PHYs, die nur maximal 12,5GT/s unterstützen, ganz klar nicht der Fall. Die schaffen schlicht die 20 oder 25GT/s nicht.
Nun wenn wir uns einig sind, dass 16x PCIe Lanes in der Lage sind 25 GT/s zu übertragen, dann wenden wir uns mal den PHYs zu die jeder 12,5 GT/s übertragen können.
Warum bist du der felsenfesten Überzeugung, dass hier keine 2 PHYs gebündelt werden können um die erhöhte Datenrate des ESM-Modus nach draußen zu leiten? Ich sehe keinerlei Grund oder technische Einschränkung, dass die Datenrate hier limitiert wird auf die Transferrate die EIN PHY leisten kann. Es sind doch eindeutig mehr als nur einer verbaut in AMD Produkten. Warum lassen sich diese deiner Meinung nach nicht bündeln? Bisher hast du lediglich "ist halt so" argumentiert, während ich dir die Möglichkeit der Bündelung anhand der 40 GBit/s LAN PHYs aufgezeigt habe.

Du hast gesagt, daß kommt von der Fähigkeit der Link-Aggregierung. Und da aggregiert man eben mehrere Lanes, benötigt also mehr. Ganz einfach. Link-Aggregierung erhöht nicht magischerweise die Signaling-Rate auf einer Lane.
Und hier kommen wir dem möglichen Missverständnis vielleicht auf die Spur. Das habe ich so nicht gesagt, sondern du unterstellst mir das andauernd. Ich sagte die PHYs lassen sich aggregieren und bündeln. Klar können Lanes auch gebündelt werden, doch das ist nicht der Grund für die Möglichkeit einer höheren Übertragung als ein einzelner PHY in der Lage ist. Außer den Lanes können auch PHYs selber gebündelt werde, so wie das eben bei 40 GBIT Lan passiert. Dort werden 4 10 Gbit-PHYs zusammen gebündelt um 40 Gbit übertragen zu können.

Pirx
2017-08-09, 13:11:57
... während ich dir die Möglichkeit der Bündelung anhand der 40 GBit/s LAN PHYs aufgezeigt habe.
auch dort ist es pro Leitungspaar nur ein PHY

Complicated
2017-08-09, 13:34:05
auch dort ist es pro Leitungspaar nur ein PHYJa. Und 4 davon werden gebündelt. Was anderes schreibe ich nicht. Jedes Leitungspaar kann bei PCIe im ESM-Modus mehr übertragen. Und die gebündelten PHYs können diese Mehrkapazität dann weiterleiten. Einer alleine nicht.

Standard PCIe Modus: 16 Lanes je 0,5 GT/s - angebunden an 1 PHY 12,5 GT/s
= max Übertragung (limitiert durch PCIe) 8 GT/s

ESM Modus: 16 Lanes je 1 GT/s - angebunden an 1 PHY 12,5 GT/s
= max Übertragung (limitiert durch 1 PHY) 12,5 GT/s

ESM Modus+PHY Aggregation: 16 Lanes je 1 GT/s - angebunden an 2xPHY 12,5 GT/s
= max Übertragung (limitiert durch PCIe) 16 GT/s

Warum ist das so schwer oder abwegig?

Das PHY-Muxing erlaubt diese Bündelung je nach Bedarf:

https://abload.de/img/ryzen_soc_diagramm4uq6.png

@Gipsel
Wie interpretierst du die x4 E12G PHY Eintragung ganz rechts in dem Schaubild? 4xPCIe Lanes an diesem PHY? Wie viele E12G PHYs zählst du dort insgesamt?

Edit:
Ich zähle das so wie es auch AMD in seinem Family 17h Dokument schreibt: 6x E12G PHYs mit Quad-Channel (kann 4 PCIe-Lanes weiterleiten) und 5x E12G PHYs mit Dual-Channel (kann 2 PCIe-Lanes weiterleiten). Um 16 PCIe-Lanes weiterzuleiten werden 3xQuad-Channel PHYs und 2xDualchannel-PHYs genutzt. Ein solcher PHY-Block wird gebündelt und kann insgesamt 5x12,5 GT/s (5 PHYs aggregiert)= 62,5 GT/s weiterleiten. Von diesen Blöcken sind 2 verbaut im Schaubild und jeder kann 16 PCIe-Lanes anbinden (1 pro Channel). Und es gibt einen kleineren dritten PHY-Block(oder besser gesagt ein einzelner PHY) mit 1xDual-Channel an dem 2x WAFL-PCS hängt.
Enterprise 12G (E12G) Combo PHYs, PCS, and UPI muxing
• 6 x4 PHYs plus 5 x2 PHYs
Siehe Synopsis DesignWare Enterprise 12G PHY:
https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g


Support for 1.25 Gbps to 12.5 Gbps data rates
Single, dual and quad channels
Supports PCI Express 3.1, SATA 6G, Ethernet 40GBASE-KR4, 10GBASE-KR, 10GBASE-KX4, 1000BASE-KX, 40GBASE-CR4, 100GBASE-CR10, XFI, SFI (SFF-8431), QSGMII, and SGMII
IEEE 802.3az Electrical Energy Efficient (EEE)
Superior signal integrity across lossy backplanes and port side interfaces enabled by a high-performance analog front-end
Up to 20% lower active and standby power consumption compared to competing solutions due to L1 sub-states support, novel transmitter design, DFE bypass and half-rate architecture
Separate Refclk Independent SSC (SRIS), reference clock sharing, and on-die test features improve system design and efficiency
Aggregation (x2 to x16) and bifurcation
Auto-negotiation (AN) and optional forward error correction (FEC)
L1 sub-state power management and SRIS
Multi-tap adaptive and configurable continuous time linear equalizer (CTLE) and decision feedback equalization (DFE)
Embedded bit error rate (BER) tester and internal eye monitor
Built-in self-test (BIST) including 7-, 9-, 11-, 15-, 16-, 23-, and 31-bit pseudo random bit stream (PRBS) generation and checker
Supports IEEE 1149.6 AC Boundary Scan




Ich habe noch Farbcodes hinzugefügt, damit klar wird welche Eigenschaft hier gemeint ist bei Synopsis

foenfrisur
2017-08-09, 17:19:30
Bifurkation ist ja spannend.
Bis zum gewissen Grad kann sie Datenraten verdoppeln, bis die Leitung nicht mehr hergibt. Daher dann bei 16gt/s mit esm nicht gleich 32, sondern nur 25gt. Mehr ist dann nicht mehr möglich. Vermutlich entstehen dann Fehler?

MfG

Gipsel
2017-08-09, 18:03:00
Das dies Schaltungstechnisch nicht möglich sein soll widerlegt doch eben diese Grafik:
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpgNein. Die Tabelle zeigt, daß wenn man ein CCIX-PHY verbaut, welches auch das "Extended Data Rate" Feature unterstützt (d.h. nicht jedes CCIX-PHY kann das!), man eben auch die erhöhten datenraten nutzen kann. Es zeigt, daß CCIX-PHYs bis zu 25GT/s spezifiziert sein können und mit solchen das dann auch so nutzbar ist. Wenn das Interface aber z.B. nur 16GT/s kann (es also nur dem von PCIe4 geforderten Standard entspricht), kann es nur 16 GT/s und die ESM-Modi sind nicht verfügbar.
Was soll denn da der ESM Modus sein? Der dazugehörige Artikel erklärt das doch auch wunderbar und schreibt explizit, dass eben mehr Daten im ESM-Modus übertragen werden als im PCIe-Modus. Sowohl auf dem PHY als auch auf den PCIe Lanes.Aber um die ESM-Modi nutzen zu können, muß der PHY die auch unterstützen, also eben bis 25GT/s mitmachen. Sonst geht das nicht. Das steht im Prinzip auch in der Tabelle.
Synopsis erklärt, dass die PHYs im Dual- oder Quad-Channle Modus funktionieren.Tun sie nicht, das mißverstehst Du.
Nicht "auf einmal", sondern im ESM Modus wie die Quelle doch eindeutig zeigt. Warum bist du gegen diese eindeutig belegte Information dermaßen resistent?Du verstehst nicht, daß ein PHY, was nur Signalraten bis zu einer bestimmten Höhe beherrscht, nicht über irgendwelche "Dual-Channel" oder "Quad-Channel" Modi irgendwie schneller werden können. So funktioniert das einfach nicht. Pro Datenleitung haben die ein klares Limit.
https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.htmlVirtual Channels haben damit überhaupt nichts zu tun. Da schmeißt Du jetzt aber gehörig was durcheinander.
Weder "magisch" noch "auf einmal" oder sonst irgendwie aus dem Bauch heraus.
Es ist das Ergebnis der 2014 begonnen gemeinsamen Arbeit an diesen Features. 150 AMD Ingenieure sind zu Synopsis in die R&D gewandert und haben mit dem gemeinsamen Zugriff auf die Interconnect-IP diese Arbeit geleistet.Und herausgekommen ist das Design eines PHY, was 25 GT/s unterstützt und rückwärtskompatibel mit PCIe und noch ein paar Sachen mehr ist. Wenn diese PHYs verbaut werden, dann kann man diese Features auch nutzen. Vorher natürlich nicht. Und diese PHYs stecken eben momentan nicht im Zeppelin Die drin, sondern andere, die keine 25GT/s können. Wie oft muß man das eigentlich noch schreiben, bevor Du das zur Kenntnis nimmst?
Wenn AMD irgendwann sowas verbaut (https://www.synopsys.com/dw/ipdir.php?ds=dwc_multi_protocol_25g_phy) statt das hier (https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g), dann kann man auch 25GT/s nutzen. Sonst nicht (sondern nur maximal 12,5GT/s im aktuellen Zeppelin-Die).
Nun wenn wir uns einig sind, dass 16x PCIe Lanes in der Lage sind 25 GT/s zu übertragen, dann wenden wir uns mal den PHYs zu die jeder 12,5 GT/s übertragen können.Die 25GT/s gehen aber eben nur, wenn da 25GT/s PHYs dran hängen. An PCIe2 PHYs gehen maximal 5GT/s über exakt die gleichen Lanes. ;)
Warum bist du der felsenfesten Überzeugung, dass hier keine 2 PHYs gebündelt werden können um die erhöhte Datenrate des ESM-Modus nach draußen zu leiten?Physik.
Die Leitungen einer Lane sind an die entsprechenden Kontakte eines PHYs gelötet. Was der Nachbar-PHY macht, ist dafür völlig egal. Auf die eine angeschlossene Lane kann man nur Signale mit einer bestimmten Maximalgeschwindigkeit senden (bzw. empfangen). Dieses Limit ist typischerweise in der Spec des PHY angegeben. Und das beträgt eben beim Zeppelin-Die 12,5GT/s. Mehr geht pro Lane nicht.
Ich sehe keinerlei Grund oder technische Einschränkung, dass die Datenrate hier limitiert wird auf die Transferrate die EIN PHY leisten kann.Eine Leitung hängt eben nur an einem, deswegen ist das natürlich das Limit. Der PHY kann schlicht nicht schneller Daten schicken oder empfangen. Damit hat sich das.
Es sind doch eindeutig mehr als nur einer verbaut in AMD Produkten.Ja, man kann über zwei (oder vier, acht, 16) Lanes parallel Daten schicken. Deswegen wird die Datenrate pro lane aber nicht höher.
Warum lassen sich diese deiner Meinung nach nicht bündeln?Tut man doch. Wenn Du z.B. 16 PCIe-Lanes bündelt, nennt man das einen x16-Link. ;)
Bisher hast du lediglich "ist halt so" argumentiert, während ich dir die Möglichkeit der Bündelung anhand der 40 GBit/s LAN PHYs aufgezeigt habe.
Na dann siehst Du nicht, daß dort schlicht 4 Lanes parallel mit jeweils 10GT/s laufen? Ich hatte das doch schon mal extra für Dich rot eingerahmt:
https://abload.de/img/ieee802.3_aggregations9qbp.jpg

Wenn man jetzt 16 Lanes parallel betreibt, kann man so bis zu 160 Gbit/s (20GB/s) übertragen. Aber mehr gehen über 16 Lanes dann halt auch nicht mehr. Du bekommst die einzelnen Lanes dadurch nicht schneller. Um die einzelnen Lanes mit 25 GT/s zu betreiben (was bei 16 Lanes dann 50GB/s wären), benötigst Du PHYs, die 25GT/s mitmachen. Oder Du benötigst entsprechend mehr Lanes (die Du aber bei einem PCIe-Slot nicht hast), um mit niedrigerer Datenrate pro Lane auf die gleiche Gesamtbandbreite zu kommen.
Und hier kommen wir dem möglichen Missverständnis vielleicht auf die Spur. Das habe ich so nicht gesagt, sondern du unterstellst mir das andauernd. Ich sagte die PHYs lassen sich aggregieren und bündeln. Klar können Lanes auch gebündelt werden, doch das ist nicht der Grund für die Möglichkeit einer höheren Übertragung als ein einzelner PHY in der Lage ist. Außer den Lanes können auch PHYs selber gebündelt werde, so wie das eben bei 40 GBIT Lan passiert. Dort werden 4 10 Gbit-PHYs zusammen gebündelt um 40 Gbit übertragen zu können.Dann ist das Dein Mißverständnis, denn das geht so nicht, wie Du behauptest. Bei Deinem 40GBit-LAN-Beispiel bündelt man exakt 4 Lanes (von 4 PHYs für jeweils eine Lane). In der Grafik (dem von mir eingezeichneten roten Kasten) ist doch klar eingezeichnet, daß vier Leitungspaare für die Übertragung genutzt werden müssen. Auf jedem Leitungspaar (Lane) läuft die Übertragung mit 10 GT/s.

=========================

Ja. Und 4 davon werden gebündelt. Was anderes schreibe ich nicht. Jedes Leitungspaar kann bei PCIe im ESM-Modus mehr übertragen.Nur wenn der PHY die entsprechende Datenrate unterstützt. Sonst geht das natürlich nicht.
Und die gebündelten PHYs können diese Mehrkapazität dann weiterleiten. Einer alleine nicht.Und ein Leitungspaar (Lane) reicht dann auch nicht. Man bündelt immer auch Lanes.
Standard PCIe Modus: 16 Lanes je 0,5 GT/s - angebunden an 1 PHY 12,5 GT/s
= max Übertragung (limitiert durch PCIe) 8 GT/sGanz falsch.
1 Lane im PCIe3-Modus: 8GT/s (1GB/s pro Lane)
x16 PCIe-Slot: Bündelung von 16 Lanes in einem Link.
Damit 8GT/s * 16 Lanes = 128 GBit/s = 16 GB/s maximale Übetragungsrate über alle Lanes im x16-Link zusammen.
ESM Modus: 16 Lanes je 1 GT/s - angebunden an 1 PHY 12,5 GT/s
= max Übertragung (limitiert durch 1 PHY) 12,5 GT/s

ESM Modus+PHY Aggregation: 16 Lanes je 1 GT/s - angebunden an 2xPHY 12,5 GT/s
= max Übertragung (limitiert durch PCIe) 16 GT/s

Warum ist das so schwer oder abwegig?Weil es schlicht falsch ist.
Die ESM-Modi von CCIX erfordern PHYs, die halt 20 bzw. 25GT/s können.
Ein PHY, der z.B. 4 Lanes implementiert, verbindet genau eine Lane zu den entsprechenden Kontakten des PHY, die nächste Lane zu anderen Kontakten usw. In der Summe eben 4 Lanes. Der PHY mag es erlauben, diese 4 Lanes in zwei Links (2+2 Lanes) oder auch 2+1+1 Lanes oder sonstwie aufzuteilen (bifurcation) oder auch die Lanes von mehreren PHYs zu einem Link zusammenzufassen (aggregation). Aber das Limit der Datenrate pro Lane ist fest.
Das PHY-Muxing erlaubt diese Bündelung je nach Bedarf:

https://abload.de/img/ryzen_soc_diagramm4uq6.pngDas Muxing erlaubt das beinahe beliebige Mixen von verschiedenen benutzten PCS (also verschiedenen Protokollen wie SATA, Ethernet, PCIe, xGMI) auf den einzelnen Lanes der verbauten PHYs.
@Gipsel
Wie interpretierst du die x4 E12G PHY Eintragung ganz rechts in dem Schaubild? 4xPCIe Lanes an diesem PHY? Wie viele E12G PHYs zählst du dort insgesamt?Das habe ich doch schon am Anfang erklärt. Bei Synopsis kannst Du PHYs in verschiedenen Größen bekommen. Die implementieren dann eine einzelne Lane (x1), zwei Lanes (x2) oder vier Lanes (x4). Ein "x4 E12G PHY" kennzeichnet einen IP-Block für 4 Lanes. eine x2-Block eben zwei Lanes. Wie schon mal gesagt, kann man diese x2 und x4 Blöcke auf den Dieshots auch genau wie dort angegeben erkennen. Es gibt auf zwei Seiten des Zeppelin-Dies jeweils 16 Lanes dieses Combo-PHYs (insgesamt 32 Lanes), die sich jeweils in Subblöcke von 3x 4 Lanes + 2x 2 Lanes unterteilen. Und dann gibt es noch zwei Extra-Lanes (an anderer Stelle für einen anderen Zweck, ebenfalls schon erwähnt).
Edit:
Ich zähle das so wie es auch AMD in seinem Family 17h Dokument schreibt: 6x E12G PHYs mit Quad-Channel (kann 4 PCIe-Lanes weiterleiten) und 5x E12G PHYs mit Dual-Channel (kann 2 PCIe-Lanes weiterleiten). Um 16 PCIe-Lanes weiterzuleiten werden 3xQuad-Channel PHYs und 2xDualchannel-PHYs genutzt.Lanes werden nicht "weitergeleitet". Ein x4-Block kann 4 Lanes bereitstellen und entsprechend die Signale auf die angelöteten Leitungen schicken bzw. von dort empfangen. Das gibt schlicht an, wie viele Lanes da mit welchen IP-Blöcken verbaut sind.
Ein solcher PHY-Block wird gebündelt und kann insgesamt 5x12,5 GT/s (5 PHYs aggregiert)= 62,5 GT/s weiterleiten.Nein, das ist hanebüchener Blödsinn. Das gibt Dir die Gesamtzahl an PHY-Blöcken mit der Anzahl von Lanes an, die dort verbaut sind.
Von diesen Blöcken sind 2 verbaut im Schaubild und jeder kann 16 PCIe-Lanes anbinden (1 pro Channel). Und es gibt einen kleineren dritten PHY-Block(oder besser gesagt ein einzelner PHY) mit 1xDual-Channel an dem 2x WAFL-PCS hängt.Das mit den zwei Extra-Lanes wurde Alles schon diskutiert, da kommst Du 2 Monate zu spät. ;)
Mal abgesehen davon sind auf einem Zeppelin-Die 32 Lanes (2x16) implementiert. Eine Gruppe von 16 Lanes unterteilt sich in drei x4 und zwei x2-Blöcke. Das habe ich Alles schon mal geschrieben.
Siehe Synopsis DesignWare Enterprise 12G PHY:
https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g

Ich habe noch Farbcodes hinzugefügt, damit klar wird welche Eigenschaft hier gemeint ist bei SynopsisDann übersetze ich es mal für Dich:
Synopsis bietet Blöcke mit einer, zwei oder vier Lanes an (AMD nutzt auf Zeppelin nur x2 und x4-Blöcke).
Aggregation und bifurcation habe ich oben schon mal erklärt:
Der PHY mag es erlauben, diese 4 Lanes in zwei Links (2+2 Lanes) oder auch 2+1+1 Lanes oder sonstwie aufzuteilen (bifurcation) oder auch die Lanes von mehreren PHYs zu einem Link zusammenzufassen (aggregation).

Complicated
2017-08-09, 18:46:34
Du solltest wirklich nicht mehr Satz für Satz Antworten, oder zumindest erst den gesamten Beitrag lesen bevor du ihn zerlegst.

Das was du am Anfang vehement abstreitest, erklärst du am Ende deines Beitrages in deinen eigenen Worten identisch.
Du verstehst nicht, daß ein PHY, was nur Signalraten bis zu einer bestimmten Höhe beherrscht, nicht über irgendwelche "Dual-Channel" oder "Quad-Channel" Modi irgendwie schneller werden können. So funktioniert das einfach nicht. Pro Datenleitung haben die ein klares Limit.Um dann später genau das selbe mit anderen Worten zu schreiben
Ein x4-Block kann 4 Lanes bereitstellen und entsprechend die Signale auf die angelöteten Leitungen schicken bzw. von dort empfangen. Das gibt schlicht an, wie viele Lanes da mit welchen IP-Blöcken verbaut sind.
Hier widersprichst du dir selber erneut:
Eine Leitung hängt eben nur an einem, deswegen ist das natürlich das Limit. Der PHY kann schlicht nicht schneller Daten schicken oder empfangen. Damit hat sich das.
Um 4 Lanes übertragen zu können wird ein Quad-Channel im PHY benötigt. So nennt Synopsis das in seiner Quelle.

Die 4 Kanäle können zusammen max. 12,5 GT/s was das PHY-Limit ist. Da nun 16 PCIe-Lanes über 3xQuad-Channel und 2x Dual-Channel gehen.
Du schreibst:
Bei Synopsis kannst Du PHYs in verschiedenen Größen bekommen. Die implementieren dann eine einzelne Lane (x1), zwei Lanes (x2) oder vier Lanes (x4). Ein "x4 E12G PHY" kennzeichnet einen IP-Block für 4 Lanes. eine x2-Block eben zwei Lanes. Wie schon mal gesagt, kann man diese x2 und x4 Blöcke auf den Dieshots auch genau wie dort angegeben erkennen. Es gibt auf zwei Seiten des Zeppelin-Dies jeweils 16 Lanes dieses Combo-PHYs (insgesamt 32 Lanes), die sich jeweils in Subblöcke von 3x 4 Lanes + 2x 2 Lanes unterteilen. Und dann gibt es noch zwei Extra-Lanes (an anderer Stelle für einen anderen Zweck, ebenfalls schon erwähnt).
Ich schreibe:

Ich zähle das so wie es auch AMD in seinem Family 17h Dokument schreibt: 6x E12G PHYs mit Quad-Channel (kann 4 PCIe-Lanes weiterleiten) und 5x E12G PHYs mit Dual-Channel (kann 2 PCIe-Lanes weiterleiten). Um 16 PCIe-Lanes weiterzuleiten werden 3xQuad-Channel PHYs und 2xDualchannel-PHYs genutzt. Ein solcher PHY-Block wird gebündelt und kann insgesamt 5x12,5 GT/s (5 PHYs aggregiert)= 62,5 GT/s weiterleiten. Von diesen Blöcken sind 2 verbaut im Schaubild und jeder kann 16 PCIe-Lanes anbinden (1 pro Channel). Und es gibt einen kleineren dritten PHY-Block(oder besser gesagt ein einzelner PHY) mit 1xDual-Channel an dem 2x WAFL-PCS hängt.Was exakt das selbe ist.

Das einzige das aus deinen Ausführungen nicht hervorgeht ist deine Behauptung weshalb wir hier rumdiskutieren. Dass die 12,5 GT/s das Limit darstellt, welches bei 16 PCIe-Lanes übertragen werden kann. Deine eigenen Ausführungen zeigen deinen Denkfehler dabei, da eben max. 4 PCIe-Lanes auf jedem x4 E12G PHY geschaltet sind. Da jede PCIe-Lane 1 GB/s max. bringt ist der PHY ausreichend groß dimensioniert um auch den ESM-Modus nutzen zu können mit 2 GB/s

Daher ist das von dir deklarierte Limit nicht vorhanden, denn es gehen keine 16 PCIe-Lanes über einen E12G-PHY. Es sind maximal 4 PCIe-Lanes. Es werden 5 PHYs mit 16 Channels für 16 PCIe-Lanes genutzt. Synopsis nennt das was du "PHY-Lanes" nennst "Channel" - würde das nicht funktionieren wie du es behauptest, wäre es gar nicht möglich einen PHY zu teilen für 2-4 Lanes. Aber auch unterteilte PHYs lassen sich bündeln wie es auch im Schalt-Diagramm zu sehen ist.

Mal abgesehen davon sind auf einem Zeppelin-Die 32 Lanes (2x16) implementiert. Eine Gruppe von 16 Lanes unterteilt sich in drei x4 und zwei x2-Blöcke. Das habe ich Alles schon mal geschrieben.Ebenso wie ich mittlerweile 3 mal. Was du außer acht lässt ist dass diese 5 Blöcke jeder 12,5 GT/s kann. Du versuchst hier krampfhaft zu erklären, dass dieser gesamte Block auf 12,5 GT/s limitiert ist. Aus den Unterlagen geht klar hervor, dass AMD 11 E12G PHYs verbaut hat auf dem Zeppelin (6 x4 und 5 x2 Modelle). Daher hast du 11x 12,5 GT/s als Gesamt-Bandbreite für 32 PCIe Lanes + 2x WAFL. Du musst einfach nur nachzählen und die 11 von AMD dokumentierten PHYs finden - jeder kann 12,5 GT/s

Die x2 Modelle splitten die 12,5 GT/ in zwei Kanäle und die x4 Modelle in entsprechend 4 Kanäle. Dennoch bleibt es bei beiden 12,5 GT/s für den gesamten PHY.

Gipsel
2017-08-09, 19:34:18
Okay, ich antworte nicht auf die Einzelpunkte sondern nur noch gesammelt:
Du liegst klar falsch und hast offensichtlich nicht verstanden, wie das funktioniert. Und in meinem Post ist kein Widerspruch drin, der entsteht nur bei Dir im Kopf aufgrund mangelnden Verständnisses Deinerseits.

Besser?

Oder dann doch noch etwas ausführlicher. Ich habe ja immer noch die Hoffnung, das mit einer weiteren Erklärung das vielleicht noch was wird.
Die 4 Kanäle können zusammen max. 12,5 GT/s was das PHY-Limit ist.Nein, jede Lane kann bis zu 12,5GT/s. Mit mehreren Lanes kann man nur mehrere zu einem Link bündeln, der dann eben über mehrere Lanes parallel Daten übertragen kann (aber dafür eben mehr Lanes [mehr Leitungen auf dem Board] benutzt).
Du schreibst:

Ich schreibe:
Was exakt das selbe ist.Außer daß da wie schon gesagt Lanes nicht "weitergeleitet" werden und nirgendwo mit 62,5GT/s übertragen werden kann. :rolleyes:
Gebündelt (aggregiert) werden drei Blöcke mit je vier Lanes (x4) und zwei Blöcke mit je zwei Lanes (x2), um auf einen x16-Link (3*4+2*2=16) zu kommen (wobei aber die signaling rate nicht steigt sondern nur die Gesamtbandbreite, weil man eben parallel mehrere Lanes nutzt).
Das einzige das aus deinen Ausführungen nicht hervorgeht ist deine Behauptung weshalb wir hier rumdiskutieren. Dass die 12,5 GT/s das Limit darstellt, welches bei 16 PCIe-Lanes übertragen werden kann.12,5GT/s ist das Limit der PHYs, völlig unabhängig von der Anzahl der Lanes, die man in einem Link bündelt. Das haben Dir jetzt schon mehrere Personen hier gesagt. Die Nutzung mehrerer Lanes erhöht die Größe des Transfers (entspricht Anzahl der Lanes in Bits), aber nicht die Transferrate ausgedrückt in GT/s.
Deine eigenen Ausführungen zeigen deinen Denkfehler dabei, da eben max. 4 PCIe-Lanes auf jedem x4 E12G PHY geschaltet sind. Da jede PCIe-Lane 1 GB/s max. bringt ist der PHY ausreichend groß dimensioniert um auch den ESM-Modus nutzen zu können mit 2 GB/sNein. Eine PCIe3-Lane kann 8 GT/s = 1GB/s bei einer Lane. Die PHYs auf Zeppelin können maximal 12,5GT/s = ~1,5GB/s pro Lane. Das reicht nicht, um irgendwelche ESM-Modi zu nutzen, da man dazu 20GT/s oder 25GT/s (auf jeder Lane) benötigt (mit dem 25GT/s ESM-Modus liegen 25GT/s auf den Lanes an, man überträgt also 3,2GB/s pro Lane oder knapp 13GB/s auf einem x4-Link). Genauso reicht es auch nicht für die 16GT/s von PCIe4. Das Aggregieren von Lanes zu breiteren Links hilft Dir da genau gar nicht.
Daher ist das von dir deklarierte Limit nicht vorhanden, denn es gehen keine 16 PCIe-Lanes über einen E12G-PHY. Es sind maximal 4 PCIe-Lanes. Es werden 5 PHYs mit 16 Channels für 16 PCIe-Lanes genutzt. Synopsis nennt das was du "PHY-Lanes" nennst "Channel" - würde das nicht funktionieren wie du es behauptest, wäre es gar nicht möglich einen PHY zu teilen für 2-4 Lanes. Aber auch unterteilte PHYs lassen sich bündeln wie es auch im Schalt-Diagramm zu sehen ist.Nein. Du liegst falsch. Das funktioniert so, wie von mir bereits mehrfach erklärt:
Ein x4-Block stellt 4 Lanes bereits und für einen x16-Link (oder auch x8) kann man die Lanes von mehreren Blöcken aggregieren. Das ist ein Feature, was Synopsis explizit erwähnt (hast Du sogar zitiert nur offensichtlich nicht verstanden). Und das Bifurcation-Feature der PHYs ermöglicht eben auch das Runterteilen der Lanes eines Blockes in einzelne Links (z.B. zwei x1-Links von einem x2-PHY-Block).
Schau Dir doch mal einen hochauflösenden Dieshot von Ryzen an und vergleiche das mit welchen von irgendwelchen GPUs. Man kann dort die Lanes direkt zählen! Die genannte Anzahl an Lanes in den angebebenen Blockgrößen lassen sich dort sehen (es gab nicht umsonst eine Diskussion hier über die zwei extra Lanes; es gibt zwei physisch separierte Bereiche mit je 3x4+2x2 Lanes [je 16 Lanes] und einen dritten Bereich mit diesen zwei Extralanes).
Ebenso wie ich mittlerweile 3 mal. Was du außer acht lässt ist dass diese 5 Blöcke jeder 12,5 GT/s kann. Du versuchst hier krampfhaft zu erklären, dass dieser gesamte Block auf 12,5 GT/s limitiert ist.Noch mal nein. Jede Lane kann 12,5GT/s. Aber mit mehreren lanes bleibt man bei 12,5GT/s, man überträgt halt nur über mehrere Lanes parallel. Das muß doch mal irgendwann in Deinen Kopf reingehen!
Ein x16-Link kann deswegen 4 mal so viele Daten pro Zeiteinheit übertragen wie ein x4-Link, weil dort schlicht vier mal so viele Datenleitungen benutzt werden. Die einzelnen Datenleitungen laufen dabei natürlich exakt gleich schnell. Und wie schnell die maximal können, hängt eben vom verbauten PHY ab. Und bei Zeppelin liegt dieses Maximum eben bei 12,5GT/s laut Spezifikation der PHYs (praktisch bisher maximal 10,6GT/s im xGMI-Modus genutzt).
Aus den Unterlagen geht klar hervor, dass AMD 11 E12G PHYs verbaut hat auf dem Zeppelin (6 x4 und 5 x2 Modelle).Ja, ein Zeppelin-Die hat insgesamt 32 Multipurpose (SATA, Ethernet, PCIe3, xGMI) Lanes (+ 2 extra Lanes mit dem WAFL-PCS für andere Zwecke, was an einem physisch separatem x2 E12G-PHY-Block hängt). Das wissen wir schon lange und ist keiner weiteren Diskussion wert.
Daher hast du 11x 12,5 GT/s als Gesamt-Bandbreite für 32 PCIe Lanes + 2x WAFL.Nein. 12,5GT/s gilt für jede der 32 (+2) Lanes. Man hat als theoretische Maximalbandbreite 12,5GT/s * 32 Lanes = 400Gbit/s = 50GB/s über alle 32 Lanes zusammen aggregiert (jeweils noch in beide Richtungen).
Die GT/s gibt dir an, mit welcher Signalrate auf den einzelnen Lanes kommuniziert werden kann. Das ist völlig unabhängig von eventueller Linkaggregation. Das ist das spezifizierte physische Limit, mit welchem Abstand Du die einzelnen Bits auf die Leitung schicken (bzw. empfangen) kannst. Beim Betrieb mit 12,5GT/s wird auf einer Leitung im Prinzip alle 80ps ein Bit übertragen. Das ist es, was es bedeutet.
Wenn man zwei Lanes aggregiert, gilt auf jeder Leitung immer noch das gleiche Maximum, man nutzt halt nur zwei Leitungen parallel, so daß für den gesamten Link dann doppelt so viel am Ende ankommt (2 Bits alle 80ps). Und wenn man 16 lanes in einem x16-Link aggregiert, kommen 16 Bits alle 80ps an, auf jeder der 16 genutzten Leitungen ein Bit pro 80ps.

Complicated
2017-08-09, 21:20:55
Also, das ergibt für mich keinen Sinn was du da zusammen rechnest. Jede Rechnung ergibt bei dir etwas anderes in 3 Beiträgen. Und anstatt Klarheit zu schaffen mit den Begriffen die Synopsis benutzt verwendest du verwirrenderweise jedes mal bunt gemischt Lanes oder Links je nach belieben.

Sag mir einfach mal wie viele E12G PHYs AMD auf dem Zeppelin Die verbaut hat. Das nehmen wir dann mal als Ausgangspunkt. Nicht wie viele Blocks (das ist eine Unterteilung die nur du bisher machst und in keiner Dokumentation auftaucht.) In AMDs Doku steht 11x E12G PHY (6 davon x4 und 5 davon x2)

Noch mal nein. Jede Lane kann 12,5GT/s. Aber mit mehreren lanes bleibt man bei 12,5GT/s, man überträgt halt nur über mehrere Lanes parallel. Das muß doch mal irgendwann in Deinen Kopf reingehen!Dieser Satz ergibt keinen Sinn. Denn das würde bedeuten es wäre ein einziger PHY verbaut bei Zeppelin. Das geht mir tatsächlich nicht in den Kopf, weil AMD schreibt es sind 11 verbaut.

Edit:
Ok, ich habe einen meiner Rechenfehler gefunden den du mir schon aufgezeigt hast:

1 Lane im PCIe3-Modus: 8GT/s (1GB/s pro Lane)
x16 PCIe-Slot: Bündelung von 16 Lanes in einem Link.
Damit 8GT/s * 16 Lanes = 128 GBit/s = 16 GB/s maximale Übetragungsrate über alle Lanes im x16-Link zusammen.
Ich schau mir das ganze nochmal in Ruhe an.

Es bleibt die Frage bestehen wie viele PHYs du auf dem Schaubild siehst. 16 PCIe Lanes benötigen 128 GT/s wenn jede 8 GT/s ist.

Gipsel
2017-08-09, 21:53:15
Also, das ergibt für mich keinen Sinn was du da zusammen rechnest.Das liegt dann aber an Dir. Informiere Dich gegebenenfalls aus anderen Quellen über die Grundlagen, falls Du das hier nicht verstehst.
Jede Rechnung ergibt bei dir etwas anderes in 3 Beiträgen.Ich denke doch mal nicht. Vermutlich mißverstehst Du etwas.
Und anstatt Klarheit zu schaffen mit den Begriffen die Synopsis benutzt verwendest du verwirrenderweise jedes mal bunt gemischt Lanes oder Links je nach belieben.Eine Lane besteht aus jeweils einem differentiellem Adernpaar für Empfang- und Senderichtung (weil full duplex LVDS). Mehrere dieser Lanes kann man zu einem Link zusammenfassen (die dann koordiniert für die Kommunikation zu einer einzigen Gegenstelle wie etwa einer GPU genutzt werden und dann nicht mehr unabhängig arbeiten). Dies wird durch die Bezeichnung als z.B. PCIe x16 gekennzeichnet, was bedeutet, daß dort 16 Lanes in einem Link aggegriert werden. Bei den hier besprochenen PHYs geht das flexibel zwischen einer Lane pro Link bis zu 16 Lanes pro Link. Diese Aggregation funktioniert im Zusammenspiel mehrerer passender IP-Blöcke, z.B. zwischen Blöcken mit 4 Lanes und welchen mit zwei Lanes, wovon man dann genügend haben muß, um auf die gewünschte Linkbreite zu kommen.
Und so ein x4 Block oder x2 Block von Synopsis ist aber auch nicht auf mindestens x4 oder x2 Links festgelegt, er kann auch in mehrere schmalere, unabhängige Links aufgeteilt werden (Bifurcation z.B. eines x2-Blocks in zwei x1 Links).
Soweit verstanden?
Sag mir einfach mal wie viele E12G PHYs AMD auf dem Zeppelin Die verbaut hat. Das nehmen wir dann mal als Ausgangspunkt. Nicht wie viele Blocks (das ist eine Unterteilung die nur du bisher machst und in keiner Dokumentation auftaucht.) In AMDs Doku steht 11x E12G PHY (6 davon x4 und 5 davon x2)Das sind die Blöcke, von denen ich rede. Nenne das, wie Du willst. Von Synopsis bekommst Du eben IP-Bausteine zur Integration in Deinen Chip geliefert, die entweder eine, zwei oder vier Lanes implementieren. Die kann man ziemlich frei kombinieren und AMD hat sich eben für die zwei Bereiche mit den jeweils 16 Lanes für die Kombination aus jeweils 3x4 + 2x2 = 16 Lanes entschieden. Die kann man jetzt wie gesagt beinahe beliebig aufteilen oder aggregieren (bis maximal x16), um daraus die gewünschten Links zu kreieren. Insgesamt gibt es PHYs für 2*(3*4 + 2*2) + 2 = 34 Lanes (davon spielen aber zwei [die mit dem WAFL PCS] für uns hier keine Rolle).
Dieser Satz ergibt keinen Sinn. Denn das würde bedeuten es wäre ein einziger PHY verbaut bei Zeppelin. Das geht mir tatsächlich nicht in den Kopf, weil AMD schreibt es sind 11 verbaut.Der Satz ergibt perfekten Sinn, wenn Du verstehst, was es mit den GT/s und der Aggregierung von mehreren Lanes zu einem breiteren Link auf sich hat. Hier mal eine Wiederholung der entsprechenden Passage aus dem vorherigen Post:
Die Nutzung mehrerer Lanes erhöht die Größe des Transfers (entspricht Anzahl der Lanes in Bits), aber nicht die Transferrate ausgedrückt in GT/s.

Edit:
Ich schau mir das ganze nochmal in Ruhe an.Gut!
Es bleibt die Frage bestehen wie viele PHYs du auf dem Schaubild siehst. 16 PCIe Lanes benötigen 128 GT/s wenn jede 8 GT/s ist.Nein. 16 Lanes benötigen PHYs für 16 Lanes. Für einen x16 PCIe3-Link benötigt man 16 Lanes und 8GT/s. Damit überträgt man pro Transfer 16 Bit und kommt damit bei 8GT/s auf 16 GB/s für den Link.
Und für einem x1 Link mit 8GT/s kommt man auf 1 Lane (1 bit/Transfer) * 8GT/s = 8 Gbit/s = 1GB/s.
Pro Lane gibt es bei PCIe3 immer 1GB/s.

Complicated
2017-08-10, 16:38:08
Du meinst jede Lane erhält einen PHY? Die Aussage "PHYs für 16 Lanes" ist einfach nicht eindeutig. Das könnte auch ebenso 5 PHY sein wenn ich meine zählweise zugrunde lege.

Du weichst auch immer der konkreten Antwort auf die Frage aus, ob denn nun wie in der AMD Dokumentation verzeichnet 11 PHYs E12G verbaut sind. Auch deinen letzten Beitrag muss ich nun wieder interpretieren, daher die konkrete Frage: Zählst du alle 11 "Blöcke" die AMD listet zu einem einzigen PHY zusammen?

Oder heisst das jetzt sind 3 "Links" verbaut und 2 von den Links haben 16x PCIe und 1 Link 2xWAFL? Sprich nach dieser Zählweise wären 3 PHYs verbaut? 2 davon unterdimensioniert für ESM und einer überdimensioniert mit nur 2 WAFL angebunden?

Es ist nicht so, als ob ich nicht verstehe was du mir die ganze Zeit versuchst zu erklären. Ich bekomme das lediglich nicht in Einklang mit den verwendeten Bildern, Dokumentationen und Quellen.

Eine Lane besteht aus jeweils einem differentiellem Adernpaar für Empfang- und Senderichtung (weil full duplex LVDS). Mehrere dieser Lanes kann man zu einem Link zusammenfassen (die dann koordiniert für die Kommunikation zu einer einzigen Gegenstelle wie etwa einer GPU genutzt werden und dann nicht mehr unabhängig arbeiten). Dies wird durch die Bezeichnung als z.B. PCIe x16 gekennzeichnet, was bedeutet, daß dort 16 Lanes in einem Link aggegriert werden. Bei den hier besprochenen PHYs geht das flexibel zwischen einer Lane pro Link bis zu 16 Lanes pro Link. Diese Aggregation funktioniert im Zusammenspiel mehrerer passender IP-Blöcke, z.B. zwischen Blöcken mit 4 Lanes und welchen mit zwei Lanes, wovon man dann genügend haben muß, um auf die gewünschte Linkbreite zu kommen.
Und so ein x4 Block oder x2 Block von Synopsis ist aber auch nicht auf mindestens x4 oder x2 Links festgelegt, er kann auch in mehrere schmalere, unabhängige Links aufgeteilt werden (Bifurcation z.B. eines x2-Blocks in zwei x1 Links).
Soweit verstanden?Das ist vollkommen klar. bifurcation komm ja z.B. bei den 4x LAN zum Einsatz.
Was nicht klar ist, ist warum AMD die von dir bezeichneten "Blöcke" als x4 E12G oder x2 E12G bezeichnet und aufzählt wie viele davon verbaut sind.
Damit interpretiere ich einen solchen "x4-Block" als kompletten PHY der eben 4 Lanes (4 Lanes docken an 4 Channels im PHY an - daher ein Quad-Channel E12G PHY der 4 Lanes aufnehmen kann) anbindet und mit weiteren PHYs "aggregiert" wird zu einem 16x-PCIe-Link. Ich hoffe du kannst meine Interpretation/Zählweise hier nachvollziehen.

Du sagst 16x PCIe Lanes werden zu einem Link gebündelt und jede Lane mit 8 GT/s hängt an einem PHY mit 12,5 GT/s. Stimmt das soweit?

Loeschzwerg
2017-08-10, 16:41:53
Du meinst jede Lane erhält einen PHY?

Na es sind doch einzelne serielle Verbindungen, oder nicht?

Complicated
2017-08-10, 16:59:09
Das bedeutet nicht, dass man keine 4 an einem Quad-Chanel-PHY seriell verbinden kann.
Ich beziehe mich da auf die Beschreibung von Synopsis die Dual-Channel und Quad-Channel ermöglicht. Selbst das PCIe-Protokoll bietet Virtuelle Channel an wodurch der ESM-Modus überhaupt erst möglich wird.

Ich beziehe mich hier auf die IP-Beschreibung von Synopsis
https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g

Und auf diesen Artikel bei Semiwiki: https://www.semiwiki.com/forum/content/6826-ccix-protocol-push-pci-express-4-0-up-25g.html

The internal SoC logic is expected to provide the implementing portion of the coherency, so the coherency protocol can be tightly tied to CPU, offering opportunities for innovation and differentiation. Synopsys consider that their customers are likely to separate data path for CCIX traffic vs “normal” PCIe traffic, and the PCI Express protocol offers Virtual Channels (VC), these can be used by CCIX.

Auch ist in AMDs Dokumentation eben nur von 11 E12G PHYs (6 x4 E12G und 5 x2 E12G) die Rede trotz 32+2 Lanes

ndrs
2017-08-10, 17:48:02
Auch ist in AMDs Dokumentation eben nur von 11 E12G PHYs (6 x4 E12G und 5 x2 E12G) die Rede trotz 32+2 Lanes
Warum "trotz"?
6*4+5*2 = 32+2 = 34
Wo ist das Problem?

Ein Quad-Channel-PHY ist doch nix anderes als 4 einzelne, die vielleicht etwas enger gepackt sind und sich logisch vielleicht einfacher Ansprechen lassen. (Spekulation meinerseits, aber ich wüsste nicht, was es sonst sein sollte.)

Complicated
2017-08-10, 17:55:59
Die Frage ist aber ob nun ein x4 E12G PHY 12,5 GT/s kann oder ob er dann 4x12,5 GT/s=50 GT/s kann.

Also sind 11 PHYs verbaut wo jeder 12,5 GT/s kann und 4 Lanes sich dies teilen müssen, oder sind für jede PCIe-Lane 12,5 GT/s verfügbar auf dem PHY.

maguumo
2017-08-10, 18:11:56
Es ist kein x4 E12G PHY sondern ein x4 E12G Block, Baustein oder wie auch immer Synopsis das schimpft. In diesem Block sind 4 PHYs, je einer pro Lane.

Gipsel
2017-08-10, 18:12:29
Du meinst jede Lane erhält einen PHY?
Die Aussage "PHYs für 16 Lanes" ist einfach nicht eindeutig. Das könnte auch ebenso 5 PHY sein wenn ich meine zählweise zugrunde lege.Jede Lane benötigt eine physische Schnittstelle (PHY), die die Signale auf die Leitung schickt und empfängt. Wie das genau organisiert ist, ist wie schon gesagt ziemlich unerheblich. Synopsis hat seine IP so ausgelegt, daß man die von ihnen erhältlichen Blöcke mit PHYs für eine, zwei oder vier Lanes praktisch beliebig kombinieren kann. Wieviele IP-Blöcke und welche genau von denen dann nebeneinander auf dem Die liegen ändert im Prinzip gar nichts daran.
Du weichst auch immer der konkreten Antwort auf die Frage aus, ob denn nun wie in der AMD Dokumentation verzeichnet 11 PHYs E12G verbaut sind. Auch deinen letzten Beitrag muss ich nun wieder interpretieren, daher die konkrete Frage: Zählst du alle 11 "Blöcke" die AMD listet zu einem einzigen PHY zusammen?Es gibt E12G PHYs für insgesamt 34 Lanes. Aus welchen IP-Blöcken von Synopsis die genau zusammengewürfelt sind (2*[3*x4 + 2*x2]+x2), ist höchsten für die Leute wichtig, die den AGESA-Code für deren Konfiguration schreiben, aber für die Diskussion hier eben unerheblich.
Oder heisst das jetzt sind 3 "Links" verbaut und 2 von den Links haben 16x PCIe und 1 Link 2xWAFL? Sprich nach dieser Zählweise wären 3 PHYs verbaut? 2 davon unterdimensioniert für ESM und einer überdimensioniert mit nur 2 WAFL angebunden?Das WAFL-Interface mit seinen zwei lanes kannst Du gleich schon mal vergessen. Das ist für die Consumer völlig unerheblich. Laß uns auf die anderen 32 Lanes konzentrieren. Die können mehrere Protokolle unterstützen (SATA3, Ethernet, PCIe3, xGMI) und zwischen diesen Protokollen aufgeteilt werden (wird vom UEFI/BIOS konfiguriert). Es können maximal 8 Lanes für SATA konfiguriert werden (weil es nur 8 SATA-Controller gibt, welche Lanes die nutzen, ist aber wegen dem Muxing flexibel konfigurierbar). Es kann maximal 16 PCIe-Links geben (alles von 1x bis 16x in beliebigen Kombinationen; es gibt zwei Controller für jeweils bis zu 8 Links). Es kann maximal 4 Ethernet-Links geben. Und es kann maximal 2 xGMI-Links geben. Und Alles in der Summe muß irgendwie auf die 32 Lanes passen (man kann also längst nicht Alles gleichzeitig nutzen). Welche Lanes nun genau einen Link bilden und wieviele Links insgesamt genutzt werden, ist also flexibel konfigurierbar und nicht fest. Deine Frage nach Anzahl der verbauten Links ergibt also keinen wirklichen Sinn.
Es ist nicht so, als ob ich nicht verstehe was du mir die ganze Zeit versuchst zu erklären. Ich bekomme das lediglich nicht in Einklang mit den verwendeten Bildern, Dokumentationen und Quellen.

Das ist vollkommen klar. bifurcation komm ja z.B. bei den 4x LAN zum Einsatz.???
Wenn Du Dein 40GBit-Ethernet-Beispiel meinst, da ist es Aggregation von 4 Lanes zu einem Link.
Bifurcation ist das Gegenteil von Aggregation und meint, daß man z.B. aus den 4 Lanes eines x4-Blocks auch mehrere Links bilden kann und man nicht auf einen x4-Link festgelegt ist. Dies sind Details der Konfiguration.
Was nicht klar ist, ist warum AMD die von dir bezeichneten "Blöcke" als x4 E12G oder x2 E12G bezeichnetUm anzugeben, wie viele Lanes diese Blöcke jeweils enthalten.
und aufzählt wie viele davon verbaut sind.Weil AMD damit Einblick in die interne Funktionsweise ihrer Hardware geben will. Aus dem Manual:
Intended Audience

This document provides the processor behavioral definition and associated design notes. It is intended for platform designers and for programmers involved in the development of BIOS functions, drivers, and operating system kernel modules.Für die ist das interessant und wichtig, um z.B. die Lanes richtig zu konfigurieren ;).
Damit interpretiere ich einen solchen "x4-Block" als kompletten PHY der eben 4 Lanes (4 Lanes docken an 4 Channels im PHY an - daher ein Quad-Channel E12G PHY der 4 Lanes aufnehmen kann) anbindet und mit weiteren PHYs "aggregiert" wird zu einem 16x-PCIe-Link. Ich hoffe du kannst meine Interpretation/Zählweise hier nachvollziehen.Wie schon gesagt, wie Du die Blöcke bezeichnest ist eigentlich völlig egal. Deine Bezeichnung ändert nichts daran, daß die PHYs nur maximal 12,5GT/s können. ;)
Du sagst 16x PCIe Lanes werden zu einem Link gebündelt und jede Lane mit 8 GT/s hängt an einem PHY mit 12,5 GT/s. Stimmt das soweit?Für einen PCIe3 x16-Link werden 16 Lanes (und natürlich dann auch die dazugehörigen PHYs) benutzt, ja. Und im PCIe3-Modus laufen die mit 8GT/s (woraus sich dann die 16GB/s Bandbreite pro Richtung für den Link ergeben).

Complicated
2017-08-10, 18:47:55
Es gibt E12G PHYs für insgesamt 34 Lanes. Aus welchen IP-Blöcken von Synopsis die genau zusammengewürfelt sind (2*[3*x4 + 2*x2]+x2), ist höchsten für die Leute wichtig, die den AGESA-Code für deren Konfiguration schreiben, aber für die Diskussion hier eben unerheblich.Es geht ausschließlich darum hier in dieser Diskussion.

Wie viele E12G PHYs werden verbaut wenn einer 12,5 GT/s als Limit hat? Schließlich ist genau das dein einziges Argument warum kein ESM-Modus möglich sein soll. Erneut gibt es keine klare Antwort darauf - aus welchem Grund?

Sagst du, dass jede PCIe-Lane 12,5 GT/s durch den PHY zur Verfügung gestellt wird? Egal ob da x2 oder x4 an der Bezeichnung des PHYs steht? Also für 4 Lanes dann 50 GT/s und für 2 Lanes dann 25 GT/s? Und somit für jeden 16x PCIe Link insgesamt 16x12,5= 200 GT/s ?

???
Wenn Du Dein 40GBit-Ethernet-Beispiel meinst, da ist es Aggregation von 4 Lanes zu einem Link.
Bifurcation ist das Gegenteil von Aggregation und meint, daß man z.B. aus den 4 Lanes eines x4-Blocks auch mehrere Links bilden kann und man nicht auf einen x4-Link festgelegt ist.Ich meinte die 4x LAN auf dem Zeppelin Schaubild, die wohl mit den 12,5 GT/s eines PHYs auskommen und daher als Beispiel für Bifurcation in Frage kommen wenn 4 LAN-Buchsen verbaut werden.

ndrs
2017-08-10, 18:55:42
Sagst du, dass jede PCIe-Lane 12,5 GT/s durch den PHY zur Verfügung gestellt wird? Egal ob da x2 oder x4 an der Bezeichnung des PHYs steht? Also für 4 Lanes dann 50 GT/s und für 2 Lanes dann 25 GT/s? Und somit für jeden 16x PCIe Link insgesamt 16x12,5= 200 GT/s ?
Genau so ist es.

Edit:
Ich glaube, dir ist nicht 100%ig klar, was ein PHY genau ist. Es ist das physikalische Interface, welches Signale vom Logiklevel auf die physische Vorhandenen Signalleitungen (also Lanes) legt. Im Prinzip nix anderes als ein Verstärker. Und Verstärker kann man nicht einfach so beliebig zusammenschalten und muxen, es sei denn man nutzt mechanische Schalter (wie sie hier neben mir in den Agilents die ganze Zeit rumklicken xD )

Complicated
2017-08-10, 18:58:31
Es ist kein x4 E12G PHY sondern ein x4 E12G Block, Baustein oder wie auch immer Synopsis das schimpft. In diesem Block sind 4 PHYs, je einer pro Lane.
Einfacher eindeutiger Satz nach dem ich nun die ganze Zeit suche, wenn mir Gipsel nun bestätigt dass er das auch meinte. Auch dir Danke ndrs.

Gipsel
2017-08-10, 19:13:18
Genau so ist es.Außer daß seine Rechnung mit den GT/s nicht funktioniert. 4 gebündelte Lanes mit 12,5GT/s machen keine 50 GT/s sondern weiterhin 12,5GT/s nur mit 4 bit pro Transfer.

============================

Es geht ausschließlich darum hier in dieser Diskussion.Nö. Es geht darum, daß Dir nicht klar ist, daß man mit PHYs, die für maximal 12,5GT/s spezifiziert ist, keine 20 oder 25GT/s auf den Lanes treiben kann.
Wie viele E12G PHYs werden verbaut wenn einer 12,5 GT/s als Limit hat? Schließlich ist genau das dein einziges Argument warum kein ESM-Modus möglich sein soll. Erneut gibt es keine klare Antwort darauf - aus welchem Grund?Was? Es wurde doch schon mehrfach gesagt, daß E12G PHYs von Synopsis für 32(+2) Lanes verbaut werden, die für 12,5GT/s maximal spezifiziert sind. Damit sind dann automatisch keine 20 oder 25GT/s (ESM0 bzw. ESM1-Modus für CCIX) möglich. Dafür müßten andere PHYs verbaut sein, die damit kompatibel sind und höhere Geschwindigkeiten schaffen.
12,5 GT/s < 20 GT/s < 25 GT/s
Sagst du, dass jede PCIe-Lane 12,5 GT/s durch den PHY zur Verfügung gestellt wird? Egal ob da x2 oder x4 an der Bezeichnung des PHYs steht?Im PCIe-Modus laufen die PHYs mit 8GT/s. Das bedeutet, alle 125ps kann ein Bit auf jeder Lane übertragen werden.
Also für 4 Lanes dann 50 GT/s und für 2 Lanes dann 25 GT/s? Und somit für jeden 16x PCIe Link insgesamt 16x12,5= 200 GT/s ?Das hatten wir doch schon mal. Wenn man mehrere Lanes zusammenfaßt, ergibt sich eine höhere Übertragungsleistung durch die parallele Übertragung von Bits über die mehreren Lanes. Die Geschwindigkeit auf den einzelnen Lanes (gemessen in GT/s) ändert sich nicht.
2 Lanes (mit 1bit pro Lane und Transfer) * 12,5GT/s = 25 Gbit/s, mit 4 Lanes sind es 50Gbit/s und mit 16 Lanes maximal 200 Gbit/s (25GB/s). Aber die Übertragung läuft weiterhin mit maximal 12,5GT/s. Das ist nicht additiv.
Ich meinte die 4x LAN auf dem Zeppelin Schaubild, die wohl mit den 12,5 GT/s eines PHYs auskommen und daher als Beispiel für Bifurcation in Frage kommen wenn 4 LAN-Buchsen verbaut werden.Wenn man mehrere LAN-Schnittstellen rausführen will, belegt jede einzelne auch eine Lane (bzw. falls höhere Geschwindigkeiten unterstützt werden [was optional laut Synopsis möglich ist], belegt ein einzelnes LAN-Interface mitunter auch mehrere Lanes [da haben wir wieder die Aggregierung im Spiel ;)]; 40GBASE-KR4, 40GBASE-KX4 und 40GBASE-CR4 belegen jeweils 4 Lanes, 100GBASE-CR10 belegt gar 10 Lanes). Eine einzelne Lane kann man relativ schlecht teilen.

Complicated
2017-08-10, 19:23:46
Ok ich glaube hier kommen wir der Auflösung deutlich näher. Wenn die GT/s nicht steigen, aber die Bandbreite auf 4 bit durch das x4, wird dennoch das vierfache an Daten übertragen gegenüber x1 12,5 GT/s. Also anstatt 1 GB/s für eine PCIe Lane dann 4 GB/s für 4 PCIe Lanes?

Edit: Bei PCIe natürlich mit 8 GT/s um die 1 GB/s pro Lane zu erhalten.

Gipsel
2017-08-10, 19:41:25
Ok ich glaube hier kommen wir der Auflösung deutlich näher. Wenn die GT/s nicht steigen, aber die Bandbreite auf 4 bit durch das x4, wird dennoch das vierfache an Daten übertragen gegenüber x1 12,5 GT/s. Also anstatt 1 GB/s für eine PCIe Lane dann 4 GB/s für 4 PCIe Lanes?

Edit: Bei PCIe natürlich mit 8 GT/s um die 1 GB/s pro Lane zu erhalten.Was lange wärt, wird endlich gut. :rolleyes:
Nicht daß ich das nicht schon vor etlicher Zeit geschrieben hätte.

StefanV
2017-08-10, 19:42:57
Der PHY ist das Teil, was das Signal nach draußen führt und empfängt.

Du hast also eine Verbindung von PHY =--------= PHY
- <- Leitung
= <- Steckplatz

Signale Bündeln oder ähnliche Spielereien gehen nicht. Wenn du einen PHY mit 12,5GT/s hast, dann kommt das auch genau so auf der anderen Seite an. Multiplexing und ähnliche Spielereien macht man idR vor dem...

Kurz:
Der PHY bestimmt die Transferrate.
Um das zu erhöhen, kannst du die Transferrate steigern, brauchst dann aber stärkere PHYs oder du nimmst einfach dickere...

maguumo
2017-08-10, 19:52:01
Was lange wärt, wird endlich gut. :rolleyes:

Aber danke für die Geduld, so konnten selbst Leute wie ich einiges an Infos hier raus ziehen.

Complicated
2017-08-10, 19:54:30
@StefanV
Nein wenn PCIe 8 GT/s nutzt wird das durch den PHY nicht erhöht.

@Gipsel
Nun da wir das geklärt haben, möchte ich dir diesen Link zu Synopsis geben:
https://www.synopsys.com/designware-ip/technical-bulletin/introduction-ccix-2017q3.html

Hier ist beschrieben wie auf den PCIe-Lanes die GT/s erhöht werden:
As noted earlier, one of the biggest attractions of CCIX is its compatibility with PCI Express, and in fact CCIX’s cache coherency protocol can be carried over any PCI Express link running 8GT/s or faster. The highest data rate specified by PCI Express 4.0 is 16GT/s, which works out to around 64GB/s of total bidirectional bandwidth on a 16-lane link, but some members of the CCIX Consortium needed even more bandwidth. They determined that by raising the transfer rate to 25GT/s, a CCIX link could approach 100GB/s under the same conditions. This led to a CCIX feature known as Extended Speed Mode (ESM).

Since PCI Express is owned by a different standards body, the CCIX Consortium chose a clever mechanism to allow compatibility between ESM-capable components and PCI Express components. Two CCIX components wishing to communicate with each other proceed through a normal PCI Express link initialization process (generally a hardware autonomous process) to the highest mutually supported PCI Express speed. From that point, software running on the host system can interrogate CCIX-specific configuration registers and determine if both components are ESM-capable, and if so, identify their highest supported speeds. That software then programs other CCIX-specific registers on both components to map PCI Express link speed(s) to CCIX ESM link speed(s). From that point forward, link negotiation would be for CCIX ESM speed(s), so by forcing a link retraining, the two components could now communicate as quickly as 25GT/s.

Das läuft komplett über Software laut der Erklärung in diesem Link - nicht magisch ;)

Also in jedem Fall ist CCIX-Protokoll schon ab 8 GT/s, sprich PCIe 3.0 möglich. Mit den 12,5 GT/s PHYs entsprechend dann bis zu 24 GB/s im ESM-Modus auf den 16xPCIe Links.

Edit: @Gipsel und natürlich Danke, dass du dir dennoch die Zeit genommen hast, auch wenn es zwischendurch verwirrend und spitzfindig wurde.

Gipsel
2017-08-10, 21:22:21
@Gipsel
Nun da wir das geklärt haben, möchte ich dir diesen Link zu Synopsis geben:
https://www.synopsys.com/designware-ip/technical-bulletin/introduction-ccix-2017q3.html

Hier ist beschrieben wie auf den PCIe-Lanes die GT/s erhöht werden:


Das läuft komplett über Software laut der Erklärung in diesem Link - nicht magisch ;)

Also in jedem Fall ist CCIX-Protokoll schon ab 8 GT/s, sprich PCIe 3.0 möglich. Mit den 12,5 GT/s PHYs entsprechend dann bis zu 24 GB/s im ESM-Modus auf den 16xPCIe Links.Das mit den ESM-Modi funktioniert, wenn man z.B. solche PHYs (https://www.synopsys.com/dw/ipdir.php?ds=dwc_multi_protocol_25g_phy) (die können dann auch 25GT/s) auf beiden Seiten der Verbindung benutzt.
Aber schon bevor man da hinkommt, müssen die Chips auf beiden Seiten überhaupt CCIX unterstützen. Das kann auch nicht jedes Gerät mit PCIe-Interface:
As shown in Figure 1, an existing PCI Express controller implementation can be extended with logic to implement a CCIX transaction layer. The CCIX transaction layer is responsible for carrying the coherence messages, while the blocks – CCIX protocol layer and link layer – are responsible for implementing the coherence protocol itself and acting upon it. These blocks require tight integration with internal system-on-chip (SoC) logic for caching, and are likely to be very specific to the particular architecture in use on that SoC. SoC designers implementing CCIX in their next designs typically desire partitioning the CCIX protocol and link layers separately from the CCIX transaction layer to enable them to achieve tight integration with the internal SoC logic.

Es gibt keine Indizien, daß Zeppelin überhaupt schon was mit CCIX anfangen kann. Das ist wahrscheinlich gar nicht implementiert. Und selbst wenn, für eine CCIX-Verbindung käme auch nur 8GT/s als legacy PCIe-Modus in Betracht, nichts Schnelleres. Denn das läuft natürlich nicht nur über Software, wie auch Deinem Zitat zu entnehmen ist. Die PHYs auf beiden Seiten der Verbindung müssen die höheren Geschwindigkeiten natürlich unterstützen (also das optionale EDR-Feature der CCIX-Spec):Hier ist beschrieben wie auf den PCIe-Lanes die GT/s erhöht werden:
Since PCI Express is owned by a different standards body, the CCIX Consortium chose a clever mechanism to allow compatibility between ESM-capable components and PCI Express components. Two CCIX components wishing to communicate with each other proceed through a normal PCI Express link initialization process (generally a hardware autonomous process) to the highest mutually supported PCI Express speed. From that point, software running on the host system can interrogate CCIX-specific configuration registers and determine if both components are ESM-capable, and if so, identify their highest supported speeds. That software then programs other CCIX-specific registers on both components to map PCI Express link speed(s) to CCIX ESM link speed(s). From that point forward, link negotiation would be for CCIX ESM speed(s), so by forcing a link retraining, the two components could now communicate as quickly as 25GT/s.
https://www.semiwiki.com/forum/attachments/content/attachments/19923d1496842095-1-ccix-phy-types-min-jpg

ndrs
2017-08-10, 22:47:29
Außer daß seine Rechnung mit den GT/s nicht funktioniert. 4 gebündelte Lanes mit 12,5GT/s machen keine 50 GT/s sondern weiterhin 12,5GT/s nur mit 4 bit pro Transfer.
Ach ja, die blöde Einheit :freak: mea culpa

Complicated
2017-08-11, 01:16:26
Es gibt keine Indizien, daß Zeppelin überhaupt schon was mit CCIX anfangen kann.
Ich finde schon dass es Indizien dafür gibt. 150 AMD Ingeniure die bei Synopsis seit 2014 daran arbeiten inkl. IP-Austausch zwischen den Unternehmen. Ich habe die Vermutung wir werden hier etwas zu sehen bekommen beim Vega Launch. Ist ja nicht mehr lange hin und die Spekulation wird aufgelöst. Das Timing und die Reihenfolge der Launches scheinen mir darauf hinzuweisen.