nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision [Archiv]

Skysnake

2014-03-25, 19:43:49

Werden wir sehen, aber mit nVLink begibt sich nVidia auf sehr dünnes Eis, wobei die Entscheidung durchaus was für sich hat.

Intel schottet sich gegen die Konkurrenz immer weiter ab.

Ob man mit Google und IBM aber wirklich so gut aufgestellt ist, ist ne gute Frage. nVidia muss da aufpassen, dass Sie nicht unter die Räder kommen. Am Ende ist nVidia allein nämlich nen ziemlich kleiner Verein, und ohne CPU-Part geht halt nichts, und da bringen Sie einfach nichts vernünftiges zustande. Warum auch immer.

EDIT:
@AnarchX
Oder man hat endlich gemerkt, das man mit Unified Memory, ähh... ich meine natürlich Virtual Unified Memory, die leute nicht verarschen kann. Das ist halt nen Softwareabstraktionslvl mehr und das wars wohl. Man hat da einfach den Mund zu voll genommen und gehofft, dass die Leute es nicht so schnell durchschauen. Nur leider hat das nicht funktioniert. Die Leute sind bzgl nVidia in den letzten Jahren sehr sehr sehr viel kritischer geworden und hinterfragen die Sachen mehr.

Mancko

2014-03-25, 21:36:27

Was Du immer für einen Mist laberst.

-/\-CruNcher-/\-

2014-03-25, 21:43:18

Vieleicht plannt er es als die Next Generation Steam Machines Powered by ARM, Quasi Nvidias Low Power High Efficient ARM Konsole :)

Die ganze sache mit den Konsolen scheint doch nicht so ganz an ihm vorbei zu laufen und der Verlust an AMDs APU und die Nutzung von AMDs GPU Exclusiv

Ich meine sie bauten die Shield wieso sollten sie keine Eigene Konsole Planen ;)

Hab zwar überhaupt keinen Plan wie sie ein erfolgreiches Ökosystem darum herum aufabauen wollen aber andere könnten die Dinger ja auch bauen.

Die idee einer High Efficient ARM Konsole ist schon reizend und sie mit der GPU Power entgegen x86 zu stellen im vergleich zu so einer Konsole mit sehr Limitierter Mobile Technik und OpenGL ES zu bauen ;)
Pascal würde super als Next Gen Konsolen Platform durchgehen :)

Sieht so aus. Die große Neuerung bei Maxwell auf der Roadmap ist "DX12". Unified Memory konnte wohl nicht umgesetzt werden.

Es war immer nur "Unified Virtual Memory" für Maxwell geplannt was programmiertechnisch aber auf Pascal vorbereitend sein könnte, theoretisch könnten diese Kompatibelen Programme sofort nutzen auf Pascal ziehen vom Unified Memory.

Es scheint mir hier eher darum zu gehen sovielen CUDA code wie möglich kreiren zu lassen der sofort von Pascal nutzbar wäre in seiner echten Unified Memory Architektur und die Platformen die damit geplannt sind.

Skysnake

2014-03-25, 21:45:40

Blediator16

2014-03-25, 21:58:40

Die idee einer High Efficient ARM Konsole ist schon reizend und sie mit der GPU Power entgegen x86 zu stellen im vergleich zu so einer Konsole mit sehr Limitierter Mobile Technik und OpenGL ES zu bauen ;)
Pascal würde super als Next Gen Konsolen Platform durchgehen :)

Wenn du damit Android Gaming meinst. Es gibt keine guten Spiele. Alles nur Müll. Eine Android Konsole kann niemals mit einer traditionellen mithalten.

fondness

2014-03-25, 22:00:45

Laut FUAD kommt Volta nach Pascal. Pascal scheint also eine Art Zwischenschritt zu sein bis Volta fertig ist:
www.fudzilla.com/home/item/34311-volta-coming-after-pascal-2016

-/\-CruNcher-/\-

2014-03-25, 22:08:33

Dann leg doch mal dar, wie der nvlink funktionieren soll und was das jeweils impliziert.

Ich bin echt gespannt. Die Aussage bzgl. Dem Perfvergleich zu PCIE sollte einem zu denken geben... Aber hey, das ist ja alles easy peacy und nVidia kann ja auch Signale mit Überlichtgeschwindigkeit übertragen, da ist das doch wirklich ein Klaks für die...

Sie nutzen schon eine art Bandwith Kompression wenn ich mich nicht täusche in Laptops, user die externe PCI-E GPU Links basteln kennen die sehr gut :)

Wenn du damit Android Gaming meinst. Es gibt keine guten Spiele. Alles nur Müll. Eine Android Konsole kann niemals mit einer traditionellen mithalten.
Richtig was präsentieren sie auf Tegra K1 ;) UE4 nu stell dir mal UE4 auf einer Unified Memory Platform wie Pascal vor ;)

Jensen schein echt ehrgeizig zu sein sein hieb auf Sony und die PS Vita war schon interessant, deswegen halte ich es nicht für ausgeschlossen das er schon soweit ist Nvidias eigene Konsole aus dem Boden stampfen zu wollen die nur vollends von ihrem Gesamt Ökosystem profetiert ;)

Konsole ist aber ja auch nur eine von vielen möglichkeiten für diese Platform

Sweeney würde sicher gerne UE4s Sparse Voxel Octree GI auf einer Konsole sehen die PS4 war ja dazu nicht im Stande, vor allem wie tief insgesammt Nvidia in die UE4 Engine verwurzelt ist das wäre der Perfekte kandidat, zumal ach moment mal das ist ja Nvidias R&D ;)

Ailuros

2014-03-25, 22:19:56

Laut FUAD kommt Volta nach Pascal. Pascal scheint also eine Art Zwischenschritt zu sein bis Volta fertig ist:
www.fudzilla.com/home/item/34311-volta-coming-after-pascal-2016

Ich glaub es erst wenn ich es von einer anderen zuverlaessigen Quelle lese/hoere, denn Fudo hat sich mal wieder angestrengt so viele Fehler wie moeglich zu machen in seinen writeups:

http://www.fudzilla.com/home/item/34309-nvidia-announces-pascal-its-2016-chip

Pascal also packs 3D stacked memory that is in the same chip packaging and it is about a third of the size of a PCIe card. It will launch in 2016, it will follow Moore's Law and deliver 20 Teraflops per second. Just for comparison, the original Tesla launched back in in 2008 was a 1TFLOPS unit, while Maxwell maxes out at 12TFLOPS.

Von jemand der zu bloed ist DP GFLOPs/W aus einer slide zu lesen glaube ich den Volta Mist noch lange nicht, denn ausser ich hab irgend etwas verpasst habe nichts dergleichen aus der keynote mitbekommen.

Lord_X

2014-03-25, 22:27:25

Ob das mit NVLink so klug ist? Ein eigener Standard bedeutet man braucht ein Mainboard, dass das unterstützt, denn ansonsten kann man mit den Grafikkarten nix anfangen.
...Nvidia hat für NVLink ein Modul entwickelt, das mit Pascal-GPUs zusammen arbeiten kann und etwa ein Drittel der Größe einer klassischen PCIe-Karte aufweist. Die Platine wird auf das Mainboard gesteckt und ermöglicht dann die direkte Kommunikation der Pascal-GPUs...

-/\-CruNcher-/\-

2014-03-25, 22:34:17

@Skysnake

Überleg doch mal sie wären total unabhängig etwas was weder Microsoft noch Sony bei ihrer Konsole schaft :)

Sie haben die Hardware (GPU/CPU) sowie die Software alles Komplett unter Kontrolle, was das bedeutet brauch ich dir hoffentlich nicht erklären ;)

Eine Absolute Effiziente Parallesierte Maschine die einzige abhängigkeit so wie ich das sehe ist die ARM IP und das OS (aber das haben sie vollkommen unter kontrolle) :)

Blediator16

2014-03-25, 22:34:26

-/\-CruNcher-/\-

2014-03-25, 22:40:44

Niemand zuvor hatte so ein massives Ökosystem wie Nvidia :)

Vieleicht werden wir gerade Zeugen der Geburt einer Komplett neuen Platform nach dem IBM PC

Nvidias Gegenrichtung zur APU und AMD.

Felixxz2

2014-03-25, 22:45:18

-/\-CruNcher-/\-

2014-03-25, 22:50:26

Fehlende Abhängigkeit bedeutet auch fehlender Support. Wer soll denn Spiele dafür machen?
Android wäre möglich aber sonst? Alles basiert auf x86 außer eben iOS und Android im Gaming Markt. Die Steam Machine ja auch.

Cruncher du bist schon wieder völlig in deinen Traumwelten gefangen. nVidia bringt nvlink und jetzt? Sicher, das wird den Markt revolutionieren. Und das alles ohne Intel und AMD....

Das verkennst du gewaltig es wäre um welten effizienter für Nvidia als wie auf dem PC ;)
Das Hauptproblem ist nur der CPU Part der Engines und in der tat würde das Überzeugung benötigen, aber UE4 läuft immerhin ;)

Überleg mal sie Demon irgendwann einen unscheinbaren kleinen kasten mit einem Nvidia logo drauf und zeigen auf diesem kleinen Cube die 2 oder 3 fache Performance der PS4 und daneben haben sie 2 Monitore die die Power Unterschiede in Echtzeit Demonstrieren (AMD APU Style Presentation) ;)

Mit einer Demo so voll gepackt mit Physix und Rendering das du vorher so noch nicht gesehen hast (echtes Gameplay Jensen Spielt selbstverständlich Persönlich) ;)

Stell mir schon jetzt vor wie stolz Jensen daneben stehen würde und sich einen abgrinsen "Wir packen es nicht haben sie gesagt AMD hat die bessere Platform haben sie damals in den Verhandlungen um die Konsolen gefasselt, nu schaut her" ;)

Käsetoast

2014-03-25, 23:12:06

Eine neue Konsole kann man meiner Meinung nach vergessen wenn es da nicht irgendeinen genialen Knackpunkt gibt. Tolle Leistung oder Grafik zieht da einfach nicht. Letztendlich wird es dabei an der Anzahl der angebotenen Spiele scheitern. Sieht man bei der Wii U ganz schön - die Verbreitung ist ja an sich erstmal nicht so übel, aber den Spieleherstellern reicht das nicht um großartig Spiele für die Konsole zu entwickeln. Ähnlich sieht's bei der Vita aus - eigentlich ein nettes Ding, das auch einigermaßen verbreitet ist, nur Spiele die man wirklich gerne zocken würde sind auf dem Ding Mangelware...

Wenn selbst Nintendo mit der Wii U und Sony mit der Vita ins Straucheln kommt hat NVIDIA da als Neuling, der die Käufer überhaupt erst mal für sich gewinnen muss und nicht wie Nintendo schon einen Namen hat, es sehr schwer. Das konnten sie mit der Shield ja auch schon erfahren, die ja ziemlich geflopt ist, auch wenn man sie an alle Teilnehmer der Konferenz verschenkt hat...

Ganz zu schweigen davon, dass es heutzutage mit der Konsole ja nicht mal ansatzweise getan ist, sondern man auch einen aufwendigen Online-Shop und generelle Online-(Social-)Features bieten muss. Sowas erstellt man ebenfalls nicht einfach so nebenbei und wie die Erfahrung zeigt muss sowas beim Kunden reifen...

Was die Konferenz angeht, so war das ja wirklich eher langweilig. Wobei was will man überhaupt noch erwarten? Die Zukunft bringt ein neues Produktionsverfahren und die stacked memory Geschichte. Das war aber sowieso abzusehen und entsprechendes werden wir auch von AMD noch zu hören kriegen. Maxwell sehe ich aber eigentlich ganz positiv wenn ich mir die Tests der GTX 750 ansehe. Scheint doch sehr effizient zu sein...

Ailuros

2014-03-25, 23:25:56

Das Thema ist die Pascal Architektur nach Maxwell und nicht Android. Konsolen oder sonst irgendwelchen OT Quark den ich hier lesen muss. Zurueck zum Thema OHNE weitere Vorwarnung.

AnarchX

2014-03-26, 00:04:50

Volta existiert wohl trotzdem noch:
An updated GPU roadmap was then shown that showed that Pascal would be the successor to Maxwell. This came as a shock to us as we thought that Volta would be the successor to Maxwell. We asked NVIDIA PR and they said that Volta is still out there and will be the architecture after Pascal. From what we gather Pascal will be the ideal solution for smaller form factor solutions and that Volta will be used across the board
http://www.legitreviews.com/nvidia-gtc-2014-opening-keynote-highlights_138267

AffenJack

2014-03-26, 07:42:33

Skysnake

2014-03-26, 08:34:53

...Nvidia hat für NVLink ein Modul entwickelt, das mit Pascal-GPUs zusammen arbeiten kann und etwa ein Drittel der Größe einer klassischen PCIe-Karte aufweist. Die Platine wird auf das Mainboard gesteckt und ermöglicht dann die direkte Kommunikation der Pascal-GPUs...
So und jetzt wachen wir mal bitte aus unserer Traumwelt auf, und denken darüber nach, wie denn diese Verbindung realisiert werden soll, ohne tausende von $ zu kosten....

Sorry, aber alles ab den 1GB/s von PCI-E 3.0 tut RICHTIG! weh bei der Entwicklung.... Und ja, ich weiß das aus eigener Erfahrung...

Die benötigten Frequenzen werden einfach so hoch, das es richtig hart wird, Signale über "längere" Strecken zu treiben, und ich meine da cm bis Millimeter als "längere" Strecken....

Man muss daher radikal Konzepte ändern, und die Änderungen haben dann nichts mehr mit nem PC gemein, wie ihr euch den vorstellt aus CPU, dGPU usw.

Das verkennst du gewaltig es wäre um welten effizienter für Nvidia als wie auf dem PC ;)
Das Hauptproblem ist nur der CPU Part der Engines und in der tat würde das Überzeugung benötigen, aber UE4 läuft immerhin ;)

Überleg mal sie Demon irgendwann einen unscheinbaren kleinen kasten mit einem Nvidia logo drauf und zeigen auf diesem kleinen Cube die 2 oder 3 fache Performance der PS4 und daneben haben sie 2 Monitore die die Power Unterschiede in Echtzeit Demonstrieren (AMD APU Style Presentation) ;)

Mit einer Demo so voll gepackt mit Physix und Rendering das du vorher so noch nicht gesehen hast (echtes Gameplay Jensen Spielt selbstverständlich Persönlich) ;)

Stell mir schon jetzt vor wie stolz Jensen daneben stehen würde und sich einen abgrinsen "Wir packen es nicht haben sie gesagt AMD hat die bessere Platform haben sie damals in den Verhandlungen um die Konsolen gefasselt, nu schaut her" ;)
Ähm.... ja ne is klar...

nVidia kann Zaubern....

Sorry, aber ja, bei nVidia arbeiten gute Leute mit viel Hirnschmalz, aber zaubern können die eben auch nicht...

StefanV

2014-03-26, 08:46:22

Ailuros

2014-03-26, 08:47:22

Die Frage bei Pascal ist ja auch in welchem Prozess die überhaupt kommen. Wir kriegen dieses Jahr etwas 20nm, nächstes Jahr wird 16nm Finfet kommen und Volta wäre dann für 2016 mit 10nm Finfet dran. Das ist aber ziemlich unrealistisch, dass TSMC oder andere Fertiger das wirklich Erfüllen. Also meine Spekulation wäre daher Pascal als 16nm Finfet Zwischenschritt, um mit Stacked Memory nicht solange auf 10nm warten zu müssen. Volta dann mit 10nm. Wäre im Prinzip dann nix groß anderes als jetzt, wo man schon Maxwell auf den vorigen Node vorgezogen hat, nur dass man dem Ding dann noch nen eigenen Namen gibt.

Wenn Volta die Nachfolger-Architektur fuer Pascal sein wird (und wenn sie ueberhaupt bis dahin immer noch so heissen wird :P ) dann nicht frueher als 2 Jahre nach Pascal ergo dann eher 2018 wenn Pascal in 2016 erscheint.

Es ist ja auch nicht so dass NV dank der konstant wachsenden Prozess-Problemen ihre roadmaps einhalten kann. Ich bin immer noch nicht ueberzeugt dass sie es innerhalb 2014 mit GM200 schaffen werden, selbst wenn nur fuer HPC. Wenn's stimmt dann wird aus der originalen 2013 Planung fuer Maxwell dann ploetzlich 2015 und nein ein jeglicher GM107 Zwerg zaehlt dann doch nicht weil die spezifischen roadmaps eine sehr hohe Anzahl an DP FLOPs/W angibt die man eben nur in den top dogs finden kann.

NV "hofft" heute 2016 fuer Pascal; garantiert Dir aber auch keiner. Und wenn es dann 2017 fuer den Pascal top dog werden sollte dann macht wohl nur noch 10FF Sinn (wenn TSMC nicht wieder ihre roadmap umkrempelt)...

Skysnake

2014-03-26, 08:50:33

Ich sag dazu erstmal gar nichts mehr bis auf weiteres, also bis 2015/16....

Aber vielleicht sollte man sich mal auf die Suche begeben, welche Fördermittel nVidia in letzter Zeit bekommen hat. Eventuell sieht man da Parallelen.

N0Thing

2014-03-26, 11:36:50

Sorry, aber alles ab den 1GB/s von PCI-E 3.0 tut RICHTIG! weh bei der Entwicklung.... Und ja, ich weiß das aus eigener Erfahrung...

Die benötigten Frequenzen werden einfach so hoch, das es richtig hart wird, Signale über "längere" Strecken zu treiben, und ich meine da cm bis Millimeter als "längere" Strecken...

Unmöglich kann es aber auch nicht sein, wenn die PCI-SIG schon die doppelte Datenrate für PCIe 4.0 angekündigt hat, oder?

Zudem habe ich es bei der Präsentation so verstanden, daß NVLink auf PCIe aufbaut und quasi mehrere PCIe-Verbindungen für eine direkte Kommunikation zwischen CPU und GPU nutzt. Also nicht direkt neue Technik, sondern eine Verbindung, die es vorher nicht gab. Aber das mag ich natürlich auch falsch verstanden haben.

Skysnake

2014-03-26, 13:29:58

überleg dir einfach welche Bandbreite ein 16x PCI-E 3.0 Slot hätte, und schlag darauf die 4-5 mal, und rechne dann aus, wie breit die Anbindung sein müsste, und welche Taktraten man dann jeweils fahren müsste, und dann schau bei IEEE usw mal nach, welche Kopfstände man machen muss, um diese Frequenzen zu erreichen.

Und nein, ein 512 Bit Interface würde ich jetzt nicht mehr als hinnehmbar betrachten, wenn man denn über einen Slot-sockel gehen muss/will.

Und bzgl PCI-E 4.0. Schau dir mal an, wie Sie das erreichen wollen... Ich sag nur "neue", also teure HF-Platinenmaterialien, aktive Repeater und/oder nur noch 1-2 Slots ohne aktive Repeater, also wenige cm zwischen den Chips.

Möglich ist vieles, aber ich glaub nicht, das jemand bereit ist mal eben nen Faktor 10-100 mehr zu zahlen als heute. Du musst ja Mehrleistung bei weniger Energieverbrauch erreichen, und das macht die ganze Sache zum echten Problem.

StefanV

2014-03-26, 13:31:05

Unmöglich kann es aber auch nicht sein, wenn die PCI-SIG schon die doppelte Datenrate für PCIe 4.0 angekündigt hat, oder?
Nein, aber schau dir doch mal die ganzen Einschränkungen an, die mit PCIe 4.0 einher gehen sollen. Das ist z.T. wohl schon heftig...
Gibts auch in den Tiefen dieses Forums, dass da die Leitungslänge wohl nicht soo lang wie bisher sein darf und auch nicht mehr allzu viele Slots damit möglich sein sollen - ohne Repeater/Verstärker oder ähnliches...

Zudem habe ich es bei der Präsentation so verstanden, daß NVLink auf PCIe aufbaut und quasi mehrere PCIe-Verbindungen für eine direkte Kommunikation zwischen CPU und GPU nutzt. Also nicht direkt neue Technik, sondern eine Verbindung, die es vorher nicht gab. Aber das mag ich natürlich auch falsch verstanden haben.
Also nur ein nVidia Name für PCI Express?
Oder etwas, dass auf PCI Express aufsetzt??

AnarchX

2014-03-26, 13:35:02

Anandtech hat eine gute Analyse zu NVLINK: http://anandtech.com/show/7900/nvidia-updates-gpu-roadmap-unveils-pascal-architecture-for-2016

StefanV

2014-03-26, 13:58:07

Ahjo, also eher eine Ablösung für die SLI Connectoren??

Ephiriel

2014-03-26, 14:05:19

Nein, eher als Ablösung für PCIe.
Allerdings kann ich mir das zur Zeit im PC schwer vorstellen. Zumindest nicht Intel/Amd mitmachen, da ja hier sogar die Grafikkarte horizontal auf dem Mainboard liegt, und nicht mehr vertikal. Außerdem muss hier doch auch Support von der CPU gegeben sein, oder?
Eher für Server und 19"-Aufbauten?

N0Thing

2014-03-26, 14:05:33

Grob gesehen ja, nur daß es für einen Standard-PC keine Relevanz hat und dort weiter PCIe-Verbindungen genutzt werden (und vielleicht auch weiterhin SLI-Brücken).
Der Einsatzort von NV-Link sind spezielle Server samt angepaßtem Mainboard und CPU.

Skysnake

2014-03-26, 14:10:07

Ja könnte man so sehen, wobei es weit mehr ist.

Anandtech hat eine gute Analyse zu NVLINK: http://anandtech.com/show/7900/nvidia-updates-gpu-roadmap-unveils-pascal-architecture-for-2016
Ja, die Analyse ist wirklich gut. Viel besser sogar, als ich erwartet habe.

Nur mal zum Vergleich. Die wollen hier mit 10-12,5GHz Signale treiben. PCI-E 3.0 arbeitet mit 4GHz Signalen, und ich denke wir wissen alle, wie schwer es am Anfang war, bis PCI-E 3.0 richtig lief...

Das man 8 Lanes hat, wundert mich doch etwas. Das ist an sich etwas hässlich in meinen Augen. 10 Lanes wären da schicker gewesen, zumal man dann auch die Taktraten hätte senken können, aber gut.

Interessant wird noch der Transportlayer, wie der genau aufgebaut ist. Wenn ich die Sachen bzgl notwendigkeit von PCI-E lese, dann hört sich das nicht sonderlich berauschend an.

Witzig ist auf jeden Fall, dass Sie so ein Geheimnis um den Stecker machen ;D
Dabei ist das an sich ein 0815-Stecker.

Ihr solltet euch auch die Sache mit OpenPOWER auf der Zunge zergehen lassen, und dann nochmal darüber nachdenken, was das alles mit Gamern usw zu tun hat.

Das ist nen geschlossenes System, was im Rahmen des OpenPOWER Konsortiums funktionieren wird, aber das wars dann sehr wahrscheinlich auch.

Es ist halt eine Reaktion auf Intels und AMDs Abschottungsbestrebungen.

Ansonsten ist halt ziemlich übel, das man keine Cachecohärenz am Anfang haben wird. Das ist ziemlich schwach, wenn man bedenkt, wann das erst kommen wird, und was die Konkurrenz schon hat, bzw in Planung hat.

Der 3D-Stacked RAM ist wirklich cool, und ich hoffe INSTÄNIG!!! das die Technik endlich auch mal jemand im Massenmarkt einsetzt, aber was besonderes wirds dann im Prinzip auch nicht mehr sein. Die Technik ist seit zich Jahren in Entwicklung.

Vom nVLink bin ich aber alles, nur nicht beeindruckt.

N0Thing

2014-03-26, 14:38:34

Das man 8 Lanes hat, wundert mich doch etwas. Das ist an sich etwas hässlich in meinen Augen. 10 Lanes wären da schicker gewesen, zumal man dann auch die Taktraten hätte senken können, aber gut.

Ich finde 8 Leistungen gut, da kann man leichter mit rechnen. 20Gbps --> 20GB/sec. :D

Witzig ist auf jeden Fall, dass Sie so ein Geheimnis um den Stecker machen ;D
Dabei ist das an sich ein 0815-Stecker.

Was für ein Geheimnis? Sie haben einfach nur das Prototyp-Modell der Platine gezeigt. Der Stecker bei Anand ist einfach nur ein Beispiel für die Art des zum Einsatz kommenden Steckers und nicht wichtig genug, als das man darüber extra noch bei der Konferenz hätte reden müssen.

Skysnake

2014-03-26, 14:39:01

Wenns halt die Wahrheit ist?

Es gibt coole Sache, aber auch weniger coole Sachen.

GPUDirect2 für RDMA RICHTIG FETT!
HyperQ, an sich überfällig
DynamicParallelism, an sich ziemlich cool, aber schwer zu sagen, ob jetzt die versprochene Performancevorteile auch tatsächlich da sind, oder nicht. Daher scher ein zu schätzen.
Der fette L2 von GM107 richtig fett. Ein richtiger Schritt meiner Meinung nach.
Stacked 3D-RAM auch absolut richtig, nur halt noch ewig weit weg, und man kann daher davon ausgehen, dass die Konkurrenz ziemlich zeitnah auch das Selbe bringt. Was soll man auch beim gleichen Auftragsfertiger erwarten?

nVLink ist halt nichts anderes als HT/QPI, nur halt ohne Cachecohärenzprotokoll :ugly: Das hat Anandtech schon gut erkannt. Sorry, aber was soll jetzt daran besonders sein?

Intel macht genau das gleiche mit ihren KNLs. AMD hat es quasi schon gemacht durch die HUMA/HSA APUs.

20GB/s (160GBit/s) hören sich jetzt pro Link ganz gut an, aber wenn ich mir anschaue, das man bereits heute 40GBit NICs kaufen kann, und Intel dieses Jahr noch ne ~600GBit/s Link raus bringen will, dann ist das unter der Berücksichtigung, das es erst 2015/2016 auf den Markt schaffen wird ziemlich unbeeindruckend.

Wenn die heute sagen würden, du kannst das in 3 Monaten kaufen und in deine Server packen, würde ich ganz anders darüber urteilen, denn dann wäre man der Konkurrenz voraus. Zumindest aktuell. Das wäre schon ganz cool. Aber in 2 Jahren? Ähm.... ne. Da ist das nicht mehr richtig cool und fett, sondern schlicht Standardkost.

Man muss ja auch berücksichtigen, was für nen Aufwand Sie dafür treiben. Mal eben nen komplett neuen Formfaktor raushauen ist jetzt auch nicht gerade super toll. Klar, man ist aufgrund der Taktraten schlicht dazu gezwungen was zu tun, aber dadurch hat man auch ganz andere Möglichkeiten...

Da muss man nicht so tun, als ob man der tollste Verein auf der ganzen Welt wäre, und etwas machen würde, was kein anderer schaffen kann. Ja ok, in nVidia GPUs kann nur nVidia nen NIC einbauen, aber das liegt halt in der Sache der Natur. Dafür brauch/kann man ihnen nicht auf die Schulter klopfen.

Zumal eben das Design nachdem wie es scheint halt auch nicht skaliert. Mit 4 Links kann man nur ein 2D-Mash/Torus bauen, so lange man keine externen Switches verwenden will. Das schreit jetzt nicht gerade nach Skalierbarkeit, und bei dem Zielmarkt ist Skalierbarkeit extrem wichtig.

EDIT:
Ich finde 8 Leistungen gut, da kann man leichter mit rechnen. 20Gbps --> 20GB/sec. :D

Und wie packste dein 8/10 Bit Coding bzw dein 128/130 Bit Coding da drauf? :rolleyes:

Klar kannste 10 Bits pro Lane übertragen, aber das erhöht halt die Latenz, und bei sowas willste nicht wirklich hohe Latenzen.

Was für ein Geheimnis? Sie haben einfach nur das Prototyp-Modell der Platine gezeigt. Der Stecker bei Anand ist einfach nur ein Beispiel für die Art des zum Einsatz kommenden Steckers und nicht wichtig genug, als das man darüber extra noch bei der Konferenz hätte reden müssen.
Ähm ja. :ugly:

10 GHz+ Stecker sind ja auch soooo einfach :ugly:

Der Stecker ist schon recht interessant/wichtig. So trivial ist das nämlich gar nicht, das man sich das Signal damit nicht kaputt macht. Die Idee den Stecker auf die Rückseite zu packen ist nämlich gar nicht so schlecht. So verkürzt man nämlich wirklich die Leterbahnen auf dem PCB beträchtlich. Blöd ist halt, die Durchführung durchs PCB, aber gut, das sollte man auch noch hinbekommen.

Das interessante sind aber vor allem die Dimensionen des Steckers. Ich kenn derartige Stecker, und die sind beträchlich größer als nen normaler PCI-Stecker. So grob genau so lang wie nen 16x PCI-E Slot, oder sogar noch länger und zich mal so breit.

Ich wäre ja echt gespannt, von welcher Firma der Stecker ist. So viele gibts da ja nicht ;D

StefanV

2014-03-26, 14:43:51

Oh Skysnake-NVIDIA-Bitching. Gut, dass wir diese Schallplatte noch nie gehört haben.
Wie ist denn deine Meinung zu dem nV Link, wo liegen deiner Meinung nach die Vorteile, wann, wie und wo wird es deiner Meinung nach eingesetzt werden?

Und welchen Vorteil hätten 'die Gamer' davon?

Mandalore

2014-03-26, 16:53:30

@Skysnake:

Nur weil du diese Komplexität nicht kennst muss es nicht unmöglich sein.:rolleyes:

Keine Angst die Leute sind hochgebildete Akademiker, die haben schon so einiges mehr Ahnung als du mit deiner Elektroniker-Ausbildung.....

ndrs

2014-03-26, 17:15:37

Man sollte sich hüten Leuten einen Bildungsgrad anzudichten, nur weil man anderer Meinung ist.

Zum Thema: Ich stimme Skysnake zu, was den Interconnect angeht, das ist nicht ohne. Von den GPU- und RAM-Features hab ich allerdings weniger Ahnung.

Mandalore

2014-03-26, 17:44:56

Wieso denn "hüten"? Ich habs ja nicht negativ bzw. böse gemeint. Bildungsgrade lassen sich auch sinngemäß zur Antwort verwenden...;)

Ailuros

2014-03-26, 19:20:19

Wieso denn "hüten"? Ich habs ja nicht negativ bzw. böse gemeint. Bildungsgrade lassen sich auch sinngemäß zur Antwort verwenden...;)

Ich hab's auch nicht "boese" gemeint. Forum-Regeln sind eben gerade dafuer da, dass sie andere von solchen "Liebesaktionen" schuetzen koennen.

Mir geht die Laier mancher User auch oefters auf den Wecker; es gibt mir oder jeglichem anderen eben nicht das Recht sich so auszudruecken.

Skysnake

2014-03-26, 19:23:46

Wie ist denn deine Meinung zu dem nV Link, wo liegen deiner Meinung nach die Vorteile, wann, wie und wo wird es deiner Meinung nach eingesetzt werden?

Ich gehe eher davon aus, dass das im Rahmen der OpenPOWER Gruppe eine "geschlossene" Verantstaltung wird. Man versucht sich halt von der Konkurrenz zu isolieren, weil die das auch macht. Damit verhindert man einen direkten Wettstreit bei einzelnen Komponenten und punktet halt mit Gesamtsystemen.

Das ist einerseits sehr sehr ärgerlich, weil die Konkurrenz wegfällt, und man sich sein "optimales" System nich zusammenstellen kann, aber man ist eh gezwungen immer mehr und noch mehr zu integrieren. Von daher geht das eigentlich Hand in Hand.

Wo GENAU das eingesetzt werden kann ist aber eine wirklich sehr gute Frage. Die wirklich entscheidenden Fragen wurden nämlich nicht gestellt.

Welche Topologie/Architektur verbirgt sich wirklich hinter dem nVLink?

Ist es es eine Punkt zu Punktverbindung, die nicht skaliert wie QPI und HT, oder ist es eher eine variable Architektur, aus der ich außer nem Stern auch nen 2D Mash/Tori bauen kann.

Das ist eine sehr sehr entscheidende Frage, da davon abhängt, wie der Einsatzzweck aussieht.

Nach allem was nVidia bisher gezeigt hat, sieht es eher nach einem QPI/HT Reloaded aus. Das skaliert halt null und taugt nur was als low latency Interconnect innerhalb eines Nodes. Das wäre an sich ziemlich schwach. Klar ist es immer noch sehr cool, das man den Falschenhals PCI-E weiten kann, aber am Ende doch schwach, weil APUs in die gleiche Kerbe schlagen können.

Richtig interessant wird es erst, wenn man damit hunderte/tausende von Rechnern/Karten verbinden kann, und das bei extrem niedrigen Latenzen, also <1µs.

Was so ne Sache ist, ist auch die Anbindung des RAM "nur" an eine GPU, so wie man es auch von SMP Systemen her kennt.

HybridMemoryCube eröffnet da aber als Perspektive ganz andere Architektur, die anders aussehen. Dazu kann ich euch aber nichts näheres sagen.

nVidia muss da auf jeden Fall aufpassen, dass Sie nicht von Entwicklungen in anderen Bereichen überrollt werden. Da gibt es wirklich sehr spannende gegenläufige Entwicklungen, bei der man sich hüten sollte schon jetzt zu sagen, welche sich als die Bessere herausstellt.

Man verschenkt aber wohl ziemlich viel Potenzial, wenn man keinen echten NIC an den nVLink setzen kann. Vor allem unter dem Gesichtspunkt, was Intel mit Corning und Fujitsu mit dem XMC System aus dem Boden stampfen will.

Und welchen Vorteil hätten 'die Gamer' davon?
An sich käme eigentlich "nur" eine verbesserte Skalierung bzgl. SLI in Frage so lange keine cachecohärenz dabei ist. Wenn die noch dazu kommt, könnte man sich wohl das mehrfache Speichern der selben Daten im RAM der jeweiligen GPU sparen.

Das ist aber noch sehr weit hin, und man muss halt echt schauen, wie sich mit HMC vs Stacked 3DRAM also APUs vs GPUs sich in den nächsten Jahren entwickelt. Im Prinzip läuft HMC den APUs voll rein und ermöglicht auch da richtig fett skalierende Systeme, wobei die APUs dann immer ihren architektonischen Vorteil aus enger Kopplung zwischen CPU und GPU ausspielen können.

Schade daher auch, das man bei OpenPOWER jetzt so was wie nVLink sieht, und nicht ein SOC, wobei ich keine Wette eingehen würde, dass das nicht auch mal als SOC auf den MArkt kommen könnte.

@Skysnake:

Nur weil du diese Komplexität nicht kennst muss es nicht unmöglich sein.:rolleyes:

Hat jemand von unmöglich gesprochen?

Vielleicht "kenne ich die Komplexität" ja aber auch einfach nur, und weiß daher, was wirklich herausfordern ist, und was nicht.

Loeschzwerg

2014-03-26, 19:56:18

Das interessante sind aber vor allem die Dimensionen des Steckers. Ich kenn derartige Stecker, und die sind beträchlich größer als nen normaler PCI-Stecker. So grob genau so lang wie nen 16x PCI-E Slot, oder sogar noch länger und zich mal so breit.

Meinst du sowas hier:
http://images.esellerpro.com/2131/I/171/95/CA20004-B12X%20002.jpg (Primepower 650 Backplane ;D)

Mir kommt da aber noch eine Idee (weil man absolut keine Kontakte am PASCAL Modul sieht), evtl. setzt man auf Kontakfolie :) Das Thema hatten wir ja erst, wenn du dich erinnerst.

In etlichen HP/Fujitsu/IBM UNIX-Workstation mit RISC CPU kommt Kontaktfolie (bzw. kleine Kohlekontakte/Noppen, kann ich bei Bedarf Bilder machen) zum Einsatz.

Skysnake

2014-03-26, 20:19:07

Ja ich erinnere mich, und ich warte noch immer auf das Paper ;)

Mein Chef ist sehr interessiert, hat aktuell nur sehr sehr viel andere Arbeit, daher konnte er sich das noch nicht genauer anschauen, aber sobald mehr Zeit ist, will er sich das genau anschauen.

Wenn du also Bilder hast, immer her damit :up:

Ansonsten, bzgl Folie:

Glaub ich eher nicht. Das Ding wird ja verschraubt. Wenn könnte man sich mehr oder weniger den Stecker ja ganz sparen, was in meinen Augen die geilste Lösung wäre :biggrin:

Aber den Stecker gibt es halt. Der wird wohl fast die gesamte Rückseite einnehmen. Zumindest meint Anandtech, dass der auf der Rückseite ist. Wird halt direkt unterm Sockel sitzen, um die Leitungslängen maximal kurz zu halten.

EDIT:
Noch was zu dem Stecker-Bild.

Ja genau sowas meine ich, nur so nen Faktor 4 größer :devil:

Loeschzwerg

2014-03-26, 20:31:23

Glaub ich eher nicht. Das Ding wird ja verschraubt. Wenn könnte man sich mehr oder weniger den Stecker ja ganz sparen, was in meinen Augen die geilste Lösung wäre :biggrin:

...

EDIT:
Noch was zu dem Stecker-Bild.

Ja genau sowas meine ich, nur so nen Faktor 4 größer :devil:

Die Löcher können auch für Anpressdruck der Folie und Kühler sein. PCB Kontakte/VIAs sehe ich auf der Oberseite nicht, sieht mir jetzt nicht direkt nach einem Stecker dieser Größe aus (aber da kann ich mich täuschen).

Faktor 4 kenne ich auch, hab nur gerade kein Bild gefunden und nen Mainframe (mit diesen Kontakten) kann ich in der Arbeit schlecht zerpflücken :D

Bilder zur Kontaktfolie mache ich morgen.

Loeschzwerg

2014-03-27, 07:35:46

@Skysnake:
http://abload.de/image.php?img=img_20140327_064351_049kxj.jpg
http://abload.de/image.php?img=img_20140327_064431_24ckec.jpg
http://abload.de/image.php?img=img_20140327_065244_6sejoq.jpg
http://abload.de/image.php?img=img_20140327_065347_5yxjoe.jpg
http://abload.de/image.php?img=img_20140327_065556_1zqkz2.jpg
http://abload.de/image.php?img=img_20140327_065615_0s0jio.jpg

Das ist jetzt keine Folie/Schicht in die BGA Kontakte eindrücken, sondern eine Folie mit weichen Kontaktnoppen.

Aber vermutlich hast du recht und es wird bei Pascal auf Mezzanine Steckverbinder herauslaufen:
http://connectorsupplier.com/images/uploads/010813-CS-backplane-messanine-hult-6.jpg

Skysnake

2014-03-27, 08:08:32

Danke :daumen:

Ja, geh ich wirklich stark von aus. Darüber soll ja auch der Strom laufen, und IBM hat verdammt viel Erfahrung mit den Steckern. Die haben sicherlich kein Bock, ihr System groß an zu passen.

N0Thing

2014-03-27, 09:59:59

So und jetzt wachen wir mal bitte aus unserer Traumwelt auf, und denken darüber nach, wie denn diese Verbindung realisiert werden soll, ohne tausende von $ zu kosten....

Sorry, aber alles ab den 1GB/s von PCI-E 3.0 tut RICHTIG! weh bei der Entwicklung.... Und ja, ich weiß das aus eigener Erfahrung...

20GB/s (160GBit/s) hören sich jetzt pro Link ganz gut an, aber wenn ich mir anschaue, das man bereits heute 40GBit NICs kaufen kann, und Intel dieses Jahr noch ne ~600GBit/s Link raus bringen will, dann ist das unter der Berücksichtigung, das es erst 2015/2016 auf den Markt schaffen wird ziemlich unbeeindruckend.

Witzig ist auf jeden Fall, dass Sie so ein Geheimnis um den Stecker machen ;D
Dabei ist das an sich ein 0815-Stecker.

Ähm ja. :ugly:

10 GHz+ Stecker sind ja auch soooo einfach :ugly:

Der Stecker ist schon recht interessant/wichtig. So trivial ist das nämlich gar nicht, das man sich das Signal damit nicht kaputt macht. Die Idee den Stecker auf die Rückseite zu packen ist nämlich gar nicht so schlecht. So verkürzt man nämlich wirklich die Leterbahnen auf dem PCB beträchtlich. Blöd ist halt, die Durchführung durchs PCB, aber gut, das sollte man auch noch hinbekommen.

Das interessante sind aber vor allem die Dimensionen des Steckers. Ich kenn derartige Stecker, und die sind beträchlich größer als nen normaler PCI-Stecker. So grob genau so lang wie nen 16x PCI-E Slot, oder sogar noch länger und zich mal so breit.

Ich wäre ja echt gespannt, von welcher Firma der Stecker ist. So viele gibts da ja nicht ;D

Kann es sein, daß du dir hier selber widersprichst? :wink:

Vielleicht solltest du es mal ein wenig ruhiger angehen und nicht direkt jeden Gedanken, der dir in den Sinn kommt, sofort zu Papier bringen. Es war schon bei der FCAT-Diskussion anstrengend, die interessanten Dinge aus den ganzen wilden Spekulationen heraus zu filtern und den Rest zu ignorieren oder richtig zu stellen.

Skysnake

2014-03-27, 10:48:43

Die Aussagen widersprechen sich in keinster weise.

Man muss Sie nur im jeweils richtigen Blickwinkel sehen.

Für "0815" Server Boards aufbauend auf (E-)ATX sind die Taktraten nur sehr schwer zu erreichen. Vor allem auch, weil man eben an ATX gebunden ist mit seinen Dimensionierungen und Steckverbindungen.

Du musst dir ja immer anschauen, welche Randbedingungen gelten! nVidia hält sich da ja an keinerlei Standard. Daher hat das auch nichts mehr mit nem "normalen" PC/Server zu tun.

Wenn ich nen Mezzanine Stecker verwende, der 4-8 mal so groß ist wie nen PCI-E Slot, und den dann auch noch direkt unter den Sockel anbringe, und nicht nen SF4 Board nutze, sondern nen HF Board, dann ist das durchaus machbar. Aber darum geht es ja nicht.

Wenn mir Geld scheis egal ist, dann kannste fucking viel erreichen. Nur das hat halt nichts mit nem verkaufbaren/konkurrenzfähigen Produkt zu tun.

Kaufen kannste alles mögliche. Es gibt auch heute schon Steckverbindungen für mehr als 10/20 GHz. Fragt sich halt nur, was die dann kosten... Nutzerfreundlichkeit ist auch immer so ne Sache. Bringt ja nichts, wenn du ne Verbindung nicht mal nen Dutzend mal trennen und wieder herstellen kannst usw usw.

Man muss da halt immer aufpassen, in welchem Kontext man etwas vergleicht.

Also bleib ich auf dem gleichen Chip? -> auch extreme Bandbreiten/Taktraten bis 20 GHz sind schon heute durchaus machbar. Wie hoch der Yield dann am Ende ist, ist wieder ne GANZ andere Frage.
Musst du auf das Package raus? -> auch hier sind Taktraten bis 10 GHz machbar, aber nicht mehr so ganz einfach. Große Frage ist hier auch immer, ob man nen organisches oder nen heramisches Package hat. Der Preisunterschied ist nicht gerade klein, aber die Keramik Pakages sind viel viel besser geeignet für Hochfrequenzsignale
Habe ich ne Steckverbindung, oder ne Lötverbindung bei Sockel? -> beeinflusst auch wieder das Hochfrequenzverhalten
Wie weit muss ich denn übers PCB? -> Bei PCI-E musst >> 10 cm weit die Signale treiben, das ist im GHz-Bereich echt nicht mehr so einfach, oder sind es wie bei nVidia hier nur wenige Millimeter, wobei die Distanz ja auch noch klar fixiert ist, sprich man kann nen OnChip Amplifieing des Signals machen, um die Augenöffnung zu vergrößern.
Aus welchen Material besteht denn meine Platine? -> SF4, oder doch ne HF-Platine?

Am Ende läufts immer auf zwei Dinge raus. Wie viel bin ich bereit an Kosten zu stemmen, und an welche Standards will/muss ich mich halten.

Über Standards macht sich nVidia wies aussieht überhaupt keine Gedanken, und die setzen zwar wohl "0815" Stecker ein, aber "0815" Stecker, die absolut nichts mehr mit allem zu tun haben, die man im Consumerbereich antrifft, und dafür, das Sie so viel über den Haufen werfen, und dann auch noch erst in rund 2 Jahren auf den Markt kommen werden, ist es nicht meh beeindruckend.

Würden die das auf ner normalen SF4 Platine mit ganz normalen Steckverbindung unter Einhaltung des ATX Standards usw erreichen, dann wäre das heute ne sehr sehr beeindruckende Leistung.

Wie gesagt, es hängt sehr stark jeweils von den Randbedingungen ab, unter denen man gewisse Dinge betrachten muss. Und "billig" ist die Lösung die nVidia da angeht sicherlich nicht.

Mancko

2014-03-27, 14:25:34

Wie gesagt, es hängt sehr stark jeweils von den Randbedingungen ab, unter denen man gewisse Dinge betrachten muss. Und "billig" ist die Lösung die nVidia da angeht sicherlich nicht.

Billig war ehrlich gesagt bis auf wenige Außnahmen auch noch nie Nvidia's Fokus. Dafür waren doch in aller Regel andere zuständig - z.B. AMD.

Skysnake

2014-03-27, 18:43:58

Ich schreib nicht ohne Grund "billig".

Im Vergleich zu ner Z-Machine ist auch nen 50k€ Intel-Server ne "Billig"kiste. Ich hoffe du verstehst worauf ich hinaus will.

Felixxz2

2014-03-27, 18:53:01

Billig war ehrlich gesagt bis auf wenige Außnahmen auch noch nie Nvidia's Fokus. Dafür waren doch in aller Regel andere zuständig - z.B. AMD.

Hahaha du hast wohl nicht verstanden um welche Dimensionen es hier geht....

Loeschzwerg

2014-03-27, 20:41:31

Im Vergleich zu ner Z-Machine ist auch nen 50k€ Intel-Server ne "Billig"kiste. Ich hoffe du verstehst worauf ich hinaus will.

Um hier mal ne grobe Zahl für das Volk zu nennen, ne Million (der EC12 geht ab 800.000$ los) kann man schnell loswerden, mit viel Luft nach oben. Alles eine Frage Konfiguration. Software, Lizenzen und der Langzeitsupport machen hier aber einen Großteil der Kosten aus. Kleine "Einstiegs"-Mainframes ab ~100.000€.

Aber btt :D

Ailuros

2014-04-02, 08:37:24

Gut der erste link http://www.fudzilla.com/home/item/34373-pascal-to-come-as-pcie-and-mezzanine liefert noch ein Stueck interessante info. Beim zweiten http://www.fudzilla.com/home/item/34372-pascal-stacked-3d-memory-comes-from-manufacturers wundern mich die Reaktionen in den Kommentaren (u.a. auch Charlie's) nicht wirklich.

Man muss wirklich strohdumm sein um solche Fragen ueberhaupt zu stellen.

Skysnake

2014-04-02, 08:54:10

Da muss man Fudzilla aber wohl etwas in Schutz mehmen. Auf der GTC wurde nach meiner Auffassung von z.B. Rob Farber der Eindruck erweckt, das nVidia 3D-Stacked Memory "erfunden" hätten, bzw ihren "eigenen" 3D-Stacked Memory "bauen" würden, der von dem was die Konkurrenz macht abweicht....

Die alte: "nVidia sind die größten RoXXer!!! auf der ganzen Welt und sind eh die Erfinder von allem, weil alles was die Konkurrenz macht eh Scheise ist, und erst durch die nVidia-secret.souce richtig! geil wird!!!!1111einself"-Leier halt

EDIT:
btw schaut euch ruhig mal das Video hier (http://www.youtube.com/watch?v=QZdUMjuGJ3A&feature=share&list=PLE5FE8E1FB2912862&index=1) an
Da bekommt man dann eventuell mal ne Vorstellung davon, wie riesig Stecker für 25Gb/s sind. Ganz interessant auch, die Pins vertragen nur 1A und Max 30V. Man wird also wohl mit 12V rein gehen. Für 300W, sind das dann schon mindestens 25 Pins. Sagen wir mal lieber 50 Pins. Dazu dann noch 8*4*2=64 Pins für nVlink. Für Ground würde ich auch nochmal so 10 Pins einrechnen. Dazu kommt dann nochmal der PCI-E Port mit min 16*2=32 Pins. Wir kommen da also sehr schnell in einen Bereich von weit mehr mehr als 150Pins, die man rein nur für die elektrischen Signale und die Stromversorgung braucht. Da sind jetzt aber noch keine Shieldings drin, was wohl sicherlich benötigt wird bei 20GBit/s pro Lane. Da kannste sichelrich gerade nochmal so viele Pins drauf legen. Also so 300+ Pins wird man wohl schon rechnen müssen.

Das wird ein RICHTIG fetter Stecker.

Btw. wenn ich es richtig gesehen habe, kann der oben verlinkte Stecker maixmal 48 Signale routen, wobei ich nicht verstanden habe, ob das schon differenzielle signale sind oder nicht. Wie dem auch sei, ein normaler Stecker reicht nicht.

Der Stecker wird richtig fett. Sicherlich mehr oder weniger so groß wie das PCB.

Ailuros

2014-04-02, 08:59:33

StefanV

2014-04-02, 09:42:13

In den Comments, vom Loki:

This is seriously weird, so much news about Pascal a GPU that comes out in 2016 (maybe) and nothing about Maxwell a GPU to be launched THIS year.

Are they purposely trying to yank our chains? I mean they talk up Pascal like it is the second coming and making Maxwell seem like less of a "deal" and any good.
This is fn topsy-turvy in marketing.

Unrecht hat er nicht. Wenn ein Hersteller über die nächste Folgegeneration spricht, heißt das meist nichts gutes für die aktuelle Generation. Denn, wenn man ganz fies wäre, würde man ja unterstellen (müssen), dass irgerdwas mit Maxwell, also der kommenden Generation, schief gelaufen ist oder schief laufen wird. Weil WARUM sollte man sonst über die nächste Folgegeneration reden?? Macht eigentlich keinen Sinn...

Skysnake

2014-04-02, 09:50:54

Ja, das ist durchaus ein berechtigter Einwand. Mir reden Sie auch VIEL zu viel über ungelegte Eier. Vor allem verkaufen Sie die entwicklungen von anderen als ihre eigenen....
Wenn man sich "nVLink" mal genauer anschauen kann in nem Jahr oder zwei, würde es mich nicht wundern, wenn das Ding 1:1 so aussieht wie der Interconnect von IBM. Man wäre ja auch schon blöd bei IBM und nVidia, wenn man eine fertig entwickelte Technik nicht nutzen würde, und stattdessen zusammen was neues machen würde. IBM wird das sicherlich nicht machen, nur weil nVidia noch keinen entsprechenden Interconnect hat.

@Ailuros:
Ja, da haste absolut recht, aber man muss sich auch immer klar machen, dass das halt am Ende doch Journalisten sind, und wenn da auf einer weltweit anerkannten Konferenz dir einer der Sprecher was erzählt, dann glaubst du das sehr wahrscheinlich einfach.

Ich mich klingt das auch alles verdammt nach bullshitbingo der PR-Abteilung hoch zehn, aber das sag ich jetzt hier von @home. Wenn ich da vor demjenigen sitzen würde und mit ihm quatschen würde, wäre ich wohl nicht so locker drauf, dass das alles soooo klar ist. Ich war schonmal in so ner Situation, wo ich nem Firmenvertreter gesagt habe, dass das doch blödsinn ist, und dass das schon geht, wenn man denn will. Das Gespräch war dann weniger cool und entspannt.

Loeschzwerg

2014-04-02, 10:36:49

EDIT:
btw schaut euch ruhig mal das Video hier (http://www.youtube.com/watch?v=QZdUMjuGJ3A&feature=share&list=PLE5FE8E1FB2912862&index=1) an
Da bekommt man dann eventuell mal ne Vorstellung davon, wie riesig Stecker für 25Gb/s sind. Ganz interessant auch, die Pins vertragen nur 1A und Max 30V. Man wird also wohl mit 12V rein gehen. Für 300W, sind das dann schon mindestens 25 Pins. Sagen wir mal lieber 50 Pins. Dazu dann noch 8*4*2=64 Pins für nVlink. Für Ground würde ich auch nochmal so 10 Pins einrechnen. Dazu kommt dann nochmal der PCI-E Port mit min 16*2=32 Pins. Wir kommen da also sehr schnell in einen Bereich von weit mehr mehr als 150Pins, die man rein nur für die elektrischen Signale und die Stromversorgung braucht. Da sind jetzt aber noch keine Shieldings drin, was wohl sicherlich benötigt wird bei 20GBit/s pro Lane. Da kannste sichelrich gerade nochmal so viele Pins drauf legen. Also so 300+ Pins wird man wohl schon rechnen müssen.

Das wird ein RICHTIG fetter Stecker.

Btw. wenn ich es richtig gesehen habe, kann der oben verlinkte Stecker maixmal 48 Signale routen, wobei ich nicht verstanden habe, ob das schon differenzielle signale sind oder nicht. Wie dem auch sei, ein normaler Stecker reicht nicht.

Der Stecker wird richtig fett. Sicherlich mehr oder weniger so groß wie das PCB.

Gegen die Molex Impact spricht aber etwas das gezeigt Bild von Pascal, denn es gehen bei den Impact Stiftkontakte in das PCB (sowohl beim Modul als auch bei der Backplane bzw. dem Board).
Evtl. Molex Speedstack mit SMT Anbindung am PCB und davon halt mehrere.

http://www.molex.com/molex/products/family?key=speedstack_mezzanine_connector_system&channel=products&chanName=family&pageTitle=Introduction&parentKey=mezzanine_products

Skysnake

2014-04-02, 11:06:52

Möglich, aber du hast nur 20 cycles für die Karte. Das ist nicht sonderlich viel.

Den "Impact" stecker gibts meines Wissens nach aber auch ohne Führungsstift. Der heist doch meines Wissens nach auch Impact oder nicht? Die Stecker-Familie heist NeoScale, die ich meine.

Im Prinzip ist es doch auch scheis egal, welcher Stecker es GENAU ist. Die geben sich alle nicht mehr sooo viel, was rein die Dimensionierung anbelangt. Klar ist auf jeden Fall, dass das alles nur nicht 0815 Stecker sind, die man mal einfach so draufklatscht und das System läuft.

Die Dinger sind relativ teuer und man muss halt definitiv weg von ATX. Und jetzt rein für nen ATX System, also unter SLI-Gesichtspunkten, wird es auch fucking schwer, so nen Stecker noch irgendwo unter zu bekommen. Da ist einem nämlich der Kühler usw. im Weg. Man darf ja auch nicht beliebig weit weg vom Chipsockel usw usw.

Mal ganz davon abgesehen, das sich bisher auch keiner darüber mal gedanken gemacht hat, woher denn überhaupt die Signale für den tollen nVLink kommen ;)

Da brauchts schon ganz ordentlich Treiber, die ganz ordentlich Platz fressen. Irgendwie ziemlich uncool, wenn man an High-End GPUs denkt, wenn man ~Faktor 2 an DIE-Size von nem PCI-E NIC wegschmeist, ohne es nutzen zu können.

Aber was weiß ich schon.

ndrs

2014-04-02, 11:41:23

Vielleicht passt ja folgende Meldung?
http://www.computerbase.de/2014-04/der-nachfolger-von-pci-express-soll-funken/

Verdammter 1. Apirl ^^

Hugo78

2014-04-02, 11:41:56

Das ist ein Aprilscherz^^.

Loeschzwerg

2014-04-02, 11:49:11

@Sky: Sind schon andere Serien, aber egal, lassen wir uns einfach überraschen :) Mit kostspielig und kein 08/15 bin ich zu 100% bei dir. Finde die Sache sehr spannend.

PCIe hat irgendetwas um die 50cm als Maximallänge bei den PCB traces (?!)... Gehen wird jetzt von den 80 - 200 GB/s eines nVLink bleibt da sicherlich nicht viel übrig. 15 - 20cm zur nächsten Bridge? (blöd geschätzt)

N0Thing

2014-04-02, 12:33:33

Unrecht hat er nicht. Wenn ein Hersteller über die nächste Folgegeneration spricht, heißt das meist nichts gutes für die aktuelle Generation. Denn, wenn man ganz fies wäre, würde man ja unterstellen (müssen), dass irgerdwas mit Maxwell, also der kommenden Generation, schief gelaufen ist oder schief laufen wird. Weil WARUM sollte man sonst über die nächste Folgegeneration reden?? Macht eigentlich keinen Sinn...

Nvidia bleibt so trotz des immer gleichen Angebots weiterhin in den Medien präsent. Bis weitere Maxwell-Chips kommen, dauert es noch Monate. Zudem kann man sich als zukunftsorientiertes Unternehmen darstellen und überlässt AMD mit Mantle nicht diese Rolle alleine.

Daß Maxwell Potential hat, zeigt ja der GM107. Das Thema Pascal wird bald in der Schublade verschwinden, sobald alle Informationen drei Mal durch die Presse verwurstet wurden.

Ailuros

2014-04-02, 13:47:05

Nvidia bleibt so trotz des immer gleichen Angebots weiterhin in den Medien präsent. Bis weitere Maxwell-Chips kommen, dauert es noch Monate. Zudem kann man sich als zukunftsorientiertes Unternehmen darstellen und überlässt AMD mit Mantle nicht diese Rolle alleine.

Daß Maxwell Potential hat, zeigt ja der GM107. Das Thema Pascal wird bald in der Schublade verschwinden, sobald alle Informationen drei Mal durch die Presse verwurstet wurden.

http://forum.beyond3d.com/showpost.php?p=1838371&postcount=1510

That's not necessarily what has been reported post GTC. NVIDIA are saying that Pascal is using the same SMM structure as Maxwell with the "Volta" architectural change (that would inevitably spawn a series of products) pushed off the roadmap slide but still slated post Pascal. Given those statements and "Pascal" really being a vehicle to stacked memory Blazkowicz's comment is one reasonable potential interpretation of the information.

N0Thing

2014-04-02, 14:21:01

http://forum.beyond3d.com/showpost.php?p=1838371&postcount=1510

From my understanding, compared to Maxwell, Pascal would have 3D memory, NV Link and Unified memory and is a completely different family. Even in the case of NI and SI, though they have less of a difference in features, I would still consider them a separate family. Either ways my point was that GM200 and GP200 are two separate chips.

http://forum.beyond3d.com/showpost.php?p=1838384&postcount=1511

Ailuros

2014-04-02, 16:45:10

Erinyes behauptet nicht unbedingt etwas anderes wie Wavey; was festzuhalten ist, ist die Wahrscheinlichkeit dass die SMMs in Pascal sehr aehnlich zu den heutigen sein koennten.

Godmode

2014-05-08, 23:23:52

Ich bin vorhin noch einmal über diesen Folien gestoßen und da hatte ich eine Idee zu NVLINK:

Könnte man mit dieser 5x Bandbreite zwischen den GPUs ein gut skalierendes Multi-GPU Renderingverfahren implementieren, abseits von AFR?

http://pics.computerbase.de/5/6/3/3/1/9_m.png
http://www.computerbase.de/bildstrecke/56332/6/

Nakai

2014-05-09, 00:46:53

Zwar keine Ahnung, aber die Latenzen sind auch verdammt wichtig. Ich glaube daher eher nicht.

Skysnake

2014-05-09, 05:46:54

Wie du schon gesagt hast, die Latenzen sind wichtig. Bei so einem Interconnect schaut man aber normal die Latenzen so niedrig wie nur irgend möglich zu halten, von daher sehe ich die Chancen als deutlich besser an.

Bleibt nur ein Problem. Das Ding wird es in keinem ATX-PC geben.

Loeschzwerg

2014-05-09, 09:59:18

Sorry für OT, aber war der Grund für AFR nicht u.a. die Nutzung von Post-Rendering Verfahren? Daher funktioniert doch z.B. das originale 3dfx SLI (Skalierung nahezu 100% und ohne µ-Ruckler) nicht mehr.

ndrs

2014-05-09, 10:08:35

Bleibt nur ein Problem. Das Ding wird es in keinem ATX-PC geben.
Außer vielleicht zwischen zwei Chips auf einem PCB :)

robbitop

2014-05-09, 10:17:22

Und die Frage ist, ob die 5x Bandbreite dafür schon ausreicht. :)

Sorry für OT, aber war der Grund für AFR nicht u.a. die Nutzung von Post-Rendering Verfahren? Daher funktioniert doch z.B. das originale 3dfx SLI (Skalierung nahezu 100% und ohne µ-Ruckler) nicht mehr.
Nicht nur das. Die kompletten Renderpipelines der Spieleengines haben sich verändert. Beispielsweise Defered Shading. Man braucht ständig Zugriff auf alle Möglichen Buffer. Und das möglichst schnell.

Und selbst wenn das alte SLI noch funktionieren würde, würde es heute nicht mehr so toll skalieren. Die Geometrie skaliert eben nicht mit. Das war damals noch egal. Aber heute... naja.

Für anständiges MultiGPU ohne AFR braucht man so viel Bandbreite und so gute Latenz, dass das eventuell sogar nur auf dem gleichen Kern (oder zumindest auf dem gleichen Träger) geht. Idealerweise haben beide GPUs dann Zugriffe auf ihre Caches. Und dann braucht man enorm viel Bandbreite.
IMG hat das bei Serie5 auf dem gleichen Kern gemacht, um Entwicklungsressourcen zu sparen. Das hat sehr sehr gut skaliert. Allerdings hat man dafür dann auch mehr unbenötigte Redundanz auf dem Kern.

Loeschzwerg

2014-05-09, 10:48:48

Thx für die Erklärung :) Damit hat sich eine Alternative zu AFR bei Pascal wie befürchtet erledigt.

Ailuros

2014-05-09, 12:26:40

IMG hat das bei Serie5 auf dem gleichen Kern gemacht, um Entwicklungsressourcen zu sparen. Das hat sehr sehr gut skaliert. Allerdings hat man dafür dann auch mehr unbenötigte Redundanz auf dem Kern.

Wenn ich es jetzt richtig in Erinnerung habe:

1. Wenden sie SFR mit dynamischen tile Groessen an.
2. Haben sie das scheduling ueber N cores in hw gegossen.
3. Braucht man fuer 95% Geometrie Skalierung auch noch den Hydra chip der hoeher als die eigentlichen GPU cores taktet.

Kurz es ist natuerlich eine Loesung die einem DR auch wirklich gut schmeckt; dass eine aehnliche Methode auf einem IMR Sinn machen koennte will ich bezweifeln.

3dfx SLI "spielte" mit odd/even scan lines; Naomi/PowerVR mGPU mit odd/even tiles fuer die Geschichte der Sache.

Coda

2014-05-09, 12:35:37

Es gibt kein PowerVR mGPU.

Ailuros

2014-05-09, 14:07:39

Es gibt kein PowerVR mGPU.

http://www.segatech.com/arcade/naomi2/

Coda

2014-05-09, 21:39:47

Okay, den Uralt-Spezial-Kram hab ich nich kommen sehen.

Ailuros

2014-05-09, 21:53:45

Okay, den Uralt-Spezial-Kram hab ich nich kommen sehen.

Wenn ich von Geschichte spreche und auch 3dfx scan line interleaving erwaehne sollte man es schon erwarten. Welch Überraschung es steht sogar Naomi im Text.

Eins der Punkte ist, dass sie genauso bei Naomi2 (Elan T&L) als auch bei SGX MP (Hydra) einen Geometrie-chip als quasi Brücke benutzt haben, ebenso wie Sage für dual core configs bei 3dfx. Ich frage mich ernsthaft ob man wirklich so etwas braucht für SFR mGPU oder ob es nur Zufall ist.

***edit: typos

occ-kh@Mirko

2014-05-09, 22:18:02

Bleibt der Vorteil von Stacked-Ram und NV-Link nicht auf der Strecke wenns ans klassiche PCIe Adapter Steckkartendesign geht? Ich denke die Nvidia Platine muss als proprietäre Erweiterungslösung direkt auf den entsprechenden Anschluss des Mainboards gesteckt werden?

AnarchX

2014-05-09, 23:28:38

Stacked DRAM kann man auch auf einer PCIe-Karte verbauen.
NVLINK hingegen brauch natürlich eine angepasste Plattform bzw. gar ein passende CPU (Open Power). Eventuell bei einer Dual-GPU-Karte könnte man vielleicht beide GPUs mittels NVLINK verbinden.

Godmode

2014-05-11, 15:55:51

Wenn man sich die NVLINK Folie ansieht, könnte das auch eine Duale Lösung sein, also PCIe und NVLINK auf einem Board. Die einzelnen GPUs könnten wieder mit Brücken verbunden werden, die aber eine deutlich höhere Datenrate. zulassen. Für eine CPU Anbindung geht das natürlich nicht, da muss dann auch in der CPU ein Stück NVLINK Silizium untergebracht werden.

Coda

2014-05-11, 17:11:52

Wenn ich von Geschichte spreche und auch 3dfx scan line interleaving erwaehne sollte man es schon erwarten. Welch Überraschung es steht sogar Naomi im Text.

Eins der Punkte ist, dass sie genauso bei Naomi2 (Elan T&L) als auch bei SGX MP (Hydra) einen Geometrie-chip als quasi Brücke benutzt haben, ebenso wie Sage für dual core configs bei 3dfx. Ich frage mich ernsthaft ob man wirklich so etwas braucht für SFR mGPU oder ob es nur Zufall ist.

***edit: typos
Was man braucht ist einen gemeinsamen Speicher auf den alle Chips möglichst schnell zugreifen können. Im Prinzip könnte man sich auch sowas wie NUMA überlegen oder z.B. Texturen doch duplizieren.

Gast

2014-09-22, 14:01:24

Hallo !

Meine Frage bezieht sich auch auf Nvidia-Pascal.

Ich möchte eigentlich die 9xx Serie aussetzen udn auf Pascal warten, die Leistung , die ich nutze, langt noch.

Allerdings führt Nvidia mit Pascal NVLink ein, eine neue Schnittstelle!

Ist es schon absehbar, wie NBLink funktioniert und in wie weit, die Mainboards darauf zugeschnitten sein müssen oder ob man auch ältere Mainboards noch nutzen kann ?

Ich glaube ja das es optional ist, bin mir aber nicht sicher.

Vielen Dank für die Beantwortung !

http://devblogs.nvidia.com/parallelforall/nvlink-pascal-stacked-memory-feeding-appetite-big-data/

http://www.golem.de/news/neue-gpu-nvidias-pascal-mit-3d-ram-und-schneller-nv-link-anbindung-1403-105366.html

N0Thing

2014-09-22, 17:51:37

Man darf davon ausgehen, daß NVLink bei den normalen Endanwenderkarten PCIe nicht ersetzen wird.
Wenn es nicht mal Intel trotz seiner Marktmacht schafft, eine zusätzliche Schnittstelle wie Thunderbolt am Markt zu etablieren, wird auch Nvidia nicht in einem Alleingang eine neue Schnittstelle im Massenmarkt durchsetzen können.

NVLink dürfte sich auf spezielle Workstations und Supercomputer beschränken, also eher in den Bereich Tesla und vielleicht Quadro fallen. Da NVLink zusammen mit IBM entwickelt wurde in bisher nur von IBMs POWER-CPUs als kombinierbare Komponente gesprochen wurde, dürfte das Thema NVLink für Endanwender noch lange nicht aktuell werden.

http://www.anandtech.com/show/7900/nvidia-updates-gpu-roadmap-unveils-pascal-architecture-for-2016
http://www.nvidia.de/object/nvidia-nvlink-technology-mar25-2014-de.html

Gast

2014-09-22, 21:16:58

Es bedeutet wohl zangsläufig ein neues Mainboard, da die GPU dann mit einer Sockelfassung (wie eine CPU) auf dem Mainboard sitzt.

Ob da auch AMD und Intel mitmachen und ob CPUs auch kompatibel sein müssen, ist natürlich Zukunftsmusik.

http://www.digitaltrends.com/computing/what-is-nvidias-volta-gpu-what-will-it-do-for-pcs/

Leonidas

2014-09-27, 06:48:38

Oder anders formuliert: Selbst im Idealfall wird NVlink in der ersten Pascal-Generation noch keinen Einsatz im Consumer-Markt haben.

Coda

2014-10-05, 16:15:44

Wie kommst du darauf? Pascall ist der Killer für Multi-GPU. Damit wird man nämlich AFR los und braucht keine Profile mehr.

Ich denke schon, dass sie versuchen werden die NVLink über neue SLI-Brücken zu führen. Auf jeden Fall wird es aber für Grafikkarten mit zwei GPUs auf einem PCB funktionieren.

fondness

2014-10-05, 16:31:41

NVLink ist nach allem was man bis dato weiß eine CPU zu GPU Verbindung. Im übrigen ist Pascal eher 2016+ als 2015 und es gibt auch schon eine Thread zu Pascal:
www.forum-3dcenter.org/vbulletin/showthread.php?t=552120

del_4901

2014-10-05, 16:32:30

AFR kann man auch schon mit Mantle los werden. Und 5x schneller als PCIe ist immernoch langsamer als der Speicher.

Coda

2014-10-05, 16:38:32

NVLink ist nach allem was man bis dato weiß eine CPU zu GPU Verbindung.
Auch:
http://images.anandtech.com/doci/7900/nvlink_quad_575px.png

AFR kann man auch schon mit Mantle los werden. Und 5x schneller als PCIe ist immernoch langsamer als der Speicher.
Das ist der Knackpunkt. Wenn sie es auf einem PCB schnell genug bekommen könnte es reichen um mit zusätzlicher Duplizierung der Resourcen zwei GPUs von der API wie eine aussehen zu lassen.

Heißt reads von statischen Resourcen kommen immer aus dem lokalen RAM, Reads/Writes von dynamischen Resourcen müssen interleaved werden zwischen dem Speicher der beiden GPUs. Alternativ kann man dynamische Resourcen die später nur gelesen werden auch in den RAM von beiden GPUs raus schreiben.

Rente

2014-10-05, 16:40:59

Da ist eine APU mit >8GB HBM-RAM ähnlich dem PS4-Konzept irgendwie attraktiver, wenn auch es da wieder andere "Problemzonen" gibt.

fondness

2014-10-05, 16:43:56

Thx das Bild kannte ich noch nicht.

del_4901

2014-10-05, 16:58:06

Das ist der Knackpunkt. Wenn sie es auf einem PCB schnell genug bekommen könnte es reichen um mit zusätzlicher Duplizierung der Resourcen zwei GPUs von der API wie eine aussehen zu lassen.

Heißt reads von statischen Resourcen kommen immer aus dem lokalen RAM, Reads/Writes von dynamischen Resourcen müssen interleaved werden zwischen dem Speicher der beiden GPUs. Alternativ kann man dynamische Resourcen die später nur gelesen werden auch in den RAM von beiden GPUs raus schreiben.
Das klingt gut, ich bin aber noch skeptisch, gerade was Cache koherenz betrifft und on Chip daten. (wie z.B UAV Counter) Ihne hilfe von der Engine wird das load balancing auch zur qual. Es ist wirklich eine frage wieviel Bandbreite das Ding hat und ob die Latenz aussreicht, das ganze auch synchron zu halten.

Skysnake

2014-10-05, 17:19:29

Um Cachecohärenz würde ich mir jetzt mal garkeine Gedanken machen. Das klappt ja heutzutage auch, ganz ohne Cohärenz bei Multi-GPU.

Wie kommst du darauf? Pascall ist der Killer für Multi-GPU. Damit wird man nämlich AFR los und braucht keine Profile mehr.

Ich denke schon, dass sie versuchen werden die NVLink über neue SLI-Brücken zu führen. Auf jeden Fall wird es aber für Grafikkarten mit zwei GPUs auf einem PCB funktionieren.
Naja, da stellt sich aber auch die Frage, ob nVidia das überhaupt so einfach verwenden darf. Die Zusammenarbeit mit IBM legt sehr stark nahe, dass das "einfach" der IBM Link in ner nVidia Karte ist. Also zumindest die Grundlage wird wohl ziemlich sicher von IBM kommen.

Bei den Taktraten würde ich mich auch ganz schnell davon verabschieden wollen, das im Consumerbereich abseits von Multi-GPU-PCB Karten zu bringen. Also als Brücke. Das wird ziemlich schnell ziemlich teuer.

del_4901

2014-10-05, 17:21:49

Um Cachecohärenz würde ich mir jetzt mal garkeine Gedanken machen. Das klappt ja heutzutage auch, ganz ohne Cohärenz bei Multi-GPU.
AFR ist ja auch pille palle, da gibt es keine geteilten Daten. Hab erst grade wieder bis in die Morgenstunden gesessen um alle AFR Probleme zu finden und zu fixen, weil sich doch sonst keiner nen Scheiss drum kuemmert.

Nightspider

2014-10-05, 17:35:46

Habe ich das jetzt richtig verstanden, das NVLink eine Lösung für fast perfektes Multi-GPU sein könnte ohne Mikroruckler und ohne jede GPU ihren eigenen VRAM benötigt?

Wenn nicht: seht ihr in absehbarer Zukunft das es der Fall sein könnte?

Skysnake

2014-10-05, 17:43:30

NVLink ist nichts anderes als HT/QPI. Was das also bringt/nutzt, kannste dir selbst überlegen.

Coda

2014-10-05, 19:05:38

Das klingt gut, ich bin aber noch skeptisch, gerade was Cache koherenz betrifft und on Chip daten. (wie z.B UAV Counter) Ihne hilfe von der Engine wird das load balancing auch zur qual. Es ist wirklich eine frage wieviel Bandbreite das Ding hat und ob die Latenz aussreicht, das ganze auch synchron zu halten.
Das Problem ist halt auch, dass man die Rasterizer-Sachen auch über die Chips hinweg verteilen müsste fällt mir gerade ein. Das wird schwierig.

del_4901

2014-10-05, 22:43:02

Das Problem ist halt auch, dass man die Rasterizer-Sachen auch über die Chips hinweg verteilen müsste fällt mir gerade ein. Das wird schwierig.
Man koennte ein Tile binning machen, die haben ja schon mehrere Rasterizer genau nach dem Prinzip, aber mit Hilfe von der Enigine ist das alles viel viel einfacher umzusetzen als "automagisch".

Coda

2014-10-05, 22:46:40

del_4901

2014-10-05, 22:53:10

Sicher, da geb ich dir recht. Aber ich seh wirklich das Problem, dass sich das kostentechnisch einfach nicht mehr rechnet, wenn man SLI mit Mantle/DX12 auch noch selber bauen muss. Ist ja schon so nervig genug.Problem ist, dass IT sich weigert QA oder Rendering mit MGPU auszustatten, bis kurz vor knapp. Deswegen ist es eigentlich staendig broken. Und ja ich geb dir Recht, das so wie wir es heute machen nicht sustainable ist. Aber das dauert bestimmt nicht lange bis man Job Graphs auch fuer GPUs hat, welche die Arbeit dann verteilen. Mehr Bandbreite und weniger Latenz hilft dabei immer, da man dann weniger darauf achten muss nicht zuviele "syncpunkte" zu haben.

Mantle und Co. machen es einem da noch einfacher, da man sieht was wo passiert. mit DX11 AFR muss man auch die App anpassen, aber vieles passiert einfach automatisch im Hintergrund. Und warum Staging Ressources verteilt werden muessen vom Treiber versteht bis heute Niemand.

Coda

2014-10-06, 02:04:41

Der Marktanteil für SLI und Crossfire ist meiner Meinung nach so gering, dass es sich einfach nicht lohnt darauf Energie aufzuwenden. Es gibt wichtigeres.

Nice to have ist es natürlich trotzdem.

Knuddelbearli

2014-10-06, 02:10:29

Naja je länger shrinks brauchen umso interessanter wird aber mutlichip

So nach 2 Jahren 2 Chips für +80% ( gesenkte Taktraten damit Verbrauch nur leicht ansteigt ) wäre schon interessant

Ailuros

2014-10-06, 08:54:38

Der Marktanteil für SLI und Crossfire ist meiner Meinung nach so gering, dass es sich einfach nicht lohnt darauf Energie aufzuwenden. Es gibt wichtigeres.

Nice to have ist es natürlich trotzdem.

Es koennte richtig gemacht durchaus von sehr grossen Nutzen auch in Profi-Maerkten werden, ueberhaupt da man theoretisch bei performance chips halt machen koennte (ergo keine high end chips mehr).

Knudderbearli,

Genau.

john carmack

2014-10-06, 10:52:54

3D Memory

http://www.golem.de/news/neue-gpu-nvidias-pascal-mit-3d-ram-und-schneller-nv-link-anbindung-1403-105366.html

differenzdiskriminator

2014-10-06, 10:58:56

Für eine CPU Anbindung geht das natürlich nicht, da muss dann auch in der CPU ein Stück NVLINK Silizium untergebracht werden.
IBM hat das schon angekündigt:

http://thenextweb.com/insider/2014/03/25/nvidia-ibm-unveil-nvlink-interconnect-cpus-gpus-coming-2016-5x-12x-faster-data-sharing/

Coda

2014-10-06, 21:52:20

Naja je länger shrinks brauchen umso interessanter wird aber mutlichip

So nach 2 Jahren 2 Chips für +80% ( gesenkte Taktraten damit Verbrauch nur leicht ansteigt ) wäre schon interessant
Es ging um die Kosten für die Software die darauf laufen muss, nicht um die Kosten von Multi-GPU mit NVLink.

Nightspider

2014-10-06, 23:28:54

Der Marktanteil für SLI und Crossfire ist meiner Meinung nach so gering, dass es sich einfach nicht lohnt darauf Energie aufzuwenden. Es gibt wichtigeres.

Nice to have ist es natürlich trotzdem.

Der Marktanteil ist zum Teil aber auch nur so extrem klein und wird nicht größer weil meistens von MGPU abgeraten wird weil MGPU Probleme macht und einfach nicht immer perfekt läuft.

Naja je länger shrinks brauchen umso interessanter wird aber mutlichip

So nach 2 Jahren 2 Chips für +80% ( gesenkte Taktraten damit Verbrauch nur leicht ansteigt ) wäre schon interessant

Sehe ich auch so.

Skysnake

2014-10-07, 08:43:46

Das ist aber eher Compute, wo man rein vom Programmiermodell, bzw den Problemen, die man ueberhaupt angeht, ziemlich schwach verzahnte Probleme hat, und die Verzahnung die existiert ist sehr gut vorhersagbar im Allgemeinen. Graphics ist da meiner Meinung nach schon nochmal was anderes, also schwieriger.

Ailuros

2014-10-07, 08:49:08

Skysnake

2014-10-07, 12:56:56

Einfach ist da aber dann wieder was anderes oder nicht?

Coda kann da aber sicherlich mehr dazu sagen, zu welchen Problemen es genau kommt, ich weiss nur, das es grundsaetzlich schwierig ist, da voraussagen treffen zu koennen, welche Daten ich brauche von nem anderen Tile. Bei gutartigen GPGPU-Anwendungen weiss ich genau welche Daten ich brauche, und kann dann auch anfangen async zu arbeiten.

del_4901

2014-10-07, 23:02:01

Aber zum Thema IMR und Tiles: Die unterschiedlichen Rasterizer in modernen IMRs teilen sich den Viewport in MacroTiles auf damit Sie parallel an meheren Dreiecken rastern koennen.

Gipsel

2014-10-07, 23:51:41

Aber zum Thema IMR und Tiles: Die unterschiedlichen Rasterizer in modernen IMRs teilen sich den Viewport in MacroTiles auf damit Sie parallel an meheren Dreiecken rastern koennen.Und zumindest bei AMD arbeiten die ROPs auch auf Depthbuffer- bzw. Rendertarget-Tiles, um die Bandbreiteneffizienz zu erhöhen. Man arbeitet nur an mehreren (im Zweifelsfall allen) gleichzeitig, so daß die ROP-Caches bei AMD (bei nV macht das wohl der L2 mit) ständig die Tiles swappen muß. Macht man die Caches groß genug (und/oder ordnet man seine Renderreihenfolge entsprechend an [ist im Allgemeinen vermutlich schwierig und nur bei Spezialfällen gut machbar]), hat man hinter der Rasterstage schon heute meiner Meinung nach keinen prinzipiellen Unterschied mehr zwischen einem "normalen" TBR wie z.B. Mali und AMD- bzw. nV-GPUs. IMGs "wahren" TBDRs nudeln wohl bisher als Einzige noch die komplette Geometrie pro Tile durch, um HSR/Culling vor dem Shaden zu machen. Die anderen müssen immer mit einem gewissen Overdraw leben (der sich aber oft softwareseitig z.B. durch Vorsortierung der Geometrie, Z-Prepass oder deferred Rendering Techniken minimieren läßt).

del_4901

2014-10-08, 00:07:50

Schlechte ROP Cache Nutzung sieht man besonders bei klassischer SpriteDoF Implementierung und hohen Aufloesung. Die Performance bricht dann Schlagartig weg.

Gipsel

2014-10-08, 00:17:13

Um mal wieder auf Pascal zurückzukommen: Was könnte da Deiner Meinung nach konkret mehr in Richtung TBR gehen? Einfach nur Evolution der Geometry Engines mit Verbesserung des Datenflusses und Vergrößerung der Caches? Das klingt ja erstmal nicht so bahnbrechend. Oder doch etwas mehr? Meintest Du oben im Post #101, daß sie die binned Geometrie auf unterschiedliche Chips (per nVLink?) verteilen könnten statt nur auf die verschiedenen Rasterizer eines Chips?

del_4901

2014-10-08, 00:26:44

Automagisch wirds natuerlich schwer. ansonsten kann man doch heute schon die komplette Geo durch nen CS wuergen und sich seinen eigenen TBDFR nachbauen.

Coda

2014-10-08, 00:32:05

Es gab auch mal ein Paper wo jemand einen Sort-Middle-Binning-Rasterizer in CUDA nachgebaut hat mit allen Features. Die Performance war aber 2-3x von native Rendering weg soweit ich mich entsinnen kann.

del_4901

2014-10-08, 00:37:02

Alles funktioniert damit bestimmt nicht gut, und man kann auch vieles dabei falsch machen. Ein paar profiling Daten/Paper waehren aber trotzdem interessant.

Coda

2014-10-08, 00:39:10

War das hier. Da hat sich echt einer richtig Mühe gegeben:
https://mediatech.aalto.fi/~samuli/publications/laine2011hpg_paper.pdf

del_4901

2014-10-08, 00:41:51

Dafuer, dass es komplet in Cuda geschrieben wurde ist die Performance doch gar nicht mal so schlecht.

Nakai

2014-10-08, 20:37:53

Bezüglich NVLink vermute ich eher, dass NV in dem Bereich Cloudskalierung bessere Systeme anbieten will. Cloudgaming könnte in Zukunft auch sehr interessant werden, ebenso wird das für den HPC-Bereich extrem wichtig werden. Homogenere, einfachere und skalierbarere Systeme.

Dural

2014-10-09, 09:31:18

ist das eigentlich wirklich schon ein Pascal Test Die oder irgend was anderes wie Maxwell mit 3D Memory?

Hübie

2014-10-09, 18:14:22

AFR ist ja auch pille palle, da gibt es keine geteilten Daten. Hab erst grade wieder bis in die Morgenstunden gesessen um alle AFR Probleme zu finden und zu fixen, weil sich doch sonst keiner nen Scheiss drum kuemmert.

Da sag ich schon mal Danke ;)

b2t: Wer sagt dass NVLink nicht skalierbar ist? Das ist PCIe doch schon sehr ähnlich. Auf consumer-Karten sehen wir wahrscheinlich die Minimalkonfiguration als up- & downlink für mGPU. Dabei müsste dann natürlich wieder eher sowas wie eine master-/slave-config kommen, da einer die Logik zur Datenverteilung ja tragen müsste.

Primär wird NVLink jedoch für Cluster-computing sein. 2012 hieß es dass man die Märkte künftig mehr und mehr von einander trennen werde. Also explizite Produkte werden wir sicher in wenigen Jahren schon sehen.

Skysnake

2014-10-09, 19:18:10

Na hoffentlich ist es nicht wie PCI-E. PCI-E ist teilweise der letzte Rotz auf Protokollebene, weil man noch abartig viel mitschleppt wegen Abwärtskompatibilität usw.

Wenn, dann bitte richtig, wie bei HT und QPI.

Hübie

2014-10-09, 19:20:32

Ich bezog mich ausschließlich auf Skalierbarkeit ;) Also dass man eben die Anbindung variieren kann. Dachte das sei deutlich gewesen :P

Skysnake

2014-10-09, 19:28:20

PCI-E ist nicht wirklich skalierbar. Das sollte man von nVLink aber auch nicht wirklich erwarten. Ansonsten wäre es ein NIC, und das glaube ich eher weniger.

nVLink soll CacheCohärenz haben, und das skaliert einfach nicht.

Hübie

2014-10-09, 19:34:22

Hä? Und wie nennt man es dann wenn man Geräte mit x1, x8 oder x16 betreiben kann? :|
Edit: was genau hat cache-Kohärenz mit Skalierbarkeit zu tun? (ernst gemeinte Frage!)

ndrs

2014-10-09, 22:41:01

Ich glaube Hübie redet von skalierbarer Bandbreite und Skysnake von skalierbarer Anzahl der Kommunikations-Teilnehmer :)

Hübie

2014-10-09, 23:11:27

Haha. Klassisches Sender-/Empfängerproblem.

Skysnake

2014-10-10, 08:26:45

Ich glaube Hübie redet von skalierbarer Bandbreite und Skysnake von skalierbarer Anzahl der Kommunikations-Teilnehmer :)
/sign :biggrin:

Hübie, aber auch das ist nicht "skalierbar". An sich ist kein 1:1 Netz skalierbar, was die Bandbreite anbelangt. Also hin zu großen Zahlen. Man kann vielleicht nen Faktor 10-100 abdecken, aber mehr ist nicht.

Da macht einem schon immer die Pin-Limitation einen Strich durch die Rechnung. Daher bin ich auch nicht auf die Idee gekommen, da von "Skalierbarkeit" zu sprechen.

Wenn du dir z.b. die ganzen großen UnifiedSharedMemory Systeme anschaust, wirste feststellen, dass die maximal bis 256/1024, eventuell sogar noch 2048 CPUs gehen, dann aber einfach keine mehr existieren. Das skaliert halt einfach nicht, und ist auch mit ein Grund für den Siegeszug von MPI und den damit verbundenen Clustern. Das skaliert einfach viel viel viel weiter.

PS: wenn man böse sein wollte, könnte man sogar sagen, NVLink skaliert garnicht, weil eben schon mit der Implementierung fix ist, was geht und was nicht. Man kann höchstens die Bandbreite nach unten skalieren ;)

Kurz um, an sich ist eigentlich "nur" interessant, ob der NVLink als NIC fungieren kann oder nicht. Aufgrund der Cohärenz würde ich von nein ausgehen, wenn ich mich entscheiden müsste. Damit ist das Ding aber an sich ziemlich witzlos nach allem, was man bisher weiß. Es ist halt nichts anderes, als wenn man eine GPU mit HT/QPI ausstatten würde, nur das es halt mehr Bandbreite verspricht, aber das ist halt nicht wirklich etwas spannendes, jetzt rein von der Architektur her.

Hübie

2014-10-13, 08:24:06

Na ja das Definitionsproblem ist nun geklärt. Skalierbarkeit heißt per Definition nichts weiter als ein linearer Anstieg oder Abfall mit linear steigender oder fallender Anzahl an Ressourcen. So zumindest mein Verständnis davon. Und genau das meine ich.
NVidia hat übrigens nie gesagt dass nvlink mehr oder weniger ist als eine bidirektionale Kommunikationsplattform. Als NIC-Struktur wohl weniger da der Aufwand mit steigender Teilnehmeranzahl exponentiell oder so steigen würde ;)

Skysnake

2014-10-13, 09:03:40

Jetzt rate aber mal, warum Grays Gemini bzw. Dragonfly so begehrt/erfolgreich sind. Der NIC ist direkt in den "normalen" Interconnect integriert. Auch wenn man sich Intels Plaene mit MIC anschaut, geht das in die Richtung. Der NIC wird wohl direkt aus dem Chip kommen, soweit ich das bisher verstanden habe aus den Pressemitteilungen.

Da ist das schon etwas maehhh dass das "nur" ein HT/QPI wohl wird, soweit man das bisher abschaetzen kann.

Und bzgl. Skalierung. Man muss sich aber auch immer mit anschauen, ob die Ressourcen sich ueberhaupt steigern lassen. Gerade Pinlimitation ist das ziemlich schnell der Genickbruch, der eben eine Skalierbarkeit verhindert. ;)

Hübie

2014-10-13, 15:58:33

Das ist eher dein Bereich ;) Ich wollte nur zum Ausdruck bringen, das NVLINK auch auf consumer cards Sinn machen würde.

Skysnake

2014-10-13, 16:26:06

Wenn dann wirklich nur auf MGPU PCBs. Alles andere waere viel viel viel zu teuer.

Ganz abgesehen davon sollte man auch davon ausgehen, das wenn ueberhaupt die ersten NV_Links langsamer sind im Konsumerbereich. Zumindest wenn man die gleichen BitErrorRate's anlegt. Koennte natuerlich auch passieren, das man Karten, die zu hohe BER's haben, in den Consumermarkt gepackt werden. So schnelle SERDES zu bauen ist naemlich wirklich nicht ganz trivial!

differenzdiskriminator

2014-10-13, 16:30:00

Glaube kaum, dass sich NVLink durchsetzen wird im Consumerbereich. Da wird Intel schon schön den Finger drauf halten und nur PCIe in die CPU einbauen.

N0Thing

2014-10-13, 18:07:32

Sehe ich auch so. Solange sich nichts daran ändert, daß NVLINK vorerst nur mit IBMs PowerPC-CPUs kommt, kann man noch lange auf eine Lösung für den Endkundenmarkt (in diesem Fall Desktop PCs) warten.

Coda

2014-10-13, 18:32:06

Wie gesagt, ich seh NVLink auch eher als Technik für Single-PCB-Dual-GPU-Grafikkarten.

hasebaer

2014-10-13, 20:08:09

Was natürlich geil wäre wenn zumindest diese keine AFR Probleme mehr haben.

Godmode

2014-10-13, 20:30:06

Wie gesagt, ich seh NVLink auch eher als Technik für Single-PCB-Dual-GPU-Grafikkarten.

"NVLink will provide between 80 and 200 GB/s of bandwidth, allowing the GPU full-bandwidth access to the CPU’s memory system."

Ich frage mich wie das realisieren will?

Nakai

2014-10-13, 21:37:11

Wenn NV ihre synthetisierten GPU-Design verkaufen wollen, wäre NV-Link eine Möglichkeit für schnelle CPU und GPU-Schreib-/Lesezugriffe.
NVLink ist aber wohl kein HSA-Ersatz.

Hübie

2014-10-13, 21:48:48

HSA ist aber auch von PCIE abhängig. Also irgendwas neues muss man sich in naher Zukunft einfallen lassen. Dass es nicht unbedingt NVLink ist sollte klar sein.
Aber könnte man nVLink nicht auch als Interconnect zwischen zwei GPUs welche in zwei PCIE-Slots stecken und nach wie vor mit einer Brücke verbinden. Dann geht die GPU-zu-GPU-Kommunikation halt über nVLink und CPU-zu-GPU halt nach wie vor über PCIE.

Das wird vermutlich den Aufwand und Verbrauch nicht rechtfertigen oder was denkt ihr? Keine Ahnung was so eine Datenmenge an Leistung braucht um bewegt zu werden. Kann das einer spezifizieren?

differenzdiskriminator

2014-10-14, 09:16:37

Wie gesagt, ich seh NVLink auch eher als Technik für Single-PCB-Dual-GPU-Grafikkarten.
Oder auch im SoC. Und natürlich in speziellen Supercomputern. Da macht es dann auch richtig Sinn.

Dual-GPU endlich vernünftig zum Laufen zu bringen wäre schon ein Knaller.

Dural

2014-10-14, 09:35:37

Vielleicht sehen wir damit auch Quad GPU Karten.

Godmode

2014-10-14, 10:22:50

Vielleicht sehen wir damit auch Quad GPU Karten.

4 GPUs auf einer Platine sind schwer unterzubringen. Da müsste schon ein neues Format erfunden werden.

Dural

2014-10-14, 10:31:07

naja das gab es ja schon mal, und mit 3D Memory ist es auch nicht mehr so tragisch.

Skysnake

2014-10-14, 10:31:20

Wieso? Gibts doch schon länger :tongue:

http://extreme.pcgameshardware.de/cebit/264644-cebit-2013-ein-fazit-update8-jetzt-mit-club3d-und-einer-echten-monster-karte.html

Godmode

2014-10-14, 10:37:11

naja das gab es ja schon mal, und mit 3D Memory ist es auch nicht mehr so tragisch.
Wieso? Gibts doch schon länger :tongue:

http://extreme.pcgameshardware.de/cebit/264644-cebit-2013-ein-fazit-update8-jetzt-mit-club3d-und-einer-echten-monster-karte.html

Und wie wollt ihr das kühlen? :confused:

ndrs

2014-10-14, 10:44:11

Wieso? Gibts doch schon länger :tongue:

http://extreme.pcgameshardware.de/cebit/264644-cebit-2013-ein-fazit-update8-jetzt-mit-club3d-und-einer-echten-monster-karte.html
Wenn ich jetzt das Bild mit den 24 oder 32 RIVA TNT auf einem Board noch finden würde, würde ich laut "Das nennst du alt?" schreien xD

differenzdiskriminator

2014-10-14, 10:47:35

Ihr meint wohl diese Karte hier:

http://www.nvidia.com/content/cloud-computing/pdf/nvidia-grid-datasheet-k1-k2.pdf

StefanV

2014-10-14, 11:29:33

4 GPUs auf einer Platine sind schwer unterzubringen. Da müsste schon ein neues Format erfunden werden.
Wenn man den Speicher aufm Package von der GPU unterbringt, sehe ich da relativ wenig Probleme.

http://tdfx.de/ger/aalchemy_8164.shtml
Wird sicher bekannt sein, oder?

Godmode

2014-10-14, 12:15:16

Wenn man den Speicher aufm Package von der GPU unterbringt, sehe ich da relativ wenig Probleme.

http://tdfx.de/ger/aalchemy_8164.shtml
Wird sicher bekannt sein, oder?

Ja ist bekannt. Aber wie will man das Kühlen? Wenn die GPUs nicht nur 75w Verbrauchen wir das IMHO schwierig.

Loeschzwerg

2014-10-14, 12:27:50

Mit Speicher auf dem Package hält sich zumindest die PCB Komplexität in Grenzen. Bei der AAlchemy ist das PCB extrem und selbst die letzte Revision hatte noch genügend Probleme und benötigte Reworks.

Kühlung... ja, da darf man halt keine GPUs vom Kaliber GK110 verwenden, sondern setzt eher auf kleinere DIEs. Im Hinblick auf Server/Mainframe Lösungen wären aber auch die großen DIEs kein Problem, das erkauft man sich halt durch Laustärke oder Wakü.

Nightspider

2014-10-14, 12:38:17

Ja ist bekannt. Aber wie will man das Kühlen? Wenn die GPUs nicht nur 75w Verbrauchen wir das IMHO schwierig.

Wasserkühler oder fette 3Slot Kühlung mit Heatpipes.

Kühlung... ja, da darf man halt keine GPUs vom Kaliber GK110 verwenden, sondern setzt eher auf kleinere DIEs. Im Hinblick auf Server/Mainframe Lösungen wären aber auch die großen DIEs kein Problem, das erkauft man sich halt durch Laustärke oder Wakü.

:rolleyes:

Größere GPUs sind effizienter also wird man gerade die großen Chips nehmen.

Loeschzwerg

2014-10-14, 12:51:07

:rolleyes:

Größere GPUs sind effizienter also wird man gerade die großen Chips nehmen.

Kommt halt immer darauf Was man denn nun machen will und an Welche Grenzen (4x 8 Pin :D) man gebunden ist ;) Wiso gibt/gab es wohl eine K1?

differenzdiskriminator

2014-10-14, 13:16:37

Größere GPUs sind effizienter also wird man gerade die großen Chips nehmen.
Wenn du aber die Wahl zwischen zwei fetten Chips und vier kleineren, wirst du eher die zwei fetten nehmen, solange die vier nicht deutlich schneller sind.

Egal wie schnell der Interconnect ist, der Aufwand und Komplexität steigt und damit auch der Overhead.

Wiso gibt/gab es wohl eine K1?
Weil jeder User auf einer GPU visualisiert wird.

Daher 4 GPUs = 4 User.

Darf eben nur die Workload nicht zu hoch sein.

Nightspider

2014-10-14, 14:21:51

Naja wir reden ja eher über die Möglichkeit mehr Leistung als bei 2 Grafikkarten zu bekommen (idealfall) 4fache Leistung bei 4 Chips ohne AFR Mist und damit eine bis zu 4 fache Leistung eines einzelnen 550mm2 Chips zu erreichen.

differenzdiskriminator

2014-10-14, 14:45:11

Wie willst du 4 Stück eines 550mm² Chips auf eine Platine bekommen?

Woher sollen die benötigten >1000W kommen, wie willst du das kühlen?

Das ist schlicht unrealistisch. Interessant fände ich eher die Frage, ob es praktisch möglich wäre den NVLink über einen externen Bus ala SLI-Bridge zu führen.

Nightspider

2014-10-14, 14:50:42

Wie willst du 4 Stück eines 550mm² Chips auf eine Platine bekommen?

Drauflöten.

Woher sollen die benötigten >1000W kommen.
A) Aus dem Netzteil.
B) Welche 1000W?

wie willst du das kühlen?
Wasser/TripleSlot

differenzdiskriminator

2014-10-14, 15:16:07

Drauflöten.
Und welche Spec möchtest du befolgen? Für PCIe viel zu groß. Da ist bei zwei Chips in der Größe schlicht Schicht im Schacht.

A) Aus dem Netzteil.
B) Welche 1000W?
550mm² Chip -> ~250W -> 1000W für die Platine.

Welche Specs möchtest du da nutzen? 8-Pin schaffen 150W pro Stecker, macht alleine für die Karte 7 8-Pin Anschlüsse.

Wobei natürlich der Spannungswandler schon eine echt nett anzusehende Sache wäre, das gebe ich zu.

Aber völlig übertrieben das Ganze.

Wasser/TripleSlot
Nein Danke!

Vollkommener Irrsinn.

Godmode

2014-10-14, 15:33:18

Und welche Spec möchtest du befolgen? Für PCIe viel zu groß. Da ist bei zwei Chips in der Größe schlicht Schicht im Schacht.

550mm² Chip -> ~250W -> 1000W für die Platine.

Welche Specs möchtest du da nutzen? 8-Pin schaffen 150W pro Stecker, macht alleine für die Karte 7 8-Pin Anschlüsse.

Wobei natürlich der Spannungswandler schon eine echt nett anzusehende Sache wäre, das gebe ich zu.

Aber völlig übertrieben das Ganze.

Nein Danke!

Vollkommener Irrsinn.

Ich würde sowas kaufen ohne mit der Wimper zu zucken. Endlich mGPU ohne AFR und 100% Skalierung. :eek:

Nightspider

2014-10-14, 15:35:01

Und welche Spec möchtest du befolgen? Für PCIe viel zu groß. Da ist bei zwei Chips in der Größe schlicht Schicht im Schacht.

Mit HMC würden locker 4 GPUs auf auf eine große Platine passen.

Mit HMC hast du absolut keine Platzprobleme mehr.

550mm² Chip -> ~250W -> 1000W für die Platine.

Welche Specs möchtest du da nutzen? 8-Pin schaffen 150W pro Stecker, macht alleine für die Karte 7 8-Pin Anschlüsse.

Mit HMC lassen sich schon etliche Watt sparen. Dazu eine extrem effiziente Architektur wie Maxwell und du kommst deutlich unter 1000W.
Wenn es irgendwann soweit ist das alle 4 Chips auf die gleichen VRAM Chips zugreifen können dann benötigt man nur ein mal VRAM für alle Chips und würde selbst mit GDDR5 über 100W sparen.

Außerdem kann man nach wie vor die Taktraten minimal senken, die Chips selektieren und die Spannung senken.

750W sind da imo realistisch, wenn nicht sogar ein wenig weniger. Das wären nur fünf 8Pol Anschlüsse.

Gab ja bisher schon extrem-OC Karten mit drei 8-Pol-Anschlüssen.

Aber völlig übertrieben das Ganze.
Nein Danke!
Vollkommener Irrsin.

Ansichtssache. Du musst es dir ja nicht kaufen.
Wenn es weniger Probleme mit mGPU gibt und die Skalierung deutlich besser wird, dann dürfte es deutlich mehr Interessenten geben als bei bisherigen Triple-SLI oder Quad-SLI Lösungen.

Nightspider

2014-10-14, 15:37:17

Ich würde sowas kaufen ohne mit der Wimper zu zucken. Endlich mGPU ohne AFR und 100% Skalierung. :eek:

Ich auch. Eine gewisse Käuferschicht wäre also vorhanden.

Dural

2014-10-14, 15:38:10

AMD würde bei einer solchen Karte einfach Wakü drauf packen. :wink:

Aber so zb. 4x GM204 GPUs mit 375Watt TDP auf einer Karte könnte ich mir durchaus Vorstellen. Wenn die Skalierung gut ist und es keine Treiber Probleme mehr gibt, wie so nicht?

differenzdiskriminator

2014-10-14, 15:48:08

Mit HMC hast du absolut keine Platzprobleme mehr.
Oh, ein Grafikchip hat nur Speicher und sonst keine Anbindung ;D

Mit HMC lassen sich schon etliche Watt sparen. Dazu eine extrem effiziente Architektur wie Maxwell und du kommst deutlich unter 1000W.
Wenn es irgendwann soweit ist das alle 4 Chips auf die gleichen VRAM Chips zugreifen können dann benötigt man nur ein mal VRAM für alle Chips und würde selbst mit GDDR5 über 100W sparen.
Erst möchtest du oben mit HMC den Platz auf der Platine schaffen - und jetzt wieder von HMC alle vier Chips ansteuern.

Müsstest dich jetzt schon langsam mal entscheiden....

Außerdem kann man nach wie vor die Taktraten minimal senken, die Chips selektieren und die Spannung senken.

750W sind da imo realistisch, wenn nicht sogar ein wenig weniger. Das wären nur fünf 8Pol Anschlüsse.
Ach, "nur" 5 8-Pol Anschlüsse. Na, wenn es sonst nichts ist! ;D

Ansichtssache. Du musst es dir ja nicht kaufen.
Wenn es weniger Probleme mit mGPU gibt und die Skalierung deutlich besser wird, dann dürfte es deutlich mehr Interessenten geben als bei bisherigen Triple-SLI oder Quad-SLI Lösungen.
Würde bei zwei Chips ja auch durchaus Sinn machen.

Nicht aber bei vier Stück.

Aber so zb. 4x GM204 GPUs mit 375Watt TDP auf einer Karte könnte ich mir durchaus Vorstellen. Wenn die Skalierung gut ist und es keine Treiber Probleme mehr gibt, wie so nicht?
Warum nicht 2xGM200?

- Weniger Platzprobleme
- Weniger Overhead
- identische Leistung

Solche Karten gab es schon, wenn man da das AFR wegbekommt mit einem schnelle Interconnect wäre das quasi wie eine schnelle Single-GPU.

Aber genau weil man 2x den HighEnd-Chip verbauen kann, macht 4x Performance keinen Sinn.

Dural

2014-10-14, 15:55:35

Theoretisch wäre es ja auch möglich das GP100 gar nicht über 500mm2 gross ist: Neue Fertigung zudem muss NV 2016 liefern können.
Wer weis das schon.

Zudem war GK104 auch viel früher auf dem Markt als GK110, somit sind solche Karten doch ideal um die Zeit zu Überbrücken (Macht man ja schon heute mit den Dual GPU Karten)
Und ein weiterer Grund könnte sein, eine zweite Karte einfach so reinstecken dürfte dann nicht mehr gehen, so mit könnte man auf mehr als zwei GPUs auf einer Karte angewiesen sein.

Nightspider

2014-10-14, 15:57:49

Oh, ein Grafikchip hat nur Speicher und sonst keine Anbindung ;D

Erst möchtest du oben mit HMC den Platz auf der Platine schaffen - und jetzt wieder von HMC alle vier Chips ansteuern.
.

Anbindung durch ein dickeres PCB, gibt soch genug Layer. Für Bauteile sollte genug Platz vorhanden sein.

Schau dir doch an was es bisher schob für breite PCBs gab, gerade bei der MSI Lightning.

Und wenn man alle 4 GPUs auf den gleichen Interposer setzt und in der Mitte die Memory Cubes anordnet sollte das auch klappen.
Nur müssten die IHVs es generell erst mal schaffen, das mehrere GPUs den gleichen Speicher nutzen könnten.

differenzdiskriminator

2014-10-14, 16:03:03

Nightspider

2014-10-14, 16:11:49

@Nightspider:

Möglich ist vieles, auch mit größerem PCB und unter Verletzung der PCIe Spec. Logisch.

Nur: Warum solltest du alle diese Kompromisse und Probleme eingehen, wenn eine Lösung mit zwei HighEnd-Chips viel einfacher und weniger Komplex ist?

Es macht schlicht keinen Sinn an dein Motorrad an jedes Rad einen Motor mit 30PS zu bauen, wenn du auch einfach einen mit 60PS einbauen kannst.

Mehrere HighEnd-Chips machen Sinn, logisch, wenn es keinen größeren/schnelleren Chip gibt. Deutlich mehr Performance zu nehmen aber nicht. Außer natürlich in den berüchtigten Ausnahmen wie der GRID K1.

Du hast mich immer noch nicht verstanden. Mir geht es darum das es bisher nicht mehr Leistung als von 2 550mm2 Chips gibt in einer sinnvollen Form.

2-Way-SLI läuft ja jetzt schon halbwegs gut. Mir geht es aber darum nochmal bis zu 100% mehr Leistung als bei 2-Way-SLI zu erreichen.

differenzdiskriminator

2014-10-14, 16:21:03

Du hast mich immer noch nicht verstanden. Mir geht es darum das es bisher nicht mehr Leistung als von 2 550mm2 Chips gibt in einer sinnvollen Form.
Natürlich gab es die. Nur nicht auf einem PCB. Triple- oder Quad-SLI gibt es schon seit Jahren.

2-Way-SLI läuft ja jetzt schon halbwegs gut. Mir geht es aber darum nochmal bis zu 100% mehr Leistung als bei 2-Way-SLI zu erreichen.
Das ist auf einer Platine nur eben schlichtweg Schwachsinn. Aus genannten Gründen.

Wenn man jetzt zwei Dual-GPU Karten einfach verbinden könnte, wäre es sinnvoll.

Aber vier 200W+ Chips auf einem PCB? Never.

Skysnake

2014-10-14, 16:30:11

Streich mal lieber ganz schnell das "einfach Verbinden". Die Stecker für solche Datenraten sind schweine groß, aufwändig und teuer.

Da biste schnell in nem hohen zweistelligen Betrag nur für die Stecker. Soweit ich das im Kopf habe, kommste durchaus sogar in den Bereich von >100€ Pro Steckverbindung.

differenzdiskriminator

2014-10-14, 16:33:03

Wie hoch ist der NVLink denn getaktet?

Nightspider

2014-10-14, 16:34:51

Natürlich gab es die. Nur nicht auf einem PCB. Triple- oder Quad-SLI gibt es schon seit Jahren.

Ich sagte in sinnvoller Form.

was glaubst du warum niemand Triple- oder Quad-SLI will?

Wäre SLI mit mehreren Karten ohne AFR, Microoruckler usw. möglich wäre es ja kein Problem mehr.

Loeschzwerg

2014-10-14, 16:38:43

Du hast mich immer noch nicht verstanden. Mir geht es darum das es bisher nicht mehr Leistung als von 2 550mm2 Chips gibt in einer sinnvollen Form.

2-Way-SLI läuft ja jetzt schon halbwegs gut. Mir geht es aber darum nochmal bis zu 100% mehr Leistung als bei 2-Way-SLI zu erreichen.

4x ~550mm² lassen sich NICHT sinnvoll in ein Produkt für den normalen Markt quetschen, außer die Leistungsaufnahme dieser DIEs ist entsprechend gering.

Da brauchen wir eigentlich nicht weiter drüber diskutieren.

Die AAlchemy war unbezahlbar wegen dem komplexen Aufbau und den Anforderungen an die Stromversorgung; die Voodoo 5 6000 hätte zwischen 800 - 1000 Mark gekostet wenn diese erschienen wäre...

Ein dual GPU Verbund mit 100%iger Skalierung wäre doch aber auch schon etwas :)

differenzdiskriminator

2014-10-14, 16:38:55

was glaubst du warum niemand Triple- oder Quad-SLI will?
- hohe Kosten
- hohe Leistungsaufnahme
- viel Wärme
- AFR-Geruckel

Mit deiner Lösung erschlägst du eines von vier Problemen. Handelst dir dafür noch neue ein (kein PCIe-Standard, extrem aufwändiges Engineering etc.).

Wäre SLI mit mehreren Karten ohne AFR, Microoruckler usw. möglich wäre es ja kein Problem mehr.
Richtig. Aber mehrere Karten != ein PCB.

Speziallösungen wie die Grid K1 oder auch die alten Aalchemy-Karten mal außen vor. Aber als normale Privatconsumerlösung? Nope.

boxleitnerb

2014-10-14, 16:39:59

Loeschzwerg

2014-10-14, 16:41:37

Pro kleinere Chips:
Immer problematischere Fertigungsprozesse und Yields. Was spricht dagegen, eine Lösung aus N kleinen Chips (100 mm2 z.B.) nach oben zu skalieren mit dieser Methode? Bislang waren die 500+ mm2 GPUs immer problematisch. Sie kamen eigentlich immer deutlich später als die kleineren Chips (aus dem eigenen Haus oder von der Konkurrenz).

Jup, darauf wollte ich eigentlich hinaus, bis diese Aussage kam... :D (@Nightspider: Nicht ernst nehmen, nur kleiner Spaß :))

:rolleyes:

Größere GPUs sind effizienter also wird man gerade die großen Chips nehmen.

----

Edit:
Eine GPU als Grundbaustein, kein 204, 206, 207, 200 usw.
Geringere Entwicklungskosten (?), viel viel schnellere time to market in allen Segmenten. Wo ist die GTX 960 noch gleich? Nvidia verpasst sicher sehr gerne das Weihnachtsgeschäft und den back to school Zeitraum...

Richtig, den Ansatz hat ja 3dfx u.a. verfolgt. Die Entwicklungskosten drückst du damit in meinen Augen ordentlich, es entfällt immerhin die Validierung sämtlicher weiteren Chips.

differenzdiskriminator

2014-10-14, 16:44:11

Immer problematischere Fertigungsprozesse und Yields. Was spricht dagegen, eine Lösung aus N kleinen Chips (100 mm2 z.B.) nach oben zu skalieren mit dieser Methode?
Weil du neue Probleme bekommst. Egal wie schnell dein Interconnect ist, du wirst immer größere Latenzen bekommen, oberhalb der Chips muss eine Koordination geben, kurz: Overhead. Und somit weniger Leistung.

Dazu wird NVLink auch nicht gerade wenig Chipfläche und Logik beinhalten, der Chip wird also deutlich größer und gerade bei einem so kleinen Chip wird NVLink unverhältnismäßig teuer.

Skysnake

2014-10-14, 16:53:12

Wie hoch ist der NVLink denn getaktet?
Er soll 5-12 mal die Bandbreite von PCI-E 3.0 bringen. Also wenn man von 16x PCI-E 3.0 ausgeht, irgendwas im Bereich von 80-192GB/s

Bei 4x8 Lanes, was ich so mitbekommen habe, wären das dann 20 - 48 GBit/s pro Link, bzw bei 4x16 Lanes eben "nur" noch 10-24 GBit/s. Das würde bei DDR, wovon man 100% sicher ausgehen kann, dann noch 5-12 GHz bedeuten an Frequenz, die der Interconnect verarbeitet.

Nur um es mal in Relation zu setzen. 5GHz verwenden viele der schnellsten Interconnects, die man noch für halbwegs vernünftiges Geld käuflich erwerben kann, wenn ich das richtig im Kopf haben. Maximal sind es 10/12.5 GHz, aber ich meine, das wären immer GBit/s angaben, also eben nur 5/6.25GHz, die man überträgt.

Und da wird meines Wissens nach teils schon GaAs verwendet, wobei das inzwischen auch durchaus in normalem Silizium CMOS realisierbar ist. Aber ganz sicher nicht mal eben so. Das ist schon herausfordernd!

Loeschzwerg

2014-10-14, 16:54:40

Weil du neue Probleme bekommst. Egal wie schnell dein Interconnect ist, du wirst immer größere Latenzen bekommen, oberhalb der Chips muss eine Koordination geben, kurz: Overhead. Und somit weniger Leistung.

Dazu wird NVLink auch nicht gerade wenig Chipfläche und Logik beinhalten, der Chip wird also deutlich größer und gerade bei einem so kleinen Chip wird NVLink unverhältnismäßig teuer.

Den momentan größten Overhead produziert PCIe, das sehe ich jetzt nicht wirklich als Problem.

Chipfläche sehe ich jetzt auch nicht direkt als Problem an, NVLink wird nicht großartig mehr Fläche fressen als z.B. QPI in einer aktuellen Intel CPU.

http://image20.it168.com/201111_500x375/852/6e1bc281c79fdfc5.jpg

differenzdiskriminator

2014-10-14, 17:01:17

Er soll 5-12 mal die Bandbreite von PCI-E 3.0 bringen. Also wenn man von 16x PCI-E 3.0 ausgeht, irgendwas im Bereich von 80-192GB/s

Bei 4x8 Lanes, was ich so mitbekommen habe, wären das dann 20 - 48 GBit/s pro Link, bzw bei 4x16 Lanes eben "nur" noch 10-24 GBit/s. Das würde bei DDR, wovon man 100% sicher ausgehen kann, dann noch 5-12 GHz bedeuten an Frequenz, die der Interconnect verarbeitet.
Das ist in der Tat sportlich. Aber sicherlich in 1-2 Jahren nicht unmöglich. Eine Verbindung muss ja auch zur PowerPC-CPU erfolgen. Bei zwei GPUs reden wir über eine Verbindung von wenigen centimetern.

Den momentan größten Overhead produziert PCIe, das sehe ich jetzt nicht wirklich als Problem.
Du möchtest aber auch deutlich mehr damit machen, als mit PCIe. Die zwei Chips müssen deutlich mehr kommunizieren, als dies bisher bei z.B. AFR der Fall ist. Sonst hätte man ja wieder die AFR-Problematik.

Chipfläche sehe ich jetzt auch nicht direkt als Problem an, NVLink wird nicht großartig mehr Fläche fressen als z.B. QPI in einer aktuellen Intel CPU.
Die Rede war von einer 100mm² GPU, also eher LowEnd. Stell dir jetzt mal den gleichen Platzverbrauch der QPI vor, wenn unten nur noch zwei CPU cores wären.

Und schon siehst du das Problem.

Zumal, siehe oben, NVLink ja deutlich mehr können muss, als PCIe.

Loeschzwerg

2014-10-14, 17:14:13

Du möchtest aber auch deutlich mehr damit machen, als mit PCIe. Die zwei Chips müssen deutlich mehr kommunizieren, als dies bisher bei z.B. AFR der Fall ist. Sonst hätte man ja wieder die AFR-Problematik.

Du hast ja auch bedeutend mehr Bandbreite, die sollte für 4 GPUs allemal ausreichen.

Die Rede war von einer 100mm² GPU, also eher LowEnd. Stell dir jetzt mal den gleichen Platzverbrauch der QPI vor, wenn unten nur noch zwei CPU cores wären.

Und schon siehst du das Problem.

Zumal, siehe oben, NVLink ja deutlich mehr können muss, als PCIe.

Der LowEnd Markt wird eh beherrscht von den APUs, da muss NV nicht mehr großartig mitspielen mit einem DIE. Ein 100mm² DIE ist hier freilich nicht gewinnbringend.

Es wäre also nun die Kunst eine passende Größe zu finden (~250mm²?!).

Knuddelbearli

2014-10-14, 18:30:39

Und wie wollt ihr das kühlen? :confused:

Indem man takt senkt? Maxwell 2.0 hat zB Sweetspot bei ca 1150MHZ was bei der 970 140W sind, dann nimtm man einfach 3 davon und gut

Nightspider

2014-10-14, 18:41:59

- hohe Kosten
- hohe Leistungsaufnahme
- viel Wärme
- AFR-Geruckel

Du glaubst hoher Stromverbrauch und Wärme hindert Leute sich ein 2500-4000 Euro teures SLI Gespann aufzubauen? :ugly:

Sehr merkwürdige Denkweise.

AFR-Geruckel und nicht zu vergessen die schlechte Skalierung.

Aber mehrere Karten != ein PCB.

Ahja. Was ist daran neu?

Eine leichte Entspanunng bei der SLI Problematik sehe ich nur bei VR. Denn Nvidia will bei zwei Karten jeweils eine Karte für das Bild eines Auges rechnen lassen womit man AFR umgehen würde und eine Skalierung von nahezu 100% erreichen sollte.

Wenn man dann Quad-SLI nutzt ist es so wie 2-Way-SLI bisher, weil 2 Karten pro Auge rechnen.

differenzdiskriminator

2014-10-15, 09:07:56

Du hast ja auch bedeutend mehr Bandbreite, die sollte für 4 GPUs allemal ausreichen.
Du brauchst aber eben auch die Logik im Chip, um die Daten zwischen den Chips zu verwalten und zu verteilen.

Der LowEnd Markt wird eh beherrscht von den APUs, da muss NV nicht mehr großartig mitspielen mit einem DIE. Ein 100mm² DIE ist hier freilich nicht gewinnbringend.

Es wäre also nun die Kunst eine passende Größe zu finden (~250mm²?!).
Aber dann kommt wieder die Frage: Warum 4x250mm², wenn man 2x550mm² nehmen kann?

Du glaubst hoher Stromverbrauch und Wärme hindert Leute sich ein 2500-4000 Euro teures SLI Gespann aufzubauen? :ugly:

Sehr merkwürdige Denkweise.

AFR-Geruckel und nicht zu vergessen die schlechte Skalierung.
Das Problem ist unterm Strich schlicht das Verhältnis der Leistung zur Menge der Nachteile. Wärme ist nun mal ein Problem, die musst du da raus bekommen. Da helfen dir auch keine 4000€, da schlägt die Physik zu.

Deswegen macht es wie gesagt IMHO keinen Sinn, mehr kleine Chips gegen einen großen zu tauschen.

ndrs

2014-10-15, 10:13:40

Aber dann kommt wieder die Frage: Warum 4x250mm², wenn man 2x550mm² nehmen kann?
Wurde doch alles schon erwähnt.
1. Ein Die für alle Preissegmente. Unterschiede nur über die Anzahl. Keine weiteren Entwicklungskosten.
2. 2x250mm^2 ist billiger zu fertigen als 1x500mm^2. Der Unterschied wird mir kommenden Fertigungsverfahren immer größer.

differenzdiskriminator

2014-10-15, 10:26:31

1. Ein Die für alle Preissegmente. Unterschiede nur über die Anzahl. Keine weiteren Entwicklungskosten.
Außer natürlich:

- Entwicklung für den Interconnect
- Skalisierungsprobleme
- Komplizierte/teure PCBs

2. 2x250mm^2 ist billiger zu fertigen als 1x500mm^2. Der Unterschied wird mir kommenden Fertigungsverfahren immer größer.
s.o., alleine die zusätzlichen Entwicklungskosten sowie die deutlich teureren PCBs und Kühllösungen, fressen den Vorteil schlichtweg auf.

AMD hat vielen Jahren genau diesen Weg verkündet (Performancechip, dafür mehrere für HighEnd-Karten) und kommt jetzt wieder mit einem 500mm²+ Chip um die Ecke. Warum wohl?

Loeschzwerg

2014-10-15, 10:53:03

Außer natürlich:

- Entwicklung für den Interconnect
- Skalisierungsprobleme
- Komplizierte/teure PCBs

s.o., alleine die zusätzlichen Entwicklungskosten sowie die deutlich teureren PCBs und Kühllösungen, fressen den Vorteil schlichtweg auf.

AMD hat vielen Jahren genau diesen Weg verkündet (Performancechip, dafür mehrere für HighEnd-Karten) und kommt jetzt wieder mit einem 500mm²+ Chip um die Ecke. Warum wohl?

Interconnect -> entwickelst du genau einmal, wie QPI, PCIe usw, aber wir können auch technologisch einfach nichts Neues mehr entwickeln und auf der Stelle treten
Skalierungsprobleme -> Sollte es nicht sonderlich geben wenn NVLink entsprechend intelligent funktioniert, ansonsten kann man auch bei AFR Mist bleiben
PCB Kosten -> relativieren sich wenn der Speicher auf dem Package sitzt

Große Chips fressen extrem viel Ressourcen wenn man Optimierungen im Detail vornehmen will und es braucht deutlich mehr Zeit und Manpower einen weiteren Chip zu validieren.

AMD musste nach dem R600 Desaster schlichtweg einen Gang runter schalten, für einen weiteren BigDIE war kein Geld vorhanden.

differenzdiskriminator

2014-10-15, 11:01:54

Interconnect -> entwickelst du genau einmal, wie QPI, PCIe usw, aber wir können auch technologisch einfach nichts neus mehr entwickeln und auf der Stelle treten
Es ist ein Unterschied, ob du einen Interconnect nutzen möchtest, um Daten von A nach B zu schubsen, oder ob du damit zwei Chips synchronisieren möchtest.

Skalierungsprobleme -> Sollte es nicht sonderlich geben wenn NVLink entsprechend intelligent funktioniert, ansonsten kann man auch bei AFR Mist bleiben
Du erhälst immer einen Overhead, egal was du machst. Und dieser Overhead wird immer größer, je mehr Beteiligte du hast.

Ist ja beim normalen Arbeiten auch so. Ein Team mit 100 Leuten schafft mitnichten die 100-fache Arbeit eines Einzelnen.

PCB Kosten -> relativieren sich wenn der Speicher auf dem Package sitzt
Nein, im Gegenteil. Die SingleGPU-Karte wird billiger, da du dir das Speicherinterface sparst. Dafür eure Karte schon wieder teurer, da ihr ja den Interconnect führen müsst. Spart euch also exakt Null.

Solange kein HMC verwendet wird, habt ihr sogar pro Chip zwei fette Busse auf der Karte.

Große Chips fressen extrem viel Ressourcen wenn man Optimierungen im Detail vornehmen will und es braucht deutlich mehr Zeit und Manpower einen weiteren Chip zu validieren.
Wie gesagt, du verbrauchst die Ressourcen an einer anderen Stelle.

Gleichzeitig musst du aber einen 500mm²+ Chip immer noch anbieten, um gewisse Kunden damit zu beliefern.

Das Problem bleibt also bestehen.

AMD musste nach dem R600 Desaster schlichtweg einen Gang runter schalten, für einen weiteren BigDIE war kein Geld vorhanden.
Ändert nichts am Fakt, dass Chipfläche nur durch Chipfläche zu ersetzen ist. Das sieht jetzt auch AMD ein.

Loeschzwerg

2014-10-15, 12:05:51

Es ist ein Unterschied, ob du einen Interconnect nutzen möchtest, um Daten von A nach B zu schubsen, oder ob du damit zwei Chips synchronisieren möchtest.

Letzteres ist auch nichts anderes, braucht nur mehr Bandbreite. Alles weitere regelt die Software.

Du erhälst immer einen Overhead, egal was du machst. Und dieser Overhead wird immer größer, je mehr Beteiligte du hast.

Wir reden von einem geringeren Overhead als der PCIe Bus hat und von einer anderen Technik als AFR...

Nein, im Gegenteil. Die SingleGPU-Karte wird billiger, da du dir das Speicherinterface sparst. Dafür eure Karte schon wieder teurer, da ihr ja den Interconnect führen müsst. Spart euch also exakt Null.

Solange kein HMC verwendet wird, habt ihr sogar pro Chip zwei fette Busse auf der Karte.

Was aktuell bei dual/quad GPU Karten über den PCIe Bus geschleift wird hast du halt zukünftig über NVLink, du sparst dir aber sämtliche Verdrahtung der Speicherbausteine.

Wie gesagt, du verbrauchst die Ressourcen an einer anderen Stelle.

Gleichzeitig musst du aber einen 500mm²+ Chip immer noch anbieten, um gewisse Kunden damit zu beliefern.

Das Problem bleibt also bestehen.

Ein PCB ist leichter entwickelt als ein massiv dicker DIE und nein, wenn die Skalierung von dual GPU Karten durch NVLink stimmt, dann braucht man nicht notwendigerweise einen dicken DIE.

Aber es stehen natürlich noch genügend Fragezeichen im Raum und mit Pascal erwarte ich so einen Schritt (weg von einem dicken DIE) eh nicht.

Ändert nichts am Fakt, dass Chipfläche nur durch Chipfläche zu ersetzen ist. Das sieht jetzt auch AMD ein.

Aktuell ja, da das dual GPU Design aktuell einfach Bockmist ist.

differenzdiskriminator

2014-10-15, 12:22:06

Letzteres ist auch nichts anderes, braucht nur mehr Bandbreite. Alles weitere regelt die Software.
Nein, so einfach ist es selbstverständlich nicht.

Schau dir oben deinen dieshot von der Intel-CPU an. Du möchtest faktisch das die in der Hälfte teilen und dann über einen Interconnect verbinden.

Einfach? Mitnichten. Nur Software? Ne! Da muss viel Logik in den Chip, um serielle Befehle auch seriell auszuführen. Wenn dann - wie bei Grafik oft üblich - eine Berechnung von Chip A benötigt wird von Chip B wird es richtig kritisch.

Wir reden von einem geringeren Overhead als der PCIe Bus hat und von einer anderen Technik als AFR...
Logisch, aber der Overhead ist eben da. Und somit machen 4 Chips mit 25% der Leistung eines großen noch lange nicht 100% dessen Leistung. Und diese Diskrepanz wird mit mehr Chips immer größer. Bis zu dem Zeitpunkt, ab dem es sich nicht mehr lohnt.

Und genau hier ist das Problem von 4x250 vs. 2x550. Und genau deshalb glaube ich nicht, dass wir das in absehbarer Zeit (sprich fünf Jahre) sehen werden.

Was aktuell bei dual/quad GPU Karten über den PCIe Bus geschleift wird hast du halt zukünftig über NVLink, du sparst dir aber sämtliche Verdrahtung der Speicherbausteine.
Du wirst nur keinen NVLink im Consumer-PC sehen.

Und auch hier wieder das Problem, dass du jetzt plötzlich wieder von AFR-Technologie sprichst. Ihr wollt aber eine direkte Koppelung der Chips, um von der AFR-Problematik weg zu kommen. Und somit wächst der Datenverkehr massivst.

Ein PCB ist leichter entwickelt als ein massiv dicker DIE und nein, wenn die Skalierung von dual GPU Karten durch NVLink stimmt, dann braucht man nicht notwendigerweise einen dicken DIE.
Na wenn du glaubst, dass ein PCB so einfach ist ;D

Aber es stehen natürlich noch genügend Fragezeichen im Raum und mit Pascal erwarte ich so einen Schritt (weg von einem dicken DIE) eh nicht.
Du wirst auch generell keinen Weg weg vom großen die sehen. Einfach weil es genug Kunden mit fetten Margen gibt, die für ihre Zwecke einen großen Chip brauchen.

Aktuell ja, da das dual GPU Design aktuell einfach Bockmist ist.
Das Problem ist schlicht, dass AFR Mist ist. Und ja, da wird NVLink helfen. Aber einen Vorteil von 4 Chips vs. 2 sehe ich schlicht nicht, tut mir leid.

Hübie

2014-10-15, 12:26:46

Wie bitte soll etwas 100%ig skalieren wenn beide an der selben Szene mit verschobenem "Viewport" rechnen? Da wird nix schneller.
Ich beziehe mich auf VRR-SLi.

Loeschzwerg

2014-10-15, 16:39:51

Einfach? Mitnichten. Nur Software? Ne! Da muss viel Logik in den Chip, um serielle Befehle auch seriell auszuführen. Wenn dann - wie bei Grafik oft üblich - eine Berechnung von Chip A benötigt wird von Chip B wird es richtig kritisch.

Es ist zunächst entscheidend was für ein Renderverfahren man wählt und wie man gedenkt die GPUs zusammenarbeiten zu lassen. Nur NVLink reicht nicht.

Egal wie, die Logik von der du sprichst sollte in den GPUs größtenteils schon vorhanden sein, denn wie sollte man sonst die unzähligen Prozessoren innerhalb einer GPU ausgelastet bekommen?

Logisch, aber der Overhead ist eben da. Und somit machen 4 Chips mit 25% der Leistung eines großen noch lange nicht 100% dessen Leistung. Und diese Diskrepanz wird mit mehr Chips immer größer. Bis zu dem Zeitpunkt, ab dem es sich nicht mehr lohnt.

Und genau hier ist das Problem von 4x250 vs. 2x550. Und genau deshalb glaube ich nicht, dass wir das in absehbarer Zeit (sprich fünf Jahre) sehen werden.

Auch das ist mehr oder weniger abhängig vom gewählten Verfahren. Beim 3dfxschen SLI war die Skalierung immerhin perfekt, es lässt sich auf heutige Bedürfnisse nur nicht mehr anwenden.

Du wirst nur keinen NVLink im Consumer-PC sehen.

Und auch hier wieder das Problem, dass du jetzt plötzlich wieder von AFR-Technologie sprichst. Ihr wollt aber eine direkte Koppelung der Chips, um von der AFR-Problematik weg zu kommen. Und somit wächst der Datenverkehr massivst.

Warum sollte man NVLink oder Teilbereiche davon nicht mit in den Consumer Bereich nehmen?

Wiso plötzlich AFR? Nur um diese Problematik ging es doch einigen hier.

Na wenn du glaubst, dass ein PCB so einfach ist ;D

Ist es, bis man es mit mehreren GHz zu tun bekommt.

Du wirst auch generell keinen Weg weg vom großen die sehen. Einfach weil es genug Kunden mit fetten Margen gibt, die für ihre Zwecke einen großen Chip brauchen.

Es wird halt nur immer schwieriger große Chips in noch kleineren Strukturen zu fertigen.

Das ist zwar morgen (also mit Pascal und Nachfolger) vielleicht noch kein Problem, aber evtl. übermorgen.

Persönlich komme ich nur zu dem Schluss dass wir noch viel zu wenig über NVLink/Pascal wissen.

@Hübie: 1920x2160 links und 1920x2160 rechts, geht man nach dem Oculus Rift Funktionsprinzip. Die Auslastung der GPUs ist hier sicher gleichmäßiger als bei nativ UHD und AFR. Die Gesamtleistung steigt natürlich nicht.

differenzdiskriminator

2014-10-15, 17:07:25

Es ist zunächst entscheidend was für ein Renderverfahren man wählt und wie man gedenkt die GPUs zusammenarbeiten zu lassen. Nur NVLink reicht nicht.
Das sage ich ja die ganze Zeit. Und ihr hüpft feucht-fröhlich zwischen AFR (wenn es darum geht, wie kompliziert ein NVLink ist, um GPUs zu koppeln) und einer "neuen" Rendermethode, die die AFR-Probleme behebt (wenn es um die Vorteile von NVLink geht).

Das klappt eben nicht.

Egal wie, die Logik von der du sprichst sollte in den GPUs größtenteils schon vorhanden sein, denn wie sollte man sonst die unzähligen Prozessoren innerhalb einer GPU ausgelastet bekommen?
Deswegen haben GPUs große Funktionsblöcke, die nichts weiter tun als die vorhandene Arbeit möglichst effizient auf die verschiedenen Teile der GPU aufzuteilen.

Wenn du nun weg von AFR möchtest, muss diese Aufteilung nicht mehr innerhalb der GPU geschehen, sondern muss zwischen den verschiedenen GPUs koordiniert werden über den NVLink.

Dann werden teilweise die Daten untereinander benötigt, also GPU 1 hat Teil A berechnet, den nach Fertigstellung aber GPU 2 benötigt etc. pp.

Das ist hochkomplex, da braucht man viel Logik und KnowHow im Chip und natürlich auch im Treiber.

Daher wage ich zu behaupten, dass ein SLI-Einsatz in weiter Zukunft liegt. NVLink wird zu Beginn erst mal "nur" ein PCIe Ersatz sein, um die CPU<->GPU-Kommunikation zu beschleunigen. Primärer Einsatz Supercomputer.

Auch das ist mehr oder weniger abhängig vom gewählten Verfahren. Beim 3dfxschen SLI war die Skalierung immerhin perfekt, es lässt sich auf heutige Bedürfnisse nur nicht mehr anwenden.
SLI konnte noch ein Frame parallel auf mehreren GPUs berechnen lassen. Heiß GPU1 hatte die Zeile 0, GPU2 die Zeile 1 etc. pp. Anschließend wurden alle Zeilen zusammengefasst und ausgegeben.

Das ist mit heutigen Rendermethoden nicht mehr möglich, da die Zeilen untereinander Abhängigkeiten haben (z.B. Beleuchtung), somit müssen die Frames im ganzen auf einer GPU gerendert werden.

Warum sollte man NVLink oder Teilbereiche davon nicht mit in den Consumer Bereich nehmen?
a) teuer
b) keine CPU

Wiso plötzlich AFR? Nur um diese Problematik ging es doch einigen hier.
Weil du vom heutigen Datenverkehr bei SLI-Betrieb sprichst und das ist AFR. Da rendern die Karten im Parallelflug, mit relativ wenig Kommunkation untereinander. Und ihr wollt ja was anderes, Nicht-AFR mit deutlich mehr Kommunikation.

Ist es, bis man es mit mehreren GHz zu tun bekommt.
Wir reden von grob überschlagen 5-10 GHz. Das heißt du hast ein heutiges Speicherinterface zusätzlich auf der Karte, dass du verlegen musst. Und die PCBs eines GK110 sind heute schon nicht ohne in der Entwicklung.

Es wird halt nur immer schwieriger große Chips in noch kleineren Strukturen zu fertigen.
Offensichtlich nicht, sonst würde AMD nicht in diese Richtung entwickeln, sondern bei ihrer bisherigen Strategie bleiben kleinere Chips zu bauen und zu koppeln.

Das ist zwar morgen (also mit Pascal und Nachfolger) vielleicht noch kein Problem, aber evtl. übermorgen.
Sagen wir es mal so: Es ist auch heute kein Problem und unter Fertigungsproblemen leiden die kleinen Chips genauso wie die Großen. Ich sehe zumindest keine 20nm GPU, du?

Persönlich komme ich nur zu dem Schluss dass wir noch viel zu wenig über NVLink/Pascal wissen.
Wäre ja auch langweilig, wenn es so wäre!

Loeschzwerg

2014-10-15, 18:05:45

Keine Ahnung ob das hier noch direkt on topic ist, daher im Spoiler.

Das sage ich ja die ganze Zeit. Und ihr hüpft feucht-fröhlich zwischen AFR (wenn es darum geht, wie kompliziert ein NVLink ist, um GPUs zu koppeln) und einer "neuen" Rendermethode, die die AFR-Probleme behebt (wenn es um die Vorteile von NVLink geht).

Bei dem "ihr" zähle ich mich zumindest nicht dazu.

Deswegen haben GPUs große Funktionsblöcke, die nichts weiter tun als die vorhandene Arbeit möglichst effizient auf die verschiedenen Teile der GPU aufzuteilen.

Wenn du nun weg von AFR möchtest, muss diese Aufteilung nicht mehr innerhalb der GPU geschehen, sondern muss zwischen den verschiedenen GPUs koordiniert werden über den NVLink.

Dann werden teilweise die Daten untereinander benötigt, also GPU 1 hat Teil A berechnet, den nach Fertigstellung aber GPU 2 benötigt etc. pp.

Jup, ist bei NV die Gigathread Engine und sitzt in der Mitte. Wobei das Ding deutlich kleiner ist als ein SMX.

Der Command Processor verteilt auf die SMX und die SMX innerhalb auf die weiteren Einheiten. Jetzt müsste man theoretisch nur eine weitere Ebene einbauen.

Das sollte nicht großartig komplexer sein als es eh schon ist.

SLI konnte noch ein Frame parallel auf mehreren GPUs berechnen lassen. Heiß GPU1 hatte die Zeile 0, GPU2 die Zeile 1 etc. pp. Anschließend wurden alle Zeilen zusammengefasst und ausgegeben.

Das ist mit heutigen Rendermethoden nicht mehr möglich, da die Zeilen untereinander Abhängigkeiten haben (z.B. Beleuchtung), somit müssen die Frames im ganzen auf einer GPU gerendert werden.

Das erklärst du dem falschen... :D

a) teuer
b) keine CPU

a) dürfte so oder so in der Architektur integriert sein, man macht da bestimmt keinen extra DIE ohne NVLink

b) auf die sollte man nicht angewiesen sein wenn es um die Kommunikation von mehreren GPUs untereinander geht.

Wir reden von grob überschlagen 5-10 GHz. Das heißt du hast ein heutiges Speicherinterface zusätzlich auf der Karte, dass du verlegen musst. Und die PCBs eines GK110 sind heute schon nicht ohne in der Entwicklung.

Genau das meinte ich mit "mehreren GHz"

Warum zusätzlich? Du hast dir schon das Pascal Modul angesehen, oder?

Zum Thema komplex => Klick! (http://abload.de/img/sparc64_memcuben9ks1.jpg)

Offensichtlich nicht, sonst würde AMD nicht in diese Richtung entwickeln, sondern bei ihrer bisherigen Strategie bleiben kleinere Chips zu bauen und zu koppeln.

Es blieb ja nichts anderes übrig nachdem Crossfire (AFR) nicht wirklich befriedigend ist/war.

Sagen wir es mal so: Es ist auch heute kein Problem und unter Fertigungsproblemen leiden die kleinen Chips genauso wie die Großen. Ich sehe zumindest keine 20nm GPU, du?

Die Ausbeute ist bei kleineren Chips eigentlich immer höher und für so kleine GPUs gibt es keinen Markt.

Mich nervt das Geschreibsel und im Sinne des threads ist für mich hier Schluss.

differenzdiskriminator

2014-10-16, 08:31:39

Bei dem "ihr" zähle ich mich zumindest nicht dazu.
Tust du aber, genau auf solche merkwürdigen Absätze habe ich geantwortet.

Jup, ist bei NV die Gigathread Engine und sitzt in der Mitte. Wobei das Ding deutlich kleiner ist als ein SMX.

Der Command Processor verteilt auf die SMX und die SMX innerhalb auf die weiteren Einheiten. Jetzt müsste man theoretisch nur eine weitere Ebene einbauen.

Das sollte nicht großartig komplexer sein als es eh schon ist.
Natürlich ist das großartig komplex, wenn du mit der Chipfläche nicht mehr ein Dutzend und mehr SMX befeuern möchtest, sondern nur noch ein paar. Ein Dutzend SMX kriegst du auf deine 100mm² nicht.

Zumal die Engine nur Chip-intern ist. Du möchtest die jetzt gern aber zwischen den Chips synchronisieren. Die Komplexität steigt natürlich massiv und mit der Zahl der Chips noch viel stärker.

Das erklärst du dem falschen... :D
Ich habe den anderen Eindruck.

a) dürfte so oder so in der Architektur integriert sein, man macht da bestimmt keinen extra DIE ohne NVLink

b) auf die sollte man nicht angewiesen sein wenn es um die Kommunikation von mehreren GPUs untereinander geht.
Auch wenn du NVLink schon auf dem die hast, ist die Nutzung noch ein ganz andere Sache.

Bezüglich der CPU-Nutzung habe ich mich ja schon ausreichend geäußert, kannst du gern nochmal nachlesen.

Genau das meinte ich mit "mehreren GHz"
Also drehst du deine Meinung jetzt 180°, nachdem vorhin das PCB noch ganz einfach war? ;)

Warum zusätzlich? Du hast dir schon das Pascal Modul angesehen, oder?

Zum Thema komplex => Klick! (http://abload.de/img/sparc64_memcuben9ks1.jpg)
Und was hat so ein Monster mit einer Consumer-GPU zu tun? :confused:

Du springst schon wieder so im Thema, wie es dir gerade passt. Wir reden hier über Consumer-GPUs und eventuelle Alternativen für AFR basierend auf NVLink, nicht über Boards für Supercomputer.

Es blieb ja nichts anderes übrig nachdem Crossfire (AFR) nicht wirklich befriedigend ist/war.
Ach! Genau das was ich sage! ;D

Die Ausbeute ist bei kleineren Chips eigentlich immer höher und für so kleine GPUs gibt es keinen Markt.
Und wo ist nun die 20nm GPU? :confused:

Mich nervt das Geschreibsel und im Sinne des threads ist für mich hier Schluss.
Das ist sicherlich besser so, solange du ständig die Themen wechselst, wie es dir in den Kram passt, um deine Behauptungen irgendwie noch hinbiegen zu können.

Drogenbaron

2014-11-14, 19:14:18

Die Nachfolger von Titan bzw. Jaguar am Oak Ridge National Laboratory heißt Summit und wird ebenso wie Sierra am Lawrence Livermore der erste Einsatz von Volta und NVLink werden:

http://www.nvidia.com/object/exascale-supercomputing.html

5-10 schneller als die Vorgänger, der Speedup für NVLink angeblich über dem Faktor 2 ggü PCIe für 3D FFT.

Nicht schlecht, nicht schlecht.

Skysnake

2014-11-14, 20:04:45

Einen entscheidenden Teil haste aber mal gekonnt unterschlagen. Davon sehen werden wir erst 2017 etwas. Dann wird das zwar nicht schlecht, aber bei weitem nicht mehr so berauschend sein, wie es sich heute anhört.

Nightspider

2014-11-14, 20:05:27

War ja klar das Big Pascal erst 2017 kommt.

Drogenbaron

2014-11-14, 22:50:56

Einen entscheidenden Teil haste aber mal gekonnt unterschlagen. Davon sehen werden wir erst 2017 etwas.
Das war schon beim Titan so, warum sollte das nochmal erwähnt werden?

Außer den Chinesen wird wohl kaum jemand noch einen Supercomputer in dieser Größe bauen.

Skysnake

2014-11-15, 08:07:32

sagt wer?

Drogenbaron

2014-11-15, 10:53:49

PHuV

2014-11-15, 13:58:52

USA wollen wieder den schnellsten Großrechner (http://www.heise.de/newsticker/meldung/USA-wollen-wieder-den-schnellsten-Grossrechner-2457719.html?wt_mc=rss.ho.beitrag.atom)

Ich schätze, das wird noch mit Maxwell passieren.

Kriton

2014-11-15, 14:01:31

Pro kleinere Chips:
Immer problematischere Fertigungsprozesse und Yields. Was spricht dagegen, eine Lösung aus N kleinen Chips (100 mm2 z.B.) nach oben zu skalieren mit dieser Methode? Bislang waren die 500+ mm2 GPUs immer problematisch. Sie kamen eigentlich immer deutlich später als die kleineren Chips (aus dem eigenen Haus oder von der Konkurrenz).

Eine GPU als Grundbaustein, kein 204, 206, 207, 200 usw.
Geringere Entwicklungskosten (?), viel viel schnellere time to market in allen Segmenten. Wo ist die GTX 960 noch gleich? Nvidia verpasst sicher sehr gerne das Weihnachtsgeschäft und den back to school Zeitraum...

Das war ein Konzept, dass AMD mal mit der 4800er Reihe etablieren wollte. (Das ist nur eine Feststellung, ich will damit nichts weiter sagen.)

Edit:

AMD hat vielen Jahren genau diesen Weg verkündet (Performancechip, dafür mehrere für HighEnd-Karten) und kommt jetzt wieder mit einem 500mm²+ Chip um die Ecke. Warum wohl?

Genau das meinte ich.

Nightspider

2014-11-15, 14:02:45

2017 wird man bestimmt kein Maxwell mehr in eine brandneuen Supercomputer stecken, welcher der schnellste seiner Zeit sein soll.

Kriton

2014-11-15, 14:05:59

Du glaubst hoher Stromverbrauch und Wärme hindert Leute sich ein 2500-4000 Euro teures SLI Gespann aufzubauen? :ugly:

Sehr merkwürdige Denkweise.

Nicht jeder der Geld hat versteht was von Technik. Als ich den einen tag das abgerauchte Netzteil meiner Frau ausgetauscht habe fragte jemand nach, der ein neues Netzteil für seine SLI-System brauchte. Der hatte keine Ahnung was er da nehmen sollte. Und von Rails hatte der sicher noch nie gehört wenn er schon bei den Watt aussteigt.
Worauf ich hinaus will: Kann der eine Wasserkühlung installieren?

Nightspider

2014-11-15, 14:11:24

Es gibt auch Leute ohne viel Geld die ein ganzes Monatsgehalt in ihre Grafikkarten stecken und nicht viel Ahnung haben. Das sagt erstmal gar nichts aus.

Und wer richtig viel Kohle und keine Ahnung hat wird sich das teuerste Teil bestellen, was es Online gibt. Das ist dann entweder sau laut oder hat eine integrierte Wasserkühlung.

PHuV

2014-11-15, 14:55:30

2017 wird man bestimmt kein Maxwell mehr in eine brandneuen Supercomputer stecken, welcher der schnellste seiner Zeit sein soll.
Warum nicht, bitte mit Begründung? Und Wenn das Ding bereits 2017 in Betrieb gehen soll, werden die garantiert noch keine Pascal-Chips einbauen, welche weder verfügbar noch getestet wurden. Bei solchen Projekten tauscht Du nicht einfach so mal innerhalb von Wochen aus, da sind lange Planungen nötig, um Hard- und Software entsprechend abzustimmen. Das schaffen die nur mit Maxell oder Kepler.

hasebaer

2014-11-15, 15:04:08

@PHuV

Wir haben erst 2014, nicht 2015. ;)

PHuV

2014-11-15, 15:10:51

Fuuu. :eek: Ok, sorry, Zeitreisen bringen mich immer so durcheinander (hihi).

Stimmt, wir haben erst 2014.

Nightspider

2014-11-15, 15:12:21

Warum nicht, bitte mit Begründung? Wir haben in 6 Wochen bereits 2016. Und Wenn das Ding bereits 2017 in Betrieb gehen soll, werden die garantiert noch keine Pascal-Chips einbauen, welche weder verfügbar noch getestet wurden. Bei solchen Projekten tauscht Du nicht einfach so mal innerhalb von Wochen aus, da sind lange Planungen nötig, um Hard- und Software entsprechend abzustimmen. Das schaffen die nur mit Maxell oder Kepler.

Ehm, ja. :freak:

Pascal kommt 2016 und Big Pascal sicherlich Ende 2016 oder Anfang 2017. Nvidia bringt keinen unausgereiften Müll auf den Markt sondern ausgereifte und sicherlich in vielen Hinsichten getestete Produkte auf den Markt.

Glaubst du Institute würden hunderte Millionen von Dollar in ein unausgereiften Produkt stecken? :freak:
Nee, da wird vorher alles ganz klipp und klar ausgehandelt. Nvidia könnte es sich auch gar nicht leisten fehlerhafte Hardware an die lukrativsten Kunden zu senden.

Abgesehen davon lieferte Nvidia damals auch die ersten GK110 Chips an Server-Hersteller. Schon Monate vor dem Desktop-Launch!

Da wanderten quasi die ersten Chips vom Band direkt in die Supercomputer. Wieso sollte das bei Pascal anders sein?

PHuV

2014-11-15, 15:30:14

[ ] Du hast meinen Durchgestrichenen Kommentar bemerkt?

Hab mich in der Zeit geirrt, sorry.

Nightspider

2014-11-15, 15:32:43

[ ] Du hast gemerkt das mein Post vor deinem Bearbeiten gemacht wurde.

Hab ich schon gemerkt bevor du deinen Post editiert hast.

prinz_valium

2014-11-15, 16:08:59

also mitte/ende 2017 highend chip pascal in (14/16nm finfet) für consumer.
ganz schön spät :D

2016 dann wieder ein midend chip, der uns als highend grafikkarte verkauft wird.

AffenJack

2014-11-15, 18:14:54

Pascal kommt 2016 und Big Pascal sicherlich Ende 2016 oder Anfang 2017. Nvidia bringt keinen unausgereiften Müll auf den Markt sondern ausgereifte und sicherlich in vielen Hinsichten getestete Produkte auf den Markt.

Big Pascal dürfte Anfang 2016 für Server kommen, denn die News hier spricht nicht über Pascal. Es geht bei Summit und Sierra um Volta. Scheint also, dass Nv hier ne sehr aggressive Roadmap fährt.

Summit features more than 3,400 compute nodes, enough to deliver a peak performance between 150 and 300 petaFLOPS, and is expected to deliver more than five times the system - level application performance of Titan while consuming only 10% more power. Each compute node includes multiple next - generation IBM POWER9 CPUs and multiple NVIDIA Tesla® GPUs based on the NVIDIA Volta architecture. Each node is expected to deliver more than 40 TFLOPS, which is enough to out perform an entire rack of Haswell x86 CPU servers
http://info.nvidianews.com/rs/nvidia/images/An%20Inside%20Look%20at%20Summit%20and%20Sierra%20Supercomputers-3-1.pdf

Q1 2015 Big Maxwell
Q1/2 2016 Big Pascal?
Q3 2017 Big Volta?

So in etwa stell ich mir das vor bei Servern, was davon beim Consumer ankommt ist ne andere Sache. Pascal halte ich weiterhin aber nur für Maxwell plus HBM, Volta wird dann erst wieder ne neue Architektur.

Skysnake

2014-11-15, 19:15:39

Titan ist auch heute noch Platz 2, einzig von Tianhae geschlagen.

Wo soll denn zwischen heute und 2017 so eine Maschine im Bereich von 100 Petaflops und mehr hinkommen?

Übrigens verliert damit auch AMD seinen Platz im Oak Ridge Supercomputer, die CPUs kommen von IBM.
China, Japan (Earthmachine kam ja auch daher), Briten, Franzosen oder auch die Deutschen. Bei Jülich stehen dann auch wieder einige Updates an.

Gerade China wird sich den Platz 1 nicht nehmen lassen. Die wollen auf Biegen und Brechen die 1 haben. Haste dir mal Tianhe2 angeschaut? Dagegen ist Titan ein low Budget System.

Und bzgl. AMD:
Dir ist schon klar, das Cray AMD wegen ihrem Gemini NIC verwendet haben. Sie haben aber inzwischen von HT auf PCI-E umgebaut, und daher ist AMD eh drausen und Intel drin bei Cray, zumal die eh ihre NIC Sparte an Intel verkauft haben...

Also wenn ist Cray drausen.

Drogenbaron

2014-11-16, 09:30:21

China, Japan (Earthmachine kam ja auch daher), Briten, Franzosen oder auch die Deutschen. Bei Jülich stehen dann auch wieder einige Updates an.
Allesamt Platz 4 und folgende.

Keiner davon wird sich in den nächsten 3 Jahren einen neuen Supercomputer bestellen und keine der bestehenden Maschinen wird 100 Petaflops schaffen, dafür sind die Architekturen gar nicht ausgelegt.

Gerade China wird sich den Platz 1 nicht nehmen lassen. Die wollen auf Biegen und Brechen die 1 haben. Haste dir mal Tianhe2 angeschaut? Dagegen ist Titan ein low Budget System.
Genau deswegen werden wir bis 2017 auch keinen Tianhe3 sehen.

Skysnake

2014-11-16, 09:52:59

-_-

Mal ne kleine Aufstellung (http://top500.org/featured/top-systems/), wer denn so den Top1 Rechner gestellt hat bisher

USA 9
Japan 7
China 2

Und da ist jetzt also gerade Japan also auf keinen Fall dafür predestiniert einen neuen Anlauf auf die TOP500 zu nehmen... Ja ne is klar.... Genug zu tun haben die auch eh immer mit ihren Umweltvorhersagen und auch der wiedereinstieg in die Kernenergie bietet genug Bedarf für neue Simulationen über die Sicherheit der Anlagen usw usw.

Und China muss man eh ganz oben hin setzen. China hat sich zum Ziel gesetzt, die dominierende Kraft im HPC-Bereich zu werden, ja allgemein in der IT. Sie wollen unabhängig von den USA werden, und das ist eine rein politische Entscheidung. Da stehen also die Big Goverment-Dollar dahinter, und im Gegensatz zu den USA, die auf Pump noch und nöcher leben, hat China auch wirklich Geld wie Heu.... Schau dir mal an, was die für Fertigungsanlagen für manche Unis hingestellt haben. Das ist absolutes Highend, und steht den Unis mehr oder weniger frei zur Verfügung, soweit ich das mitbekommen habe. Die schwimmen quasi in Geld und Möglichkeiten, rein die Leute um das auch produktiv umzusetzen fehlen noch. Und die Betonung liegt auf noch.

Und zur EU sage ich mal nur DEEP (http://www.deep-project.eu/deep-project/EN/Home/home_node.html) und DEEP-ER (http://www.deep-er.eu/)...

Da sind paar hundert PFlops natürlich völlig ausgeschlossen in den nächsten Jahren, wenn man für Exascale forscht :rolleyes:

Drogenbaron

2014-11-16, 11:50:40

Mal ne kleine Aufstellung (http://top500.org/featured/top-systems/), wer denn so den Top1 Rechner gestellt hat bisher

USA 9
Japan 7
China 2
Womit somit nur noch Japan neben China als Konkurrenten um den Platz1 gelten können.

Hast du außer deinem unsachlichen Geblubber noch konkrete Ankündigungen/Hinweise auf einen neue Supercomputer bis 2017 in diesen Dimensionen?

Skysnake

2014-11-16, 12:08:59

Wie wäre es mal mit lesen statt mich dumm von der Seite an zu machen?

Exascale ist als Zielsetzung für round about 2020 angesetzt. DEEP und DEEP-ER sind Projecte, die sich genau darum drehen. Aktuell ist der schnellste Rechner in Europa der Schweizer Piz Daint mit 7,7889 PFlops und danach der JUQUEEN in Jülich mit 5,872 PFlops.

Man wird also aufgrund des Exascale Projekts, also mal eben einen Faktor 128-170 im Vergleich zu den atkuellen Systemen hinlegen, anstatt vorher mal ein "kleines" System mit nur ein paar hundert PFlops hin zu stellen.... Exascale Systeme will man ja definitiv mittelfristig haben, ansonsten würde man nicht Millionen in deren Erforschung stecken, oder nicht?

Das ist reiner gesunder Menschenverstand, der einem sagt, das man auch Systeme mit einigen hundert Petaflops hinstellt, bevor man sich ein Exascale-System "gönnt". Die Frage ist nur wann genau, aber das Potenzial ist auf jeden Fall da. Insgesamt ist das auch eher die Frage des Wollens, denn des Könnens. Und das Europa durchaus gewillt ist, sieht man an den Projekten. Daher Sie so einfach von der Liste der Wettstreiter um Platz 1 zu streichen ist dumm.

Drogenbaron

2014-11-16, 12:13:33

Danke, dass du meine Frage indirekt beantwortet hast, dass es die Ankündigung für den schnellsten Supercomputer im Jahre 2017 ist.

Skysnake

2014-11-16, 13:48:12

-.-

Wieviele Ankündigungen zu Tianhe2, K oder der Earthmachine gab es denn Jahre zuvor???

Im Normalfall hat man meist keine Ahnung, was da genau kommt und kann daher auch immer mit Spannung auf die nächste Top500 warten. Das man 3, in Worten DREI Jahre im Voraus ankündigt, was man machen will, ist meinem Empfinden nach eher die große Ausnahme, denn die Regel. Damit lässt man nämlich ziemlich kräftig die Hosen runter, und ermöglicht es jedem anderen mit ziemlicher sichert planen zu können, was er abliefern muss, um einen zu schlagen.

Mich würde es überhaupt nicht überraschen, wenn China da 10-20% draufsattelt, und die USA nass macht, einfach nur, weil Sie es sich leisten können, und zeigen wollen, wer der Chef im Ring ist.

Genau das gleiche gilt theoretisch auch für die Russen. Man baut was noch schnelleres, als die Amis, nur um denen so richtig einen rein zu würgen. Da ist immer verdammt viel Politik mit im Spiel bei solchen Systemen.

Skysnake

2014-11-26, 18:04:21

Sodele, es gibt mal wieder etwas Neues, ca ab 3:30 (http://youtu.be/X4pcYBU2GBk)

Mellanox wird den Interconnect für die COREL Systeme übernehmen, also für die Systeme, die nVidia und IBM mit dem nVLink machen werden. Wer hätte das nur gedacht...

nullpunkt

2014-11-26, 19:04:47

i smell infiniband :D

mksn7

2014-12-04, 22:50:22

Genau genommen Dual Rail EDR Infiniband. In einem Full Fat Tree. Bei dem kleinen Node count kann man sich einen Fat Tree wohl wieder leisten.

Die meisten Einschaetzungen fuer Exaflop scheinen grad eher Richtung 2022 zu gehen.

In den Aufzeichnungen (http://www.nvidia.com/object/sc14-technology-theater.html) der Presentationen am nvidia booth auf der SC gibts auch ein paar Videos zu den Coral Systemen. Dort auch auffindbar ( "Best practices for designing Many GPU clusters") die Information, dass NVLink aus 4 Links mit jeweils 20GB/s besteht, Skysnakes Ueberschlagsrechnung ist also genau korrekt. Das duerfte die Geschwindigkeit fuer die erste Generation in Pascal sein.

Meine Spekulation zum Coral Node Layout: die 40 TFlop/s pro node teilen sich auf 8 GPUs mit 5TFlop/s auf. Jeweils 4 GPUs sind untereinander mit jeweils einem Link verbunden. Jede vierer Gruppe ist dann noch mit einem Link pro GPU mit einem von zwei Sockeln verbunden. Macht genau vier Links pro GPU und Sockel. Alternativ sind es vier Sockel mit jeweils zwei Links zwischen zwei GPUs und und einem Sockel. Macht auch jeweils vier.

Troyan

2015-03-17, 18:42:21

Irgendwer wird bestimmt die Folien haben, daher kurz das von der Präsentation:
~800GB/s
32GB
48 - 56 GFLOPs/ Watt in Single-Precision.

fondness

2015-03-17, 18:49:35

http://s9.postimg.org/3krkwx95b/NVIDIA_2015_2018_Roadmap_Pascal_900x449.png (http://postimage.org/)

AnarchX

2015-03-17, 18:57:31

Mixed Precision - 8 bis 64-Bit?

fondness

2015-03-17, 18:59:09

NV sagt was von 4xFP16

http://s10.postimg.org/r9e7g3otl/Pascal_10x_Maxwell_900x304.png (http://postimage.org/)

AnarchX

2015-03-17, 19:04:59

Also Anleihen von X1. Es gab auch schon Paper von Intel die ALUs mit 8-Bit Mode beschrieben.

boxleitnerb

2015-03-17, 19:06:45

Könnte jemand bitte die Folie, die fondness gepostet hat, mal für den Laien beschreiben?

Unicous

2015-03-17, 19:10:22

Die Folie ist wohl eher ein schlechter Scherz bezugnehmend auf das Deep Learning Gedöns, das vorher besprochen wurde. Jensen hat es auch als "CEO-Math" angekündigt. Man muss es nicht ernstnehmen Deswegen auch der "very rough estimates" Disclaimer.

Ich habe schon bessere Fips Asmussen Witze gehört.:wink:

AnarchX

2015-03-17, 19:11:58

Könnte jemand bitte die Folie, die fondness gepostet hat, mal für den Laien beschreiben?

Pascal kann seine ALUs für 16-Bit Berechnungen splitten, wie es schon X1 und IMGTecs Series 7 kann. Bei aktuellen GPUs werden da die 32-Bit ALUs beschäftigt und der Durchsatz sinkt.

Unicous

2015-03-17, 19:15:24

Er hat eben noch mal (ungefähr) gesagt: Pascal is going to be 10x faster than Maxwell... in Deep Learning[]" das letzte Wort ist mir entfallen, vllt. war es workloads oder auch performance.

Das mit Mixed Precision finde ich noch ein wenig fishy. Aber klar dass er gerade das nicht näher ausführt.:rolleyes:

Troyan

2015-03-17, 19:17:01

Was soll daran "fishy" sein? Wie Tegra X1 können die ALUs zwei FP16 MADs ausführen anstelle von einer FP32 MAD Operation.

Ailuros

2015-03-18, 06:27:50

Pascal kann seine ALUs für 16-Bit Berechnungen splitten, wie es schon X1 und IMGTecs Series 7 kann. Bei aktuellen GPUs werden da die 32-Bit ALUs beschäftigt und der Durchsatz sinkt.

Es ist kein splitting auf Rogue sondern dedizierte FP16 ALUs und das seit Serie6. Der Nachteil ist dass es etwas mehr in die area kostet, der Vorteil dass man weniger als die Haelfte vom Strom einer FP32 Einheit verbraucht; dass man FP16 und FP32 nicht parallel ausfuehren kann auf Rogue ist eine Limitierung der fehlenden Logik im front end dafuer. Bei ULP SoC GPUs waere es auch absurd, da es hauptsaechlich ums Strom sparen bei diesen geht.

Was soll daran "fishy" sein? Wie Tegra X1 können die ALUs zwei FP16 MADs ausführen anstelle von einer FP32 MAD Operation.

Stimmt so fuer die X1 GPU aber NUR unter Bedingungen; 2*FP16 ist auf dieser nicht immer moeglich. Pascal wird wohl hoffentlich diese Limitierungen nicht haben.

Er hat eben noch mal (ungefähr) gesagt: Pascal is going to be 10x faster than Maxwell... in Deep Learning[]" das letzte Wort ist mir entfallen, vllt. war es workloads oder auch performance.

Das mit Mixed Precision finde ich noch ein wenig fishy. Aber klar dass er gerade das nicht näher ausführt.:rolleyes:

Ich zumindest hatte guten Grund zu feiern als NVIDIA die X1 GPU angekuendigt hatte; es war ein ziemlich grosser Tritt in die Fresse der NV fanboys @B3D die bis dahin kreischten dass FP16 Bloedsinn sei, dass IMG damit bescheisst oder weiss wer welchen Bloedsinn. FP16 ist ein genereller Trend der simultan im ULP und desktop Markt wieder eintrat um hoeheren Durchbruch zu erreichen wo immer man nicht mehr als FP16 braucht. AMD und Intel waren zuerst da im desktop und IMG im ULP.

Es gab auch aehnliche Reaktionen hier von moechtegern Experten, aber ich hoffe dass ihnen die Schuhsohlen auch schmecken, da alles andere als FP32 "absurd" klang.

NV sagt was von 4xFP16

http://s10.postimg.org/r9e7g3otl/Pascal_10x_Maxwell_900x304.png (http://postimage.org/)

Ich wuerde ja liebend gerne darueber spekulieren, aber wenn ich schon die footnote rechts sehe "very rough estimates" vergeht mit die Lust schnell :P

***edit: Ryan war schneller :P https://forum.beyond3d.com/posts/1832120/

Dural

2015-03-18, 09:00:25

kann gelöscht werden.

Dural

2015-03-18, 09:01:09

steht hier ja noch nirgends?

PNY nennt für Pascal in dringender Erwartung bereits optimistisch einen ungefähren Termin rund um den Jahreswechsel 2015/2016, in Nvidias aktualisierter Roadmap sieht es jedoch weiterhin eher nach Mitte 2016 aus.

http://www.computerbase.de/2015-03/pny-nvidia-quadro-m6000-hat-zu-wenig-speicher/

da kommt wohl früher als gedacht irgend ein kleiner Pascal GPU, ähnlich wie bei Maxwell GM107

Ailuros

2015-03-18, 10:28:22

Wenn frueh im H2 15' NV mit kleineren 16FF GPU chips ankommt dann sehen die Chancen relativ gut aus dass sie Pascal schon so frueh wie Anfang 2016 liefern koennen. In jeglichem anderen Fall kommen ab Q4 die ersten kleineren 16FF GPU chips und Pascal dann eventuell irgendwo H2 16'.

Mancko

2015-03-18, 11:01:49

Ailuros

2015-03-18, 11:06:31

Ich vermute mal, dass sie zuerst versuchen werden das Quadro/Tesla Segment zu bedienen und ggf. noch die ein oder andere Low-end Mid-Range Version für den Consumermarkt. High End Gaming wird etwas länger warten müssen.

Dass schon mit Sicherheit ueberhaupt um GK210 so schnell wie moeglich abzuloesen, aber die Pascal Massenproduktion haengt doch wohl eher von den yields/Kapazitaeten der foundry ab. Je frueher die ersten FinFET GPU chips erscheinen desto naeher duerfte Pascal als chip anliegen.

Mancko

2015-03-18, 11:14:52

Dass schon mit Sicherheit ueberhaupt um GK210 so schnell wie moeglich abzuloesen, aber die Pascal Massenproduktion haengt doch wohl eher von den yields/Kapazitaeten der foundry ab. Je frueher die ersten FinFET GPU chips erscheinen desto naeher duerfte Pascal als chip anliegen.

Das stimmt. Allerdings könnte man für das Profi Segment auch ein paar Yield Abstriche in Kauf nehmen und den Rest für den Consumer Markt als irgendwelche Salvage Gurken vorab sammeln. Ist ja nicht so, dass im Profi Segment jeder Euro Herstellungskosten zählt und Nvidia nicht kreativ bei der Namensfindung für die Salvage Genossen ist. Aber klar am Ende hängst wie immer an den Foundries. Aber das gilt ja für beide IHVs. Da haben beide mit den gleichen Vor- und Nachteilen zu kämpfen.

Auf jeden Fall ist im Profi Segment am ehesten Handlungsbedarf. Im Consumer Segment hat Nvidia noch Zeit. So schnell brennt da nix an. Da sind sie sehr gut im Rennen und so schnell wandern Marktanteile dort nicht, vor allem nicht von Nvidia nach AMD. Umgekehrt geht es meisst schneller. Ich würde da höchstens nochmal alà dem ersten Maxwell Chip ganz unten anfangen und irgendwas bringen, was sich von den APUs absetzt und gut im Notebook Segment zu verkaufen ist.