nVidia - GK2xx-GPUs? - GK208 / GK210 mit SM_37 - Tesla K80 [Archiv]

AnarchX

2012-11-08, 08:04:46

GK210:
GK210?
Wird offenbar in CUDA 6.0 im Zusammenhang mit der Compute Capability 3.7 genannt, welche einen shared Memory von mindestens 80KByte fordert (Bei 3.0-3.5 Kepler waren es maximal 48Kbyte):http://forum.beyond3d.com/showpost.php?p=1827639&postcount=937

http://forums.laptopvideo2go.com/topic/30763-v33259-windows-8-32bit-nvidia-mobile/

Die NVCUDA.dll dieses Treibers kennt auch einen GK210.
GK180 wird auch explizit genannt. War das vielleicht doch ein eigenes Design und nicht nur ein GK110-B?

Aber der Eintrag dort bedeutet in der Tat wohl nicht viel, wie man an anderen nie erschienen GPUs dort sieht: GT212, GT214, GT206...

Wohl nicht nur Simulationen, wenn die Chips als Fracht in Indien waren:

7-Apr-2014 84733010 GRAPHICS PROCESSOR INTEGRATED CIRCUITS, GK210-INT5156-A1 Taiwan Banglore Air Cargo NOS 8 218,650 27,331
2-Apr-2014 84733010 GRAPHICS PRECESSOR INTERGRATED CIRCUITS, TE GK210-885-A1 United States Banglore Air Cargo NOS 8 166,641 20,830
https://www.zauba.com/import-gk210-hs-code.html

S-BGA-2397-080-GK180/GK210-DAV, 215190-000
L-CLAMSHELL-GK110/GK180/GK210, 212928-000

https://www.zauba.com/import-gk180-hs-code.html

"GK210-885-A1" deutet weder auf ein Qual./Eng. Sample hin, sondern auf eine SKU-Version die auf einer Quadro/Tesla-Karte verbaut werden wird.

Das könnte wohl ein Anhaltspunkt zur HPC-Eignung von GM204 geben und die Notwendigkeit von GK210 erklären:

GPU Architecture | FLOPS / Watt| Timeline
GK110| 12 | Current
GK210| 14 | Summer 2014
GM200 | 25| End of 2014
GP100| 35| Beginning of 2016

Aus diesem Paper: http://arxiv.org/abs/1407.4698
Daran hat auch jemand von NV mitgeschrieben.

GK208:

http://videocardz.com/35578/nvidia-working-on-kepler-gk208-gpu

Update:
Nvidias Kepler-GPUs nicht vollständig zu DirectX 11.1 kompatibel (http://www.heise.de/newsticker/meldung/Nvidias-Kepler-GPUs-nicht-vollstaendig-zu-DirectX-11-1-kompatibel-1754119.html)
=> GK2xx mit vollem DX11.1-Support?

NVIDIA_DEV.1281 = "NVIDIA D15M2-05"
NVIDIA_DEV.1282 = "NVIDIA D15M2-20"
NVIDIA_DEV.1283 = "NVIDIA D15M2-10"
NVIDIA_DEV.1285 = "NVIDIA GK208-100"

NVIDIA_DEV.12A0 = "NVIDIA GK208"
NVIDIA_DEV.12AD = "NVIDIA GK208-ES"
NVIDIA_DEV.12AE = "NVIDIA GK208-CS1-C"
NVIDIA_DEV.12AF = "NVIDIA GK208-INT"
NVIDIA_DEV.12B0 = "NVIDIA GK208-CS-Q"
NVIDIA_DEV.12B1 = "NVIDIA GK208 INT"
http://www.geeks3d.com/forums/index.php/topic,3012.0.html

PCGH hat D15M2-20/GK208 gesichtet: http://www.pcgameshardware.de/GTC-Event-257049/News/Logan-Entwickler-Plattform-Kayla-mit-Titan-Technik-und-bislang-geheimer-Kepler-GPU-D15M2-20-1061349/

384SPs auf 2 SMX und laut Nvidia wohl Cuda 3.5, also das volle GK110 Feature-Set.

GK208: 384SPs, 64-Bit(max?), ~90mm² (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9716235#post9716235)

V2.0

2012-11-08, 08:09:26

Wohl eher GK108...

Ailuros

2012-11-08, 08:18:14

Wohl eher GK108...

Ich hab nicht den blassesten Schimmer ueber Codenamen von chips der kommenden GPU Familie. Ich weiss nicht mal wo zuerst der angebliche "GK114" zuerst aufgetaucht ist, aber wenn ich bedenke dass die "1" bei GK110 fuer die zusaetzlichen HyperQ/dynamic parallelism Faehigkeiten steht, macht es mir persoenlich mehr Sinn dass die Refresh Linie GK204, GK206, GK208 genannt wird als GK114, 116 usw.

Mit Maxwell hat GK2xx auf jeden Fall nichts zu tun IMHO. Wenn sie an der bisherigen Logik nichts aendern wird es dann eher GMxxx sein.

AnarchX

2012-11-08, 08:22:11

V2.0

2012-11-08, 08:23:09

Ailuros, Du hast Recht, das würde Sinn machen.

Aber im NV line-up fehlt halt noch der 1:1 Ersatz von GF108/119 und da würde imho auch die Zeitschiene passen.

Ailuros

2012-11-08, 08:43:38

Ein GK108 (192SPs, 64-Bit) sollte sich wohl langfristig durchaus lohnen. Der Bedarf an GraKas auf Basis von GF119/GF108 ist wohl durchaus noch vorhanden.

Für eine "2" nach dem GK sollte es aber schon größere Architekturveränderungen geben.

So in etwa wie G80 vs. GT200? Wenn es im Gegensatz GK11x waere, wuerde ich nach bisheriger NV Logik (und ja das Zeug mit der "1" in der Mitte kommt direkt vom Maul des Loewen) auch HyperQ/dynamic parallelism in GK114 und co erwarten.

Es muss durchaus nicht so sein, aber mir erscheint eben momentan 20x logischer als 11x fuer alles <GK110.

V2.0

2012-11-08, 08:53:50

G -Chipserie - Version - HyperQ - Größe. Würde Sinn machen.

GK114 ist afaik definitiv falsch. Mir ist eher ein GK104v2 ins Ohr gelegt worden, aber dazu würde GK204 extem Sinn machen.

Hübie

2012-11-08, 09:11:56

Ausschließen kann man es nicht. Plausibel erklären bedingt. Beweisen momentan gar nicht ;D Mal sehen was die treiben.
GK114 wurde durch eine News von SA (glaub ich)auf den Weg gebracht, welche GK11* auf einem Bild hatte. Es wurde behauptet es ist kein GK110. Eher 112 oder 114. Nun ja...

Ailuros

2012-11-08, 09:15:16

Ich verstehe sowieso ganz den Sinn der Tabelle auf videocartz, aber die spekulieren so manchen Scheiss zusammen wenn der Tag lang ist:

http://videocardz.com/nvidia/geforce-700/geforce-gt-740
http://videocardz.com/nvidia/geforce-700/geforce-gtx-750

Maxwell GM106@22nm und sogar GF700? *boing* :freak:

We were all convinced that the next flagship GPU of GeForce 700 Series would be GK110 or GK114.

Oder GK208, GK108 oder sonst irgend etwas anderes.....

If the GK208 really exists then the whole line-up should consist of GK2xx silicones.

No shit sherlock.

This however doesn’t stop us from speculating. We can assume that NVIDIA might somehow modify the GK110 for consumer and rename it to GK114, GK204, GK210 or GK214.

*heul* *jaul*

Meine eigene Spekulation anhand von dem GK208 Bild:

High end = GK110
Performance = GK204
Mainstream = GK206
Low end = GK207
Budget = GK208

boxleitnerb

2012-11-08, 09:42:43

Sollte da nicht mal irgendein Tapeout stattgefunden haben so langsam? Oder will man wieder 3 Monate (oder mehr?) nach AMD launchen? Man hört ja rein gar nichts, nichtmal Gerüchte über ein Tapeout.

Hugo78

2012-11-08, 10:00:36

Sollte da nicht mal irgendein Tapeout stattgefunden haben so langsam?

Wozu ein Tapeout Gerücht?
Gab es ein passendes Tapeout Gerücht für GF110 damals?! Nö.

Oder will man wieder 3 Monate (oder mehr?) nach AMD launchen?

NV bringt Chips sobald es sich lohnt, egal was AMD für Stunts hinlegt.

Man hört ja rein gar nichts, nichtmal Gerüchte über ein Tapeout.

Und wo sind die vielen Gerüchte über AMD Tapeouts zur HD8k? :confused:

boxleitnerb

2012-11-08, 10:09:33

Der Tapeout von Sea Islands (wohl die ganze Serie?) wurde schon vor Monaten bestätigt.

Bei 3-4 GPU-Tapeouts für den Refresh sollte man doch irgendwas hören denke ich. Was meinst du mit "sobale es sich lohnt"? Glaubst du nicht auch, Nvidia hätte liebend gerne gleich ein volles Lineup gelauncht im März? Sie konnten nicht wegen den Kapazitätsproblemen, die jetzt hoffentlich Geschichte sind.

Hugo78

2012-11-08, 10:19:26

Sie konnten nicht wegen den Kapazitätsproblemen, die jetzt hoffentlich Geschichte sind.

Ehmmm, wie hoch lag der Anteil von 28nm bei TSMC vor einem Jahr und wie hoch ist er jetzt?
Damals 2-3%, heute um die 8%, so jedenfalls ist mein letzter Stand.
Apple und Qualcomm dürfen sich davon viel gesichert haben,
und bei dem was NV eventuell zusätzlich hat, sollten Tegra 4 und GK110 in nächster Zeit Priorität haben...

Black-Scorpion

2012-11-08, 10:19:32

NV bringt Chips sobald es sich lohnt, egal was AMD für Stunts hinlegt.
Du kannst ja mal bei AMD nachfragen ob sie nicht in Zukunft warten können bis NV auch endlich aus dem Arsch kommt.

Skysnake

2012-11-08, 10:22:59

Ich hab nicht den blassesten Schimmer ueber Codenamen von chips der kommenden GPU Familie. Ich weiss nicht mal wo zuerst der angebliche "GK114" zuerst aufgetaucht ist, aber wenn ich bedenke dass die "1" bei GK110 fuer die zusaetzlichen HyperQ/dynamic parallelism Faehigkeiten steht, macht es mir persoenlich mehr Sinn dass die Refresh Linie GK204, GK206, GK208 genannt wird als GK114, 116 usw.

Mit Maxwell hat GK2xx auf jeden Fall nichts zu tun IMHO. Wenn sie an der bisherigen Logik nichts aendern wird es dann eher GMxxx sein.
Charlie hatte doch auch mal etwas von einer GKX104 gequatscht.

Im Prinzip ist es aber eh total fürn Poppes. Ob da jetzt GK114, GKX104, GK204 oder Schweinchenrüssel draufsteht ist doch total Jacke wie Hose :rolleyes:

boxleitnerb

2012-11-08, 10:27:06

Ehmmm, wie hoch lag der Anteil von 28nm bei TSMC vor einem Jahr und wie hoch ist er jetzt?
Damals 2-3%, heute um die 8%, so jedenfalls ist mein letzter Stand.
Apple und Qualcomm dürfen sich davon viel gesichert haben,
und bei dem was NV eventuell zusätzlich hat, sollten Tegra 4 und GK110 in nächsters Zeit Priorität haben...

GK110 braucht sicher nicht soviele Wafer wie die Mainstream- und Lowend-GPUs, das sollte klar sein. Und bis zum Beginn der Massenproduktion ist ja auch noch Zeit, zwischen Tapeout und Release liegen ja üblicherweise 6 Monate.

Sagen wir mal so:
Wenn Nvidia in der ersten Jahreshälfte 2013 nur mit GK110 antanzt und ihre anderen Chips umlabelt, während AMD durch Designänderungen vielleicht nochmal 15% mehr Performance und Performance/W rausholt, wäre das nicht gerade prickelnd.

Hugo

2012-11-08, 12:14:44

GeForce GTX 780 — would feature between 1728 and 2112 CUDA cores.

das hört sich aber nicht nach GK110 an für die GTX 780 :confused:

Hugo78

2012-11-08, 12:31:36

GK110 braucht sicher nicht soviele Wafer wie die Mainstream- und Lowend-GPUs,
Ja dann bleibt immernoch Tegra 4 und überhaupt, TSMC hat es doch selber gradnoch gesagt, dass die Nachfrage höher als ihre Kapazitäten sind.
Im bevorstehenden dritten Quartal des Jahres wird die Nachfrage nach 28-nm-Chips das Angebot seitens des Auftragsfertigers Taiwan Semiconductor Manufacturing Co. (TSMC) weiterhin deutlich übersteigen, gab ein Sprecher des Konzerns bekannt.
- http://www.computerbase.de/news/2012-06/tsmcs-28-nm-produkte-noch-bis-ende-des-jahres-knapp/

Sagen wir mal so:
Wenn Nvidia in der ersten Jahreshälfte 2013 nur mit GK110 antanzt und ihre anderen Chips umlabelt, während AMD durch Designänderungen vielleicht nochmal 15% mehr Performance und Performance/W rausholt, wäre das nicht gerade prickelnd.

Gk110 wird 70er - 90er Namen besetzen, GK104 wandert ins 50-60er Segment, kleinere Keplers ect. pp.
Und es sagt ja keiner, dass NV bei GK104 ect. einfach die Hände in den Schoß gelegt hat seit Release.
Da wird es sicher noch Optimierungenpotential geben.

Gaestle

2012-11-08, 12:38:07

G -Chipserie - Version - HyperQ - Größe.

Ich würde es dann eher "G -Chipserie - Version - HyperQ - Marktsegment/Zielmarkt" interpretieren.

Thunder99

2012-11-08, 12:58:56

das hört sich aber nicht nach GK110 an für die GTX 780 :confused:
Wilde Spekulation, daher denke ich wird es wenn überhaupt ein aufgebohrter GKx04 sein.

Andererseits wenn sie es sich leisten können ein only Profi Grafikkarte zu launchen + extra ein komplettes Gaming Lineup dann müsste sich ja der GK110 ja richtig gut verkaufen ;). Sehe das eher als unwahrscheinlich an.

7gbit GDDR5 Chips @ 256bit und schon kannste mehr als 13xx Shader gut ausnutzen was eine leichte DIE-Size Erhöhung beudetet

boxleitnerb

2012-11-08, 13:09:31

Wenn es tatsächlich nur ein Aufguss von GK104 wäre, sollte man sich doch langsam überlegen, ein 384-bit Interface hinzubauen. Ja, der Chip wäre GK110 recht ähnlich usw., aber man könnte den ganzen Profikram weglassen (DP, HyperQ, Dyn. P. etc) und noch ist ja noch gar nicht völlig klar ob GK110 im Desktopbereich kommt.

Ich würds mir wünschen, denn mit einem GK204@256bit würde man dann bei hohen Auflösungen und MSAA wieder 20% oder mehr zurückliegen. Da gibt es inzwischen ja schon einige Fälle, und weniger werden die wohl eher nicht.

Dadurch, dass man jeden GK110 auf Tesla verbauen kann, statt ihn für 500 Dollar zu "verscherbeln" und für die GTX780 noch vielleicht 30% Fläche zu sparen (z.B. 380mm2 vs 550mm2) dürfte sich bei hohen Stückzahlen auf lange Sicht doch sicher auch lohnen bzw. auf Null rauskommen, oder?

Gaestle

2012-11-08, 13:42:55

Es wurde schon mehrfach diskutiert, inwieweit es für NV wirtschaftlich sinnvoll wäre, GK110 NICHT für Desktop zu bringen, aber die Skeptiker waren meist in der Mehrheit.

BTW:
2112 CUDA Cores = 11 x 192
1728 CUDA Cores = 9 x 192

Aber ich kann mir nicht vorstellen, dass die Yields immer noch SO schlecht sind, dass das notwendig wäre.
Wo bliebe denn da der Abstand zu GK104 und 7970, wie es eben bei Mainstream/Enthusiast vs. HighEnd üblich ist?

Oder sind das GPUs im GHz-Bereich?

Eventuell sind das die Zahlen für den GK104-Nachfolger?

boxleitnerb

2012-11-08, 13:52:41

prinz_valium

2012-11-08, 13:56:25

Meine eigene Spekulation anhand von dem GK208 Bild:

High end = GK110
Performance = GK204
Mainstream = GK206
Low end = GK207
Budget = GK208

passt imho nicht ganz.
jedenfalls nicht, wenn man mehr als eine variante des chips benutzt

full gk110 = 780
salvage gk110 = 770

gk204 bedient dann ti 760, über 760 bis zur ti 750

dann bleibt da unten noch ganz ganz viel platz für 3 weitere chips

im schlimmsten fall spricht ein gk 208 dafür, dass auch diesmal kein gk110 für die geforce kommt, sondern eine reine refresh generation.
es wäre aber auch möglich, dass die yields zumindest gut genug für einen chip, mit z.b 13 smx on mass produzierbar, sein können und dieser dann der reine topdog gtx 780 wäre und gk204 ab der 770 anfängt.

würde dann vom abstand her auch gut zu den vermuteten 1.728 und 2.112 passen.

viel wichtiger ist doch die frage, ob der neue gk204 ein 384 bit speicherinterface bekommt, oder nicht. denn NUR dann könnte man das so machen und die performance abstände wären nicht zu eklatant.

p.s gk110 in full und salvage form im high end bereich wären mir persönlich aber auch am liebsten :)

V2.0

2012-11-08, 14:05:05

Rein die Diegröße von GK110 zwingt diesen Chip in eine eigene Liga. Wenn Sea Islands Tahiti + 15% ist, dann wäre wohl weit wirtschaftlicher einen GK204 dagegen zu stellen, als einen GK110 Part.

Ansonsten muss man einfach auch sagen, dass NV seine Leaks in den Griff bekommen hat, wenn es um Tape-Outs geht. NV kann imho mit seinen Refreshs warten, bis AMD vorlegt. TSMC ist sowieso der limitierende Faktor.

Duplex

2012-11-08, 14:20:58

Wenn GK110 60-70% schneller als GK104 wird & GK114 der Ersatz für die untere Liga darstellen soll, dann braucht man GK2xx jetzt wofür (neue Features)?

Ich denke an sowas
GTX780 (GK110: 2880 SMX Shader, 384 Bit SI, 3GB, 550mm²)
GTX770 (GK110: 2496 SMX Shader, 320 Bit SI, 2,5GB, 550mm²)
GTX760 (GK114: 2048 Shader, 256 Bit SI, 2GB, 350mm²)

Für Sea Islands braucht Nvidia dann vermutlich nur die GTX760 und die ist bestimmt kleiner als der AMD Chip und verbraucht weniger Strom :D

In GPGPU wirds dann lustig, die GTX770 wird AMDs Sea Islands sowas von absägen :lol:

Skysnake

2012-11-08, 14:36:16

das hört sich aber nicht nach GK110 an für die GTX 780 :confused:
Warum?

Das ist mehr als nen GK104 hat, und weniger als nen GK110. Also würde das durchaus passen. Zudem wäre eben die 13/14SMX Version im Profimarkt keiner Konkurrenz durch die GeForce ausgesetzt.

Wir hatten ja schonmal angesprochen, das nen Chip aus sehr vielen Gründen plötzlich die Leistungsaufnahme explodieren lässt. Mit 9-11 SMX müssten aber ziemlich sicher genug Chips für den Konsumermarkt abfallen. Da kannste dann sicherlich auch die Taktschraube etwas fester anziehen, einfach, weil man größere Chancen hat 9/11 gute SMX zu erwischen als bei 13/14.

Es wurde schon mehrfach diskutiert, inwieweit es für NV wirtschaftlich sinnvoll wäre, GK110 NICHT für Desktop zu bringen, aber die Skeptiker waren meist in der Mehrheit.

BTW:
2112 CUDA Cores = 11 x 192
1728 CUDA Cores = 9 x 192

Aber ich kann mir nicht vorstellen, dass die Yields immer noch SO schlecht sind, dass das notwendig wäre.

Und was wenn doch?
Wir hatten die Diskussion mit Ailuros ja schonmal, dass die Binning-Yields verdammt schlecht sein sollen, die Wafer-Yields aber nicht. Zumindest hab ich das jetzt am Ende aus der langwierigen Diskussion so mitgenommen :ugly:

Je nachdem wie groß der Lieferdruck bei nVidia für die HPC-Cluster ist, sind Sie eh dazu gezwungen auf teufel komm raus zu produzieren. Den Abfall kannste dann halt dem Konsumermarkt andrehen, was btw gar nicht so schlecht für nVidia wäre. Sie würden keinen all zu großen Abstand zu GK104 heraufbeschwören, könnten "Abfall" vergolden und hätten noch mehr als genug Platz für einen zweiten Refresh in 28nm.

Wo bliebe denn da der Abstand zu GK104 und 7970, wie es eben bei Mainstream/Enthusiast vs. HighEnd üblich ist?

Oder sind das GPUs im GHz-Bereich?

Eventuell sind das die Zahlen für den GK104-Nachfolger?
Glaub ich eher nicht. GK104 leidet eh schon etwas am 256Bit Interface, da willste dann nicht noch mehr draufsatteln, und nen 384 Bit Interface macht auch keinen Sinn, da ist man dann wieder zu stark in der Konkurrenz mit dem GK110.

So passts eigentlich recht gut. Man liegt vorne und kann halt die Wafer-Ausbeute unterm Strich schön nach oben treiben.

Ich kann mir nicht vorstellen, das viele Chips die 9/11 SMX nicht schaffen. Da sollten schon sehr viele der überhaupt funktionsfähigen Chips das schaffen.

Btw. Mit der Konstellation sollte man auch davon ausgehen, das dann NUR die GTX780 oder ne GTX78x (Ultra) mit GK110 kommt, und dann ab GTX770 schon der GKx04. Damit würde nVidia auch das Gesicht wahren. Wenn GKx04 direkt auf die GTX760 abrutscht, dann würde das bei vielen schon schlecht ankommen. Da frägt man sich als Kunde dann nämlich schon, warum man sooo fucking viel Geld für so ne Karte auf den Tisch gelegt hat..

passt imho nicht ganz.
jedenfalls nicht, wenn man mehr als eine variante des chips benutzt

full gk110 = 780
salvage gk110 = 770

gk204 bedient dann ti 760, über 760 bis zur ti 750

dann bleibt da unten noch ganz ganz viel platz für 3 weitere chips

Du vergisst, das es in der GTX700er Serie mit an Sicherheit grenzender Wahrscheinlichkeit KEIN Vollausbau der GK110 geben wird!

Wie oben gesagt, spricht das hier genannte, sofern es überhaupt stimmt..., dafür, das es eben nur eine Karte gibt, die auf GK110 setzt.

im schlimmsten fall spricht ein gk 208 dafür, dass auch diesmal kein gk110 für die geforce kommt, sondern eine reine refresh generation.
es wäre aber auch möglich, dass die yields zumindest gut genug für einen chip, mit z.b 13 smx on mass produzierbar, sein können und dieser dann der reine topdog gtx 780 wäre und gk204 ab der 770 anfängt.

würde dann vom abstand her auch gut zu den vermuteten 1.728 und 2.112 passen.

Na, da kommste ja auch auf die Idee ;)

Wie gesagt, vergiss das mit dem Vollausbau von GK110.

viel wichtiger ist doch die frage, ob der neue gk204 ein 384 bit speicherinterface bekommt, oder nicht. denn NUR dann könnte man das so machen und die performance abstände wären nicht zu eklatant.

p.s gk110 in full und salvage form im high end bereich wären mir persönlich aber auch am liebsten :)
Ganz sicher nicht! Da musste zu viel am Chip ändern, und du brauchst ja auch die Ränder, um die I/O-Zellen erstmal unter zu bekommen. Untr den IO-Zellen ist der chip nämlich tot! Da kannste nicht runter durch routen. Daher sitzt das Zeug ja auch immer am Rand :rolleyes:

Der Rand von GK104 ist aber schon voll. Dü müsstest also noch einiges an Einheiten dazu packen, um genug DIE-Size für genug Rand zu bekommen. Dann biste aber zu schnell wieder im Bereich von GK110....

Ergo vergessen wir das lieber wieder ganz schnell ;)

Gipsel

2012-11-08, 14:44:35

In GPGPU wirds dann lustig, die GTX770 wird AMDs Sea Islands sowas von absägen :lol:Abwarten. DP wird von nV bei den Consumer-Varianten sowieso wieder kastriert und dann muß GK110 erstmal zeigen, was er wirklich kann. Bisher sieht es für die Kepler-Generation ja nach einigem Nachholbedarf in diesem Bereich aus und auch GK110 vergrößert beispielsweise die Registerfiles und auch die Größe des shared Memory nicht. Dort bleibt man GCN weiterhin (z.T. deutlich) unterlegen.
Immer von der Hardware-Seite gesprochen natürlich.

prinz_valium

2012-11-08, 14:47:51

[...]

also wäre das dann

gk110 (möglicherweise sogar nur 12smx, falls die binnig yields wirklich so schlecht, die wafer aber gut genug, sind und das andere für den hpc markt bleibt) = gtx 780 mit 384 bit interface

gk204 (9-11 smx) für gtx 770, 760ti und 760 mit 256bit interface

könnte gut passen.
für mich persönlich aber nicht, da ich dann zum togdog greifen müsste, und nicht wie sonst immer dessen salvage part nehme. dort ist das p/l immer so schön. ich will doch nicht auf die ganze bandbreite verzichten :D

edit:
Die werden wohl kaum den GK110 ein 3.mal auflegen in Form der GTX8xx :confused: , daher könnte es schon eine 15smx Geforce geben.
wer weiß, wann 20nm bei tmsc ready ist? mit glück anfang 2014 mit pech aber auch erst gegen ende?

also ich würde denen das zutrauen. und von 12/13 smx auf 15 wäre die steigerung immerhin recht groß.
wobei eine sache natürlich dagegen spricht. man müsste die chips mal eben so über ein jahr lager und im grunde hätte man dann einen fast 2 jahre alten chip, den man als neu und topaktuell verkauft :D

Thunder99

2012-11-08, 14:50:41

Die werden wohl kaum den GK110 ein 3.mal auflegen in Form der GTX8xx :confused: , daher könnte es schon eine 15smx Geforce geben.

boxleitnerb

2012-11-08, 14:52:31

Was spricht dagegen, den GK110-Abfall im Quadromarkt unterzubringen? Oder in kleineren K20 (K18, 17, 16?)?

Gipsel

2012-11-08, 14:54:05

Was spricht dagegen, den GK110-Abfall im Quadromarkt unterzubringen? Oder in kleineren K20 (K18, 17, 16?)?
Gar nichts. Hat man bei Fermi in Bezug auf die Quadros ja auch so gemacht, z.B mit der Quadro5000 (11/16 SMs aktiv, 320 Bit Speicherinterface) oder der Quadro4000 (nur noch 8 SMs aktiv, also die Hälfte deaktiviert und auch nur noch 256 Bit Interface).

Skysnake

2012-11-08, 15:00:02

Für den Quadromarkt haste aber schon K10.

Keine Ahnung, ob sich da GK110 überhaupt sooo stark eignet. Wenn wird man auf den großen Speicher scharf sein.

Von daher tut da auch keine Not dran, ne Karte mit weniger SMX zu bringen.

Gipsel

2012-11-08, 15:09:18

Für den Quadromarkt haste aber schon K10.
Die Keplervariante heißt Quadro K5000 mit einem einzelnen, voll ausgefahrenen (bis auf den Takt, es ist aber nichts deaktiviert) GK104. Da ist noch der 6000er Spot frei (Quadro 6000 ist das bisherige Topmodell mit einem GF100/110 mit 14 SMs, wenn man vom QuadroPlex 7000 absieht [extra Gehäuse mit 2 vollen GF110 auf 2 Karten]).

Godmode

2012-11-08, 15:35:06

Ich denke wenn die Fertigung endlich besser ist spricht überhaupt nichts gegen einen 15 SMX Chip und wenn es auch nur eine Ultra Edition ist, falls die Binning Yields für 15er wirklich extrem schlecht sind.

Gaestle

2012-11-08, 15:51:13

Die Frage ist halt, ob bzw. ab wann es sich lohnt. Ich hab zwar absolut keinen Plan, was GK110 und ein hypothetischer 350-380mm2 GK204 in der Herstellung kosten/kosten würden, aber wenn man sagen wir mal $160 vs. $100 rechnet, dürfte da schon eine gute Ersparnis rauskommen. Wieviele GTX680/670 bzw. GTX780/770 würde man normalerweise verkaufen, so 500k+? Das wären ja schon ca. 25 Mio. Ersparnis nur bei der Fertigung eines GK204. Dann die hohen Margen von "nicht für den Desktop verschwendeten" GK110-basierten Karten und man landet bei vielleicht 40 Mio.

Alles Milchmädchen natürlich, aber es können imo schon beträchtliche Summen zusammenkommen.
Rein die Diegröße von GK110 zwingt diesen Chip in eine eigene Liga. Wenn Sea Islands Tahiti + 15% ist, dann wäre wohl weit wirtschaftlicher einen GK204 dagegen zu stellen, als einen GK110 Part.

Die Kosten für einen Chip kommen nur zu einem Teil aus der Fertigung selbst.
AFAIR hatte nV ca. 400 Mio$ reine F&E-Kosten für NV40 (= 6800er Serie). Diese Beträge werden inzwischen nicht kleiner geworden sein.

Andererseits: Im HighEnd-Markt werden sicherlich mehr als 500k Exemplare verkauft. Das 10-20 fache könnte ich mir schon vorstellen, damit würde dann auch die Kostenersparnis bei der Fertigung steigen. Die Frage ist, ob sich die Verteilung der Gesamtkosten "F&E vs. Fertigung" verschoben hat und was notwendig ist, um den F&E-Anteil zu refinanzieren.

Und: Zu NV40-Zeiten war HPC ja noch ein eher kleines Feld. Wenn Sie jetzt 100-200k Chips in HPC-Cluster zum HPC-Verkaufspreis stecken, sieht der HPC-Anteil zur Refinanzierung der F&E-Kosten auch wieder anders aus.

Beides spricht eigentlich dafür, dass ein Desktop-Verzicht doch finanziell machbar sein könnte. Ich hatte das aber schon vor Monaten hier irgendwo andiskutiert und musste einsehen, dass die Rechnung so wohl nicht aufgeht. Allerdings habe ich Kopp wie Sieb und deshalb die Gegenargumente vergessen. :freak:

Und skysnakes Post sollte man vielleicht auch nicht ignorieren. :)

Skysnake

2012-11-08, 16:09:01

Die Keplervariante heißt Quadro K5000 mit einem einzelnen, voll ausgefahrenen (bis auf den Takt, es ist aber nichts deaktiviert) GK104. Da ist noch der 6000er Spot frei (Quadro 6000 ist das bisherige Topmodell mit einem GF100/110 mit 14 SMs, wenn man vom QuadroPlex 7000 absieht [extra Gehäuse mit 2 vollen GF110 auf 2 Karten]).
Danke, Quadro vernachlässige ich sträflichst. Wusste jetzt nicht, dass K10 nur die Tesla Bezeichnung ist, da ich von den Quadros nichts gehört hatte.

:up:

Nen ziemlich beschnittener GK110 sollte eigentlich ausreichend sein.

boxleitnerb

2012-11-08, 16:09:42

Die Kosten für einen Chip kommen nur zu einem Teil aus der Fertigung selbst.
AFAIR hatte nV ca. 400 Mio$ reine F&E-Kosten für NV40 (= 6800er Serie). Diese Beträge werden inzwischen nicht kleiner geworden sein.

Andererseits: Im HighEnd-Markt werden sicherlich mehr als 500k Exemplare verkauft. Das 10-20 fache könnte ich mir schon vorstellen, damit würde dann auch die Kostenersparnis bei der Fertigung steigen. Die Frage ist, ob sich die Verteilung der Gesamtkosten "F&E vs. Fertigung" verschoben hat und was notwendig ist, um den F&E-Anteil zu refinanzieren.

Und: Zu NV40-Zeiten war HPC ja noch ein eher kleines Feld. Wenn Sie jetzt 100-200k Chips in HPC-Cluster zum HPC-Verkaufspreis stecken, sieht der HPC-Anteil zur Refinanzierung der F&E-Kosten auch wieder anders aus.

Beides spricht eigentlich dafür, dass ein Desktop-Verzicht doch finanziell machbar sein könnte. Ich hatte das aber schon vor Monaten hier irgendwo andiskutiert und musste einsehen, dass die Rechnung so wohl nicht aufgeht. Allerdings habe ich Kopp wie Sieb und deshalb die Gegenargumente vergessen. :freak:

Und skysnakes Post sollte man vielleicht auch nicht ignorieren. :)

Diese 400 Mio. teilen sich aber auch auf alle Karten auf, vom kleinsten Chip bis zum größten. Man kann sicher nicht konkret sagen, was für einen Anteil GK110 am F&E-Budget verschlungen hat, aber alles wirds sicher nicht sein. Die Chips sind ja alle miteinander verwandt, man muss nicht für jeden Chip das Rad neu erfinden.

Laut Jon Peddie Reserach wurden im Q4 2011 124 Mio. Grafikchips verbaut/verkauft. Davon fielen 15.7% auf Nvidia, also knapp 20 Mio. zu denen auch mobile Chips gehören. Da glaube ich nicht, dass die beiden Top-SKUs mehr wie 5% ausmachen, das wären 1 Mio./Quartal. Bis zur nächsten Generation wären es also ca. 8 Mio. Chips. Ja, da kommt schon einiges zusammen. Hab zu niedrig gegriffen.

Hübie

2012-11-08, 17:10:38

Sorry, aber:

http://www.abload.de/img/videocardz.come4ffo.png (http://www.abload.de/image.php?img=videocardz.come4ffo.png)

Wollen wir jetzt spekulieren oder rätselraten? Eine GK2xx schließe ich nicht aus, aber momentan gibt es noch nicht mal konkrete Zeichen der Kepler-"Nachfolger"... ich hab schon alles mögliche gelesen. Kepler 2 kommt im August als GK110 mit 16 SMX und 512 Bit. So. Dann packen wir da 240 Cuda-Cores rein und fertig ist das Gerücht ;D

AnarchX

2012-11-08, 17:12:11

Was haben die eigenen Spekulationen der Seite mit dem Screen-Shot aus einem Linked-In-Profil zu tun?

Aber wie schon gesagt, ist die Wahrscheinlichkeit hoch, dass es eher GFK108 sein sollte.

Hübie

2012-11-08, 17:16:26

Damit wollte ich nur klar machen dass die alles würfeln. Ihr macht euch viel zu viel Gedanken. ;)

Ailuros

2012-11-08, 18:38:52

Du kannst ja mal bei AMD nachfragen ob sie nicht in Zukunft warten können bis NV auch endlich aus dem Arsch kommt.

Nur befuerchte ich dass niemand am Telefon antworten wird, weil er wohl entlassen wurde :D

passt imho nicht ganz.
jedenfalls nicht, wenn man mehr als eine variante des chips benutzt

full gk110 = 780
salvage gk110 = 770

gk204 bedient dann ti 760, über 760 bis zur ti 750

dann bleibt da unten noch ganz ganz viel platz für 3 weitere chips

Hab ich was anderes behauptet bzw. spekuliert?

im schlimmsten fall spricht ein gk 208 dafür, dass auch diesmal kein gk110 für die geforce kommt, sondern eine reine refresh generation.
es wäre aber auch möglich, dass die yields zumindest gut genug für einen chip, mit z.b 13 smx on mass produzierbar, sein können und dieser dann der reine topdog gtx 780 wäre und gk204 ab der 770 anfängt.

Trocken: nein.

würde dann vom abstand her auch gut zu den vermuteten 1.728 und 2.112 passen.

:rolleyes:

viel wichtiger ist doch die frage, ob der neue gk204 ein 384 bit speicherinterface bekommt, oder nicht. denn NUR dann könnte man das so machen und die performance abstände wären nicht zu eklatant.

Nein.

also wäre das dann

gk110 (möglicherweise sogar nur 12smx, falls die binnig yields wirklich so schlecht, die wafer aber gut genug, sind und das andere für den hpc markt bleibt) = gtx 780 mit 384 bit interface

Nein. Ich will noch nichts oeffentlich sagen, aber diejenigen die selbst ein paar Fetzen an Indizien von dem Ding haben wissen wie "schlecht" es wirklich aussieht. Wenn die 780 jetzt nicht um 85% schneller ist als eine 580 sondern nur 80% ist es kein Weltungergang und ja die Prozentuale sind frei erfunden. Den Rest musst Du Dir schon zwischen den Zeilen herauslesen.

gk204 (9-11 smx) für gtx 770, 760ti und 760 mit 256bit interface

Der GK104 Nachfolger wird nicht besonders viel schneller sein als GK104. Und diese sterile SMX Erbsenzaehlerei ist auch nutzlos da GK104 ohnehin schon ueber 1GHz taktet eine Frequenz die ein GK110 wohl schwer erreichen wird.

könnte gut passen.
für mich persönlich aber nicht, da ich dann zum togdog greifen müsste, und nicht wie sonst immer dessen salvage part nehme. dort ist das p/l immer so schön. ich will doch nicht auf die ganze bandbreite verzichten :D

Wenn's nur so einfach waere :rolleyes:

boxleitnerb

2012-11-08, 19:30:16

Nein. Ich will noch nichts oeffentlich sagen, aber diejenigen die selbst ein paar Fetzen an Indizien von dem Ding haben wissen wie "schlecht" es wirklich aussieht. Wenn die 780 jetzt nicht um 85% schneller ist als eine 580 sondern nur 80% ist es kein Weltungergang und ja die Prozentuale sind frei erfunden. Den Rest musst Du Dir schon zwischen den Zeilen herauslesen.

Diese kleine Differenz würde gut zu 14 SMX statt 15 SMX passen. Also kann man wohl davon ausgehen, dass es 14 SMX werden, 15 vielleicht für eine Ultravariante.

Die 15er Parts wird man ja wohl nicht wegwerfen...

Black-Scorpion

2012-11-08, 19:30:29

Nur befuerchte ich dass niemand am Telefon antworten wird, weil er wohl entlassen wurde :D
Die Telefontanten sind am billigsten und werden sicher bleiben. Irgendwer muss ja dann abschließen. :biggrin:

Ailuros

2012-11-09, 07:59:50

Die Telefontanten sind am billigsten und werden sicher bleiben. Irgendwer muss ja dann abschließen. :biggrin:

Siehste ein Schuss Humor kommt stets besser an als sinnlose Sticheleien :wink:

Sonst zum Thema:

http://phx.corporate-ir.net/External.File?item=UGFyZW50SUQ9MTYxMjg3fENoaWxkSUQ9LTF8VHlwZT0z&t=1

Jensen behauptete im CC dass der Oak Ridge Titan deal ziemlich viel zum Profi-Umsatz beigetragen hat mit hohen Margen. Nun Jensen hat stets eine alberne Tendenz alles zu optimistisch zu malen, aber gegen die typische Schwarzmalerei von SA duerfte die Realitaet eher in der Mitte liegen.

V2.0

2012-11-09, 08:08:42

Der GK104 Ersatz wird eine solide Leistungssteigerung für einen Refresh eines gut funktionierenden Chips im gleichen Fertigungsverfahren bieten.

Was man sich abgewöhnen muss, ist das SMX zählen. SMX hat man eigentlich genug.

boxleitnerb

2012-11-09, 08:15:48

Sicher? Es heißt ja immer, dass man bei den hohen Auflösungen vergleichsweise schlecht abschneidet, weil die Rohleistung geringer ist. AMD hat nochmal 33% mehr Rechenleistung mit der GE, da ist also schon noch Platz für überproportionale Steigerungen.

Edit:
Wenn du GK204 oder wie er heißen soll meinst, ja, da bringts dann eher nix wegen der Bandbreite.

Ailuros

2012-11-09, 08:33:02

boxleitnerb

2012-11-09, 08:37:56

Na solange man den Aufbau so eines SMX nicht großartig verändert, bedeuten mehr SMX mehr ALUs und damit mehr Rechenleistung. So meinte ich das eigentlich.

Ailuros

2012-11-09, 09:17:40

Na solange man den Aufbau so eines SMX nicht großartig verändert, bedeuten mehr SMX mehr ALUs und damit mehr Rechenleistung. So meinte ich das eigentlich.

Nicht nur; im SMX hocken auch TMUs u.a. Der eigentliche Punkt ist dass ich auch bezweifle dass mehr SMXs auf dem GK104 Nachfolger besonders viel bringen wuerden. Nur ueber Frequenzen es zu loesen waere natuerlich Bloedsinn dank zu hohem Stromverbrauch, aber auf einem GK104 Geruest wird stets die Bandbreite als erste im Weg stehen.

Undertaker

2012-11-09, 10:01:00

Sooo schlecht skaliert die GTX 680 aber auch wieder nicht mit dem Chiptakt. Eine optimale Lösung wäre es sicherlich nicht, ~10 SMX sollten in Verbindung mit etwas schnellerem Speicher aber noch ganz brauchbar zur Mehrleistung beitragen - oder?

Ailuros

2012-11-09, 10:12:01

V2.0

2012-11-09, 12:22:05

AnarchX

2012-11-17, 20:33:32

nvcuda.dll exposes first life signs of Maxwell

CC 3.0 = K10?
CC 3.2 = ???
CC 3.5 = K20
CC 5.0 = Maxwell?
http://www.geeks3d.com/20121112/nvidia-r310-54-beta-graphics-drivers-for-windows/#comment-26221

GK2xx vielleicht mit Compute Capability 3.2? Fragt sich nur, ob dies Auswirkung auf Gaming-Workloads haben könnte.

AnarchX

2012-11-22, 08:26:04

Nvidias Kepler-GPUs nicht vollständig zu DirectX 11.1 kompatibel (http://www.heise.de/newsticker/meldung/Nvidias-Kepler-GPUs-nicht-vollstaendig-zu-DirectX-11-1-kompatibel-1754119.html)

Das wird wohl klar was man hinter GK2xx erwarten kann. Und auch warum wohl eine Low-End-GPU den Anfang macht. Ähnlich wie bei GT21x legen die OEMs wohl Wert auf den vollständigen API-Support.

boxleitnerb

2012-11-22, 08:38:37

Ob GK110 DX11.1 unterstützt? Wäre ja witzig, wenn das Flaggschiff es nicht tut, die kleinen Karten aber schon.

Dural

2012-11-22, 09:29:45

wäre nicht das erste mal wo es so war ;)

AnarchX

2012-11-25, 09:35:44

ShinyMcShine

2013-01-18, 10:47:57

Hat denn jemand schon etwas Neues von den 700ern?
Der letzte Post ist ja schon fast zwei Monate her! ;)
Mich persönlich würde eine GTX 760 Ti interessieren (GK204-/GK114-Vollausbau). Spätestens im Sommer wollte ich aufrüsten.
Aber auch News zu einer GTX780/770 werden gerne angenommen...

VG
Shiny

Ailuros

2013-01-18, 10:56:33

GeForce GT 730M? (http://geizhals.de/866001)

Wobei das auch ein GK107 Rebrand sein könnte. Passt aber durchaus dazu, dass AMD mit der HD 8000M Serie auch in den Startlöchern steht. (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9548632#post9548632)

Kepler ist es auf jeden Fall. NV ist so "stolz" darauf dass sie nicht mal Spezifikationen fuer 730M bzw. 710M auf ihrer Seite angeben. Nur ein lahmes performance rating fuer 730M = up to 4.8x HD4000 und 710M = up to 3.0x HD4000. Beschissener geht marketing gar nicht.

Undertaker

2013-01-18, 11:24:28

Die GT 730M hatten wir schon vor kurzem an anderer Stelle, Taktraten und Benchmarks sind bereits bekannt.

http://www.notebookcheck.com/NVIDIA-GeForce-GT-730M.84679.0.html

AnarchX

2013-03-19, 18:57:03

NVIDIA_DEV.1281 = "NVIDIA D15M2-05"
NVIDIA_DEV.1282 = "NVIDIA D15M2-20"
NVIDIA_DEV.1283 = "NVIDIA D15M2-10"
NVIDIA_DEV.1285 = "NVIDIA GK208-100"

NVIDIA_DEV.12A0 = "NVIDIA GK208"
NVIDIA_DEV.12AD = "NVIDIA GK208-ES"
NVIDIA_DEV.12AE = "NVIDIA GK208-CS1-C"
NVIDIA_DEV.12AF = "NVIDIA GK208-INT"
NVIDIA_DEV.12B0 = "NVIDIA GK208-CS-Q"
NVIDIA_DEV.12B1 = "NVIDIA GK208 INT"
http://www.geeks3d.com/forums/index.php/topic,3012.0.html

Skysnake

2013-03-19, 19:22:35

Ich hab schon gewartet, wann das endlich mal kommt ;)

AnarchX

2013-03-20, 08:09:50

PCGH hat D15M2-20/GK208 gesichtet: http://www.pcgameshardware.de/GTC-Event-257049/News/Logan-Entwickler-Plattform-Kayla-mit-Titan-Technik-und-bislang-geheimer-Kepler-GPU-D15M2-20-1061349/

384SPs auf 2 SMX und laut Nvidia wohl Cuda 3.5, also das volle GK110 Feature-Set.

Undertaker

2013-04-01, 15:09:30

http://www.notebookcheck.com/Nvidia-Neue-Modelle-der-GeForce-700M-Serie-vorgestellt.90248.0.html
http://www.computerbase.de/news/2013-04/nvidia-erweitert-die-geforce-gt-700m-serie/

Das gibt ein schönes Wirrwarr, wenn GK107 und GK208 unter gleichem Namen vermischt werden... Der Performancehit durch 64 Bit bei GK208 ist sicher nicht unerheblich.

Edit: Den GK208 hat man bei CB wohl komplett übersehen und schreibt allen Modellen den GK107 zu...

Diese Mobile GPUs könnten auch in den Bereich der GK208-Device_ID fallen:
NVIDIA_DEV.1290 = "NVIDIA GeForce GT 730M "
NVIDIA_DEV.1291 = "NVIDIA GeForce GT 735M"
NVIDIA_DEV.1292 = "NVIDIA GeForce GT 740M"
NVIDIA_DEV.1293 = "NVIDIA GeForce GT 730M "
NVIDIA_DEV.1294 = "NVIDIA GeForce GT 740M "

AnarchX

2013-04-01, 15:30:26

GK208 ist wohl laut Package Bildern (Vergleich über die weißen Makierungen) auch nur knapp über 70mm²90mm² groß:
http://www.geforce.com/Active/en_US/shared/images/products/geforce-gt-745m/geforce-gt-745m-F_gallery_preview.png GK107?
http://www.geforce.com/Active/en_US/shared/images/products/geforce-gt-735m/geforce-gt-735m-F_gallery_preview.png GK208?

Mit GDDR5 erreicht man aber wohl die Leistung von GK107 DDR3 Lösungen.

Undertaker

2013-04-01, 15:34:50

Das schon, aber dafür müsste der GK208 auch immer mit GDDR5 kombiniert werden... Z.B. bei der 735M ist das wohl nicht der Fall. Wie schon bei den DDR3/GDDR5-Modellen bei der 650M versucht man das anscheinend mit sehr hohen GPU-Taktraten auszugleichen. Die 16 GB/s von DDR3@1000 MHz mit 64 Bit Interface sind aber schon ziemlich mickrig.

boxleitnerb

2013-04-15, 10:51:20

Raff

2013-04-15, 11:01:34

"Desktop Geforce 7 comes by Computex"

Aaaalt. :ulol:

MfG,
Raff

M4xw0lf

2013-04-15, 11:04:44

fudzilla meint, GTX 7xx Desktop kommt im Juni zur Computex und nicht erst 2014. Die Frage ist - ist das nur Titan LE oder eine ganze Serie?

http://www.fudzilla.com/home/item/31077-desktop-geforce-7-comes-by-computex

Kann mir nicht vorstellen, dass Titan LE als GTX7x0 auf den Markt kommt... Mit Titan im Namen lässt sich das Ding viel teurer verkaufen.

boxleitnerb

2013-04-15, 11:05:09

Nein, denn die Karten, die du meinst, hießen Geforce 7xxx GT(X), vierstellig und das GTX hinten statt vorne.
Da müssen wir nächstes Mal besser recherchieren :tongue:

ShinyMcShine

2013-04-15, 11:35:11

Ich würde eine 700er Serie für den Desktop im Juni sehr begrüßen. :biggrin:
Bei mir "muss" eigentlich demnächst eine neue Grafikkarte her, aber eine GTX680 ist mir eigentlich zuviel. Eine GTX760 Ti mit einem GK114 @ ~ 900MHz wäre genau richtig.
Naja, Wunschdenken halt... :wink:

VG
Shiny

Godmode

2013-04-15, 11:49:04

Was soll das sein, ein 15% schnellerer GK104?

Timbaloo

2013-04-15, 12:36:38

Fände ich gut wenn es zeitnah einen GK104 refresh gäbe. Meine 560ti geht in minecraft an die Grenze :freak:

Hübie

2013-04-15, 13:14:13

Also mir wurde damals gesagt dass Titan nicht das sei was ich erwarte und dass im Juni definitiv was kommt. Ich denke mal das wir noch n bissl was sehen werden. Dürfte aber unspektakulär ausfallen. Eine Karte wird in jedem Fall ein kleiner GK110. Ob es dann noch weitere Chips geben wird glaube ich erst mal nicht. Vielleicht zum Herbst hin, aber dann halt keine 550mm2 Monster welche teildeaktiviert sind.

boxleitnerb

2013-04-15, 13:31:02

Bei Nvidia ist alles sehr undurchsichtig momentan.

Wann kommt Maxwell in 2014 und auf welchem Prozess? Davon hängt alles ab. Denn wenn Maxwell im Frühjahr 2014 nochmal auf 28nm kommen sollte, wäre es ziemlich unsinnig, für ein halbes Jahr noch was aufzulegen mit Kepler. Es sei denn, die Einführung von Maxwell würde sich über ein halbes Jahr hinziehen mit einem Modell hier und einem dort, so dass man in der Zwischenzeit noch etwas braucht.
Kommt Maxwell hingegen gleich auf 20nm, dafür eher im Spätsommer/Herbst, wäre es schon lohnender, nochmal einen kompletten Refresh zu bringen. GK110 ist ja sozusagen schon ein Refresh von der Prozessreife her. Ich glaube nicht, dass man da nochmal was verbessern könnte (und aus ökonomischer Sicht macht das auch keinen Sinn, da der Chip ja im Desktopbereich gerade erst rausgekommen ist).

Timbaloo

2013-04-15, 13:39:43

Man könnte relativ früh mit einem kleineren Chip (sagen wir mal GM106) in 28nm kommen, dann die größeren (>=GM104) in 20nm folgen lassen und dann die GK106 in 20nm nachschieben. Klingt jetzt nicht so abwegig imho. Aber ehrlich gesagt glaube ich eher an die Maxwell nur in 20nm Variante.

boxleitnerb

2013-04-15, 13:54:45

Eher andersherum. Bei einem neuen Prozess legt man erst die kleinen Chips auf, siehe HD4770 z.B.

M4xw0lf

2013-04-15, 14:15:46

Beim Wechsel auf 28nm gabs gar keinen Pipe-Cleaner auf dem Markt... oder irre ich mich?

AnarchX

2013-04-15, 14:16:39

GF117: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=523596

M4xw0lf

2013-04-15, 14:23:57

Zählt nicht für ie 28nm-Fertigung generell, da war Tahiti ja deutlich früher ;)

AnarchX

2013-04-15, 15:14:26

Dass die Produkte nach Tahiti launchten, bedeutet nicht, dass man nicht schon länger mit dem Chip und somit 28nm experimentierte.
Das erste mal tauchte GF117 2010 auf: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8338592#post8338592

AnarchX

2014-02-15, 07:42:27

Ailuros

2014-02-15, 08:37:24

GK210?
Wird offenbar in CUDA 6.0 im Zusammenhang mit der Compute Capability 3.7 genannt, welche einen shared Memory von mindestens 80KByte fordert (Bei 3.0-3.5 Kepler waren es maximal 48Kbyte):
http://forum.beyond3d.com/showpost.php?p=1827639&postcount=937

Ich kann mir nicht vorstellen fuer was das Tier sein soll; wenn es kein GM108 geben wuerde dann vielleicht schon aber trotzdem merkwuerdig.

AnarchX

2014-02-15, 08:45:26

Ein Chip unterhalb von GK208 wäre aber wohl eher ein GK209.
GK210 ist eher die Bezeichnung eines Big-Chips. Vielleicht hat GK110-B1 schon die CC3.7 verbaut, aber läuft momentan noch im CC3.5 Modus?

Ailuros

2014-02-15, 08:54:43

Ein Chip unterhalb von GK208 wäre aber wohl eher ein GK209.
GK210 ist eher die Bezeichnung eines Big-Chips. Vielleicht hat GK110-B1 schon die CC3.7 verbaut, aber läuft momentan noch im CC3.5 Modus?

Koennte sein aber da es GK210 heisst wuerde ich dann eher vorschlagen dass es sich eher um einen shrink fuer 20SoC (ohne tape out) handelt.

AnarchX

2014-02-15, 10:39:33

http://forums.laptopvideo2go.com/topic/30763-v33259-windows-8-32bit-nvidia-mobile/

Die NVCUDA.dll dieses Treibers kennt auch einen GK210.
GK180 wird auch explizit genannt. War das vielleicht doch ein eigenes Design und nicht nur ein GK110-B?

Aber der Eintrag dort bedeutet in der Tat wohl nicht viel, wie man an anderen nie erschienen GPUs dort sieht: GT212, GT214, GT206...

AnarchX

2014-04-16, 12:44:47

Wohl nicht nur Simulationen, wenn die Chips als Fracht in Indien waren:

7-Apr-2014 84733010 GRAPHICS PROCESSOR INTEGRATED CIRCUITS, GK210-INT5156-A1 Taiwan Banglore Air Cargo NOS 8 218,650 27,331
2-Apr-2014 84733010 GRAPHICS PRECESSOR INTERGRATED CIRCUITS, TE GK210-885-A1 United States Banglore Air Cargo NOS 8 166,641 20,830
https://www.zauba.com/import-gk210-hs-code.html

S-BGA-2397-080-GK180/GK210-DAV, 215190-000
L-CLAMSHELL-GK110/GK180/GK210, 212928-000

https://www.zauba.com/import-gk180-hs-code.html

"GK210-885-A1" deutet weder auf ein Qual./Eng. Sample hin, sondern auf eine SKU-Version die auf einer Quadro/Tesla-Karte verbaut werden wird.

:|

AnarchX

2014-08-10, 11:09:25

Da es auch hier reinpasst:
Das könnte wohl ein Anhaltspunkt zur HPC-Eignung von GM204 geben und die Notwendigkeit von GK210 erklären:

GPU Architecture | FLOPS / Watt| Timeline
GK110| 12 | Current
GK210| 14 | Summer 2014
GM200 | 25| End of 2014
GP100| 35| Beginning of 2016

Aus diesem Paper: http://arxiv.org/abs/1407.4698
Daran hat auch jemand von NV mitgeschrieben.

Da könnte wohl die Tesla "K50"/"K60" mit ~870MHz Base-Clock in 225W laufen (K40 - 745MHz).
Ob man bei DP mehr als 1/3 bietet ist wohl fraglich.

Hübie

2014-08-10, 11:46:08

Weiß gar nicht ob man das Design dahin gehend verändern könnte. Afaik brauchen FP64-Units breitere Register. Wenn jetzt noch GK210 kommt ist GM210/200 noch ein Jahr entfernt.

Skysnake

2014-08-10, 12:09:36

du kannst immer Register zusammenschalten

AnarchX

2014-08-10, 12:41:10

Weiß gar nicht ob man das Design dahin gehend verändern könnte. Afaik brauchen FP64-Units breitere Register. Wenn jetzt noch GK210 kommt ist GM210/200 noch ein Jahr entfernt.
Die Infos aus Zauba entsprechen eher dem Zeitraum aus der Tabelle: Ende 2014.

GK210 muss wohl einfach noch veröffentlicht werden, nachdem man in den GK110 Refresh soviel Zeit und Ressourcen gesteckt hat. Immerhin wurde mit GK180 ein Chip gecancelt von den man schon Silizium-Samples hatte.

hasebaer

2014-08-10, 13:43:40

Nvidia kündigt Quadro Kx2-Serie an
http://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Nvidia-Quadro-Kx2-Serie-Kepler-1131800/

Würde zum GK210 passen.

AffenJack

2014-08-10, 14:13:21

Die Infos aus Zauba entsprechen eher dem Zeitraum aus der Tabelle: Ende 2014.

GK210 muss wohl einfach noch veröffentlicht werden, nachdem man in den GK110 Refresh soviel Zeit und Ressourcen gesteckt hat. Immerhin wurde mit GK180 ein Chip gecancelt von den man schon Silizium-Samples hatte.

Woher weiß man, dass Gk180 gecancelt wurde? Ich glaube eher, der wurde fürs Marketing einfach in GK110b umbenannt und das wars. Ich gehe von aus, dass K40x GK180 Chips hat. GK180 würde ich eher als etwas verwirrspiel mit Codenamen ansehen.

Hübie

2014-08-10, 17:03:26

Ich hatte Tesla-Treiber mit GK180 gesehen. Mehr nicht. War vielleicht sowas wie Testsilizium.

Askingar

2014-08-10, 17:20:16

Die einst von einigen asiatischen Seiten angekündigten Referenzdaten zum "Atlas" deuten an das GK180=GK110b sein kann. Aber wer weiss ds schon genau, beantworten wirds auch niemand.

AnarchX

2014-08-10, 17:41:32

Ich hatte Tesla-Treiber mit GK180 gesehen. Mehr nicht. War vielleicht sowas wie Testsilizium.
Die einst von einigen asiatischen Seiten angekündigten Referenzdaten zum "Atlas" deuten an das GK180=GK110b sein kann. Aber wer weiss ds schon genau, beantworten wirds auch niemand.

Auch wenn ich es schon desöfteren erläutert hatte:
- GK180 wird als eigenständiges Device in der CUDA.dll gelistet, was ein sicheres Zeichen für eigenes Silizium ist
- GK180 tauchte Anfang 2013 in Indien auf (Zauba)
- GK180 hatte ein A1-Stepping, insofern kann es kein GK110-B1 sein

Die ganzen frühen Infomaterialien für K6000 und K40 nannten einen GK180. Mit dem Notplan GK110-B1 wurde hier geupdatet.

Schlussendlich muss das Team hinter diesen Projekten (GK180/GK210) wohl ein Resultat ausliefern, wenn auch das GM200-Team seinen Zeitplan wohl einhält.
Man kann wohl annehmen, dass diese größere Veränderung an den SMX-Caches wohl nicht so trivial war, wie man wohl geplant hatte.

Nvidia kündigt Quadro Kx2-Serie an
http://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Nvidia-Quadro-Kx2-Serie-Kepler-1131800/

Würde zum GK210 passen.
Laut den schon bekannten Treibereinträgen, ist da wohl nur GK110B als K5200 dabei. Vielleicht gibt es eine Vorschau auf die "K6200".

Hübie

2014-08-11, 00:21:09

Einige CUDA Devs beschwerten sich über voll laufende Caches wenn man den Vollausbau hat. Da gibt's wohl ein Missverhältnis. Ich habe davon aber zu wenig Ahnung um das genau zu beschreiben. Vermutlich wird man Bei GK180/210 sich dieser Problematik angenommen haben. Irgendwie spielte da glaub ich auch der TexL1$ mit rein. Na ja mal sehen. Spannend wirds eh nicht. Vor allem wirds nicht dokumentiert.

AnarchX

2014-08-22, 10:27:32

Tesla K80 Stella:
http://forums.laptopvideo2go.com/topic/31065-inf-v5011/

Godmode

2014-08-22, 11:44:06

Tesla K80 Stella:
http://forums.laptopvideo2go.com/topic/31065-inf-v5011/

Soll das ein GM200 sein?

edit:
Hier stehts erklärt was was ist: http://www.computerbase.de/2014-08/nvidia-tesla-k80-und-tesla-m40-im-treiber-gesichtet/

K80 soll wohl Dual GK110 Lösung sein und M40 irgendwas mit Maxwell. Ich könnte mir vorstellen, dass das GM200 ist, wenn das Namenschema fortgesetzt wird.

AnarchX

2014-08-22, 17:07:52

Stella scheint ein neuer Codename zu sein, wie Atlas für den GK110B. Insofern könnte sich dahinter schon GK210 verbergen.
Mal sehen ob man es schafft auf die Dual-GPU-Karte 48 Speicherchips 2x12GiB unterzubringen.

M40 scheint laut Device-ID ein GM107 zu sein.:freak: (GM204 hat wohl eine Device-ID die mit 16 beginnt)
Lustig sind auch die Quadro K Karten mit Maxwell GM107.:uup:

AnarchX

2014-08-22, 20:58:22

Mal in den weiten des Webs gestöbert: http://scent.gist.ac.kr/downloads/2014hpcss_14.pdf

S.7: GK210-Duo, ~2,1TFLOPs DP, 500GB/s

Raff

2014-08-22, 21:23:46

AnarchX

2014-08-22, 21:26:22

Sicherlich 2 GPUs.
Wenn man bei 225W TDP bleiben würde, wäre es schon ziemlich ordentlich.
Ansonsten sollte GK210 noch CC3.7 mitbringen.

Damit wäre wohl wenigstens geklärt, dass es bei 1/3 DP bleibt.

btw.
Da es auch hier reinpasst:

Da könnte wohl die Tesla "K50"/"K60" mit ~870MHz Base-Clock in 225W laufen (K40 - 745MHz).
Ob man bei DP mehr als 1/3 bietet ist wohl fraglich.

Da ist eine Tabelle und ein Autor verschwunden. :ulol:

hasebaer

2014-08-22, 22:25:44

Oh, oh ... :usweet:

Skysnake

2014-08-23, 09:40:37

Ich sehe nur 2,0 TFLOPs, aber das ändert ja nichts an der generellen Aussage: so wenig? Mich irritiert der Zusatz "Duo" (musste an XGI denken ;)), soll das SLI sein? Für einen Chip wäre das, für Nvidia-Verhältnisse, ordentlich, allerdings immer noch deutlich weniger als bei einer FirePro W9100 (2,62 TFLOPS). Für SLI wär's erbärmlich. Die Quadro K6000 mit einem GK110B stemmt 1,73 TFLOPS.

MfG,
Raff
Wohl eine Reaktion auf die S10000, die schon ganz sexy war/ist für Leute, die komplett memory bound sind. Da soll wohl auch diese Karte reinhauen.

So lange AMD auch mit Hawaii keinen S10000 Nachfolger bringt, kann dies auch zumindest in dem Bereich aufgehen. Nur kan man mit Hawaii im kompletten Rest nicht konkurrieren. nVidia wurde sicher etwas überrascht davon, das Hawaii wirklich 1:2 DP:SP hat.

Alle die auf CUDA setzen, werden da dann wieder sehen, wie verhängnisvoll es ist, auf propritäre Standards zu setzen. MAn ist halt voll gekniffen, wenn der Anbieter mal schwächelt. Man hat eine Ehe auf Gedeih und Verderben geschlossen.

Das wird sicherlich wieder einige Aufwachen lassen. Schlecht für nVidia.

Hübie

2014-08-23, 09:54:40

Haha. Dank an die Abschreiber die hier fleißig mitlesen ;)

Ailuros

2014-08-23, 15:38:12

Ich sehe nur 2,0 TFLOPs, aber das ändert ja nichts an der generellen Aussage: so wenig? Mich irritiert der Zusatz "Duo" (musste an XGI denken ;)), soll das SLI sein? Für einen Chip wäre das, für Nvidia-Verhältnisse, ordentlich, allerdings immer noch deutlich weniger als bei einer FirePro W9100 (2,62 TFLOPS). Für SLI wär's erbärmlich. Die Quadro K6000 mit einem GK110B stemmt 1,73 TFLOPS.

MfG,
Raff

Ich hab das pdf immer noch nicht gelesen, aber mGPU (bzw. ANSTAENDIGES - hw basierendes mGPU) ist schon lange faellig fuer den Profi-Markt. So wie die Prozesse abkacken und Herstellerung zunehmend teurer wird und es dauert laenger von Prozess zu Prozess ist es IMHO der einzige logische Ausweg.

Ich will auch hoffen dass GK210 ein Schritt in die Richtung ist, denn sonst koennte ich mir den Aufwand fuer dessen Entwicklung nicht so leicht erklaeren.

Ok gerade schnell durchgelesen GK210 = Kepler + NVLink? :confused:

AnarchX

2014-08-23, 16:09:44

GK210 wird wohl das gleiche Pin-Out wie GK110 und GM200 besitzen. NVLink kommt wohl erst mit Pascal, da hier durch HBM Pad-Kapazitäten freiwerden, die man wohl für dieses High-Speed-PCB-Interface nutzen kann.

Im Endeffekt wird das ganze wohl eher eine Titan Z mit GK210 und <300W TDP.

hasebaer

2014-08-23, 16:47:25

Alle die auf CUDA setzen, werden da dann wieder sehen, wie verhängnisvoll es ist, auf propritäre Standards zu setzen. MAn ist halt voll gekniffen, wenn der Anbieter mal schwächelt.

1.) Wieder?!
2.) Eine 1:2 Ratio wird auch mit GM200 kommen müssen.
- http://www.forum-3dcenter.org/vbulletin/showthread.php?p=10306985#post10306985

Skysnake

2014-08-24, 10:02:40

Ja bei GF100 hatten sich die CUDA Leute schonmal in die Nesseln gesetzt. Da sind Lieferverträge nicht eingehalten worden usw usw usw.

Da war so mancher ziemlich stinkig auf nVidia. GPUDirect konnte da aber sehr viel wieder rausreisen, weil es schon eine coole Technik ist. Wenn es jetzt aber wieder nen langes Gesicht gibt bei den Zuständigen stellen, weil die AMD Konkurrenz auch verdammt sexy ist, man aber wegen CUDA nicht hin kann, dann wird das wieder zum Nachdenken anregen,ob so eine propritäre API auf Dauer wirklich gut für einen ist.

Man macht sich halt wie gesagt völlig abhängig von einem Anbieter. Dass die Leute das wirklich realisieren ist das schlimmste was nVidia passieren kann.

Hübie

2014-08-24, 12:27:20

Ich weiß nicht in welchem Unternehmen du arbeitest aber idR sind solche Geschäftsprozesse völlig anders als wie du es dir ausmalst bzw. wie es bei euch abläuft ;D

zendamo

2014-08-27, 12:36:48

Ein GK108 (192SPs, 64-Bit) sollte sich wohl langfristig durchaus lohnen. Der Bedarf an GraKas auf Basis von GF119/GF108 ist wohl durchaus noch vorhanden.

Für eine "2" nach dem GK sollte es aber schon größere Architekturveränderungen geben.sorry my english

Can you tell me GT 630 (GK208) have 16 TMUs or 32 TMUs.

GPU-Z GT 630 Kepler
http://farm6.staticflickr.com/5528/11993246484_d5790f56d9_o.png
GPU-Z GK208 32TMU

But nvidia said GT 630 (GK208 ) have 16 TMU

GeForce GT 630 (Kepler)
Graphics Clock ( Mhz ) 902
Texture Fill Rate 14.4

14400/902=16 TMU
http://www.nvidia.in/object/geforce-gt-630-in.html#pdpContent=2

thanks

Ravenhearth

2014-08-27, 13:24:44

I think GPU-Z is wrong. 16 TMUs should be correct.

Ailuros

2014-08-27, 13:30:42

GK208 (ebenso wie GK20A) hat "nur" 2 quad TMUs/SMX.

zendamo

2014-08-27, 15:51:05

I think GPU-Z is wrong. 16 TMUs should be correct.I know but

http://www.4gamer.net/games/160/G016083/20130628096/
said GK208 has 32 TMU
http://www.4gamer.net/games/160/G016083/20130628096/TN/030.gif
http://www.4gamer.net/games/160/G016083/20130628096/

And GT 730 rename GT 630 Kepler GK208 - 32 TMU
https://farm6.staticflickr.com/5596/14855204919_eba9979d58_o.jpg
And on homepage of 3dcenter.org said GK208 has 32 TMU
http://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=49403&stc=1&d=1409147338

NVIDIA is wrong ? lol

mczak

2014-08-27, 16:06:41

NVIDIA is wrong ? lol
Lots of sites git it wrong. 32 TMUs for gk208 ist still wrong, wrong, wrong, regardless.
Nvidia does get it right. The card they listed as gt630 kepler is gk208 (there's also a gk107 oem version but this has half the shaders) and the texture fill rate corresponds to 16 tmus: http://www.geforce.com/hardware/desktop-gpus/geforce-gt-630/specifications

Ailuros

2014-08-27, 18:16:47

I know but

http://www.4gamer.net/games/160/G016083/20130628096/
said GK208 has 32 TMU
http://www.4gamer.net/games/160/G016083/20130628096/TN/030.gif
http://www.4gamer.net/games/160/G016083/20130628096/

And GT 730 rename GT 630 Kepler GK208 - 32 TMU
https://farm6.staticflickr.com/5596/14855204919_eba9979d58_o.jpg
And on homepage of 3dcenter.org said GK208 has 32 TMU
http://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=49403&stc=1&d=1409147338

NVIDIA is wrong ? lol

GK208 has 16 TMUs all together or better as I already said 2 quad TMUs in each SMX and no I don't care what each site claims either, 3DC included. Can we get over it now?

AnarchX

2014-08-27, 19:04:05

I think Damien Triolet from Hardware.fr asked NV at Maxwell Techday about GK208 details: 8 TMUs per SMX.

zendamo

2014-08-28, 01:01:21

GK208 has 16 TMUs all together or better as I already said 2 quad TMUs in each SMX and no I don't care what each site claims either, 3DC included. Can we get over it now?
I think Damien Triolet from Hardware.fr asked NV at Maxwell Techday about GK208 details: 8 TMUs per SMX.
thank you so much.

So GT 720 have 8 TMUs right ?

techpowerup is wrong again.
Shading Units: 192
TMUs: 16
ROPs: 8
http://www.techpowerup.com/gpudb/1989/geforce-gt-720.html

Loeschzwerg

2014-09-17, 17:56:03

https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&cad=rja&uact=8&ved=0CFIQFjAF&url=http%3A%2F%2Fquickspecs-hp.com%2FWorldwide%2FDesktops_-_Workstations%2Fc04400043.pdf&ei=AqwZVKLRPKb_ygOu_4GICQ&usg=AFQjCNHeUCbz4IlQUGxfu9iT1h18-kCV3A&bvm=bv.75097201,d.bGQ

Auf Seite 49 wird bei der K6000 der GK180 als GPU genannt.

Seite 48 ist ebenfalls interessant, die K5200 hat 8GB und nur ein 256Bit Interface, bei 2304 Cores.

Komischerweise listet Geizhals die K5200 als GK180 und nicht als GK110:
http://geizhals.at/de/pny-quadro-k5200-vcqk5200-pb-a1152800.html

AnarchX

2014-09-17, 18:04:35

Das basiert wohl immernoch darauf, dass Nvidia Anfang 2013 GK180 propagiert hatte, der dann durch GK110B ersetzt werden musste. Da hat HP wohl diese falsche Bezeichnung noch in der Datenbank und bei Geizhals werden die Daten auch nur durch Laien gepflegt. Mir wäre kein Retail GK180 bekannt.

GK210 ist unterwegs. Fragt sich nur ob er überhaupt der Öffentlichkeit vorgestellt wird oder gleich in Serverracks wandert.

Loeschzwerg

2014-09-17, 19:03:12

Ja, so war auch mein letzter Stand, daher hat mich das Dokument von HP (immerhin aktuell) doch etwas verwundert.

Es ist nicht nur Geizhals, der GK180 schwirrt im Zusammenhang mit der K6000 in etlichen Shops herum.

AnarchX

2014-09-17, 19:04:58

Bei newegg gibt es ein Interview zur K6000 (http://www.newegg.com/Product/Product.aspx?Item=N82E16814133494) wo der NV-Repräsentant auch noch von GK180 sprach. Mit dieser kurzfristigen Änderung hat man wohl so manchen verwirrt.

Hübie

2014-09-18, 07:58:09

Und wo is da das Interview? :|

Loeschzwerg

2014-09-18, 11:34:21

Scrollen will gelernt sein Herr Hübie :D

-utyEm0QZMQ

Hübie

2014-09-18, 12:51:08

Smartphone ;) Dennoch schäme ich mich ein wenig ;D

N0Thing

2014-09-18, 12:53:51

Ich hätte schwören können, daß der schwarze Kasten in den das Video eingebettet ist vorhin nicht zu sehen war. Nur die weiße Newegg-Seite. :|
Ich hab nämlich auch kein Interview gesehen und mich gewundert.

Loeschzwerg

2014-09-18, 13:00:31

Smartphone... ok, es sei dir verziehen :D

Es ist aber schon verdächtig still um den GK210 bzw. die Tesla K80 geworden.

memoal

2014-09-18, 13:00:54

GK210 war irgendwie als Sommerlochstopfer geplant sollte aber vom GM200 abgelöst werden. Macht wohl keinen Sinn den jetzt noch zu launchen und dann Anfang des Jahres abzulösen. Soweit ich weiss sollte der wieder ein optimierter GK110 sein, der wurde ja schon dem GK180 vorgezogen.

Kann aber auch FUD sein. ;)

Hübie

2014-09-18, 13:40:38

Nur mal so ein Gedanke aus Unwissenheit: Kann es sein dass GK180 vielleicht einfach Änderungen in der Diplayengine plus etwas bugfixing ist? Also im Grunde GK110b full feature. Braucht man für SDI andere Timingchips?

memoal

2014-09-18, 13:49:56

Wenn man dem hier Glauben schenkt, wahrscheinlich:

http://cdn.videocardz.com/1/2013/10/Tesla-K40-850x467.jpg
http://videocardz.com/46388/nvidia-launch-tesla-k40-atlas-gk180-gpu

Nur sind Informationen und letztendlich glaubhafte rar. Daher kann man das sicherlich nicht so einfach sagen.

AnarchX

2014-09-18, 19:53:10

Man muss einfach auf die Karten schauen, da ist nur GK110B verbaut.

Nur mal so ein Gedanke aus Unwissenheit: Kann es sein dass GK180 vielleicht einfach Änderungen in der Diplayengine plus etwas bugfixing ist? Also im Grunde GK110b full feature. Braucht man für SDI andere Timingchips?
GK180 dürfte wohl wie auch GK210 diese >80KiB Shared Cache in den SMX gehabt haben.

Skysnake

2014-09-19, 20:42:24

Ist GK180 noch gar nicht draußen?

Ich dachte K40 wäre schon lange erhältlich :confused:

AnarchX

2014-09-19, 20:45:23

Wie gesagt ist das GK110B. GK180 war ein eigenes Design (Nennung in der CUDA-DLL, A1-Stepping @ Zauba), was es aber wohl nicht bis zur Produktion schaffte.

Möglicherweise sind es auch die 96KiB Shared und die 24KiB L1 bei GK210.

AnarchX

2014-11-16, 19:10:19

Gab wohl Folien zu Tesla K80:
https://forum.beyond3d.com/threads/nvidia-bigk-gk110-kepler-speculation-thread.52608/page-93#post-1808105

2.9 TF DP, 4992 CCs, 480 GB/s

Seltsamerweise wohl nur 2x 13 SMX und 870MHz? Eventuell ist GK210 etwas kleiner als GK110 und GM210.

Google Cache: http://webcache.googleusercontent.com/search?q=cache:2fZmV-TS-W0J:www.slideshare.net/insideHPC/sc14-coral-press-deck+&cd=1&hl=de&ct=clnk&gl=de
Die Karte wird wohl morgen vorgestellt.

Skysnake

2014-11-16, 19:37:52

Das wäre aber ein verdammt später und irgendwie auch schwacher Konter auf die S10000.

Kann mir das nur schwerlich vorstellen, das nVidia das wirklich macht. Wenn ja, dann braucht big Maxwell wirklich noch sehr viel länger als erwartet, also wirklich erst 2H15, und da dann auch eher gegen Ende.

Morgen würde auf jeden Fall sehr gut passen zum Start der SC. Insgesamt aber wäre es für mich ne ziemlich schwache Vorstellung, also enttäuschend.

Hübie

2014-11-16, 19:41:35

Ich bin mir ziemlich sicher dass es hierbei eher um einen "Fachidioten" geht. Denn Kepler hat dynamic paralism noch in Hardware was bei Maxwell (afaik) ersatzlos gestrichen wurde. GK210 hat soviel ich weiß größeren Cache. Oder allgemeiner gesprochen wurde die Hierarchie simplifiziert. Das sind jedoch sehr alte Infos und ich hatte gar nicht mehr damit gerechnet dass dieser Chip überhaupt noch kommt...

Hugo

2014-11-17, 16:04:21

wie AnarchX oben schon andeutete. K80 vorgestellt
http://www.heise.de/newsticker/meldung/SC14-Nvidias-GPU-Rechenkarte-Tesla-K80-mit-4992-Shadern-und-24-GByte-Speicher-2456910.html

Coda

2014-11-17, 16:47:23

Dural

2014-11-17, 16:51:40

Hat der GK210 jetzt wirklich nur 2496SP?

Hübie

2014-11-17, 17:43:39

Die letzte Info die ich hatte ist, dass alle Maxwell-Chips dynamic parellelism unterstützen.

Ja das wird jedoch nicht mehr in Hardware gelöst. Das ist meine Info.

dildo4u

2014-11-17, 17:47:06

Hat der GK210 jetzt wirklich nur 2496SP?
Kein Vollausbau.

Womöglich hat Nvidia also zwei SMX zugunsten eines größeren Zwischenspeichers geopfert.

http://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Nvidia-Tesla-K80-Dual-GK210-und-24-GiByte-VRAM-1142956/

Timbaloo

2014-11-17, 18:00:27

Ja das wird jedoch nicht mehr in Hardware gelöst. Das ist meine Info.
Und war wurde bei Maxwell in Hardware geändert, dass es nun in Software gelöst werden kann? ;)

hasebaer

2014-11-17, 18:05:44

Das wäre aber ein verdammt später und irgendwie auch schwacher Konter auf die S10000.

Spät ja, aber nicht schwach.
S10000 kommt mit nur knapp 1,5 TFLOPS DP, Tesla K80 hat 2,91 TFLOPS DP.
Bei 375W ggü. 300W TDP.

Wenn ja, dann braucht big Maxwell wirklich noch sehr viel länger als erwartet, also wirklich erst 2H15, und da dann auch eher gegen Ende.

Ende 2H15 = Ende 2015, ... wohl kaum.

Für mich schaut es so aus, als ob K80 einfach so schnell wie möglich den Rückstand in Sachen DP Leistung auf FirePro S9150/W9100 wett machen soll und das auch lieferbar in großen Mengen.
Big Maxwell mag vielleicht in nur 3-4 Monaten fertig sein, und dann auch als Geforce taugen, aber für Quadro und Tesla braucht man nochmal extra Zeit für die Qualitätssicherung.

Mit 2,91 TFLOPS @ 300W wäre man 16% schneller ggü. einer FirePro S9150. Wenn auch mit 27% mehr TDP.
Im Vergleich zur FirePro W9100 wäre man 11% schneller, bei einer nur noch um 9% höheren TDP.

mczak

2014-11-17, 19:03:19

Spät ja, aber nicht schwach.
S10000 kommt mit nur knapp 1,5 TFLOPS DP, Tesla K80 hat 2,91 TFLOPS DP.
Bei 375W ggü. 300W TDP.

Sieht mir nicht sonderlich realistisch aus. Sind wohl eher 1.87 TFlops sustained bei 300W...
Ist aber irgendwie seltsam. Ein nochmals leicht frisierter gk110, und nur in einer Tesla Karte gebraucht und das ohne Vollausbau? Oder kommen da noch Single-GPU Teslas im Vollausbau?

AnarchX

2014-11-17, 19:19:05

Eventuell gar 128KiB shared Memory (und 512KiB Register File)?
http://www.anandtech.com/show/8729/nvidia-launches-tesla-k80-gk210-gpu
Da kann GK210 vielleicht die SMX endlich auslasten? :D

Vielleicht gibt es da intern bei NV Grabenkämpfe bzgl. des superkskalaren Ansatzes? ;D

Skysnake

2014-11-17, 19:19:37

Spät ja, aber nicht schwach.
S10000 kommt mit nur knapp 1,5 TFLOPS DP, Tesla K80 hat 2,91 TFLOPS DP.
Bei 375W ggü. 300W TDP.

Ende 2H15 = Ende 2015, ... wohl kaum.

Für mich schaut es so aus, als ob K80 einfach so schnell wie möglich den Rückstand in Sachen DP Leistung auf FirePro S9150/W9100 wett machen soll und das auch lieferbar in großen Mengen.
Big Maxwell mag vielleicht in nur 3-4 Monaten fertig sein, und dann auch als Geforce taugen, aber für Quadro und Tesla braucht man nochmal extra Zeit für die Qualitätssicherung.

Mit 2,91 TFLOPS @ 300W wäre man 16% schneller ggü. einer FirePro S9150. Wenn auch mit 27% mehr TDP.
Im Vergleich zur FirePro W9100 wäre man 11% schneller, bei einer nur noch um 9% höheren TDP.
DIe Werte sind mit Boost-Taktraten, die aber eher seltener, denn normal anliegen werden.

Also nicht wirklich dolle, zumal man eh damit rechnen muss, das AMD einen Nachfolger der S10000 auflegt, wobei das halt auch so ne Sache ist. Son Teil hat halt nur einen PCI-E 16x slot, für alle Anwendungen die eh schon am PCI-E hängen, also ziemlich nutzlos, für alle, die es aber nicht tun natürlich toll....

hasebaer

2014-11-17, 19:34:05

mczak

2014-11-17, 21:38:26

@mczak
Die 1,87 TFLOPS DP gibt Nvidia für den Base Clock an, aber es steht nirgends das der Base Clock 300W entspricht.

2,91 TFLOPS DP ist natürlich ein Peak (wie auch die 1,48 TFLOPS laut AMD ein Peak für S10000 ist), die 1,87 TFLOPS DP das Minimum im Worst Case.
Als "sustained" würde ich eher gemittelete Werte aus einer Reihe von Anwendungen sehen.
Ich kann mir nicht vorstellen dass man die 2.91 TFLOPS DP wirklich erreichen kann bei 300W. Bisher war es ja sogar so dass die Taktrate noch runter ging wenn man DP benutzt hat (zumindest bei den Consumermodellen, die Profimodelle hatten einfach von Anfang an geringeren Takt). Nvidia will ja die Basistaktrate garantieren können und ich denke eben gerade bei DP wird da wohl nicht annäherend maximaler Boosttakt drinliegen (wenn man Code hat der die GPU auch auslastet).
Der Base- und Boosttakt ist übrigens soweit auseinander dass die TDP wohl auch gleich die durchschnittliche Leistungsaufnahme ist, wenn der Code bloss halbwegs vernünftig ist und das Powermanagement funktioniert wie es sollte (ähnliches sieht man übrigens ja auch schon bei de GTX 980, jedenfalls bei den 180W Modellen, die Leistungsaufnahme variiert kaum noch je nach Game).
Das müsste man aber noch testen wie das am Ende genau aussieht.

Coda

2014-11-18, 00:32:37

Ja das wird jedoch nicht mehr in Hardware gelöst. Das ist meine Info.
Das höre ich zum ersten Mal und würde mich wundern.

Hübie

2014-11-18, 08:20:59

Könnte man das nicht mit nsight in VB sehen??? :confused:

Skysnake

2014-11-18, 08:53:13

Das höre ich zum ersten Mal und würde mich wundern.
Ganz im Gegenteil! nVidia hatte das mal versprocprochen ist dann aber zurückgerudert und hat nie mehr etwas dazu gesagt. Alle Ergebnisse dazu, die ICH kenne zeigen auch keinen Vorteil von dynamic Parallelism.

Coda

2014-11-18, 10:09:37

Godmode

2014-11-18, 10:33:19

Mir erschließt sich der Sinn hinter diesem Chip nicht ganz? Ist das ein angepasster GK110 für spezielle Kunden? Es heißt ja immer, das es sehr teuer ist, einen neuen Chip zur Marktreife zu bringen.

Skysnake

2014-11-18, 11:05:26

Wenn das Feature in Hardware verbaut ist hat es massive Vorteile. Falls es nicht in Hardware verbaut war ist jetzt nichts anders.

Ich gehe aber davon aus, dass es sehr wohl Hardware ist und du wie üblich Blech redest wenn es um NVidia geht. Wenn nicht würden sie in ihrer Entwickler-Doku massiv rumlügen mit seitenweise elaboriertem Schwachsinn inklusive frei erfundenen, harten Performance-Zahlen. Voll wahrscheinlich und so.
Ich kann nur von dem Sprechen, was ich selbst gesehen und gelesen habe. Mehr kann ich dazu nicht sagen, da das reine Spekulation wäre.

Und das nVidia nur die halbe Wahrheit sagt, wäre absolut nichts Neues. Schau dir Virtual Unified Memory an. Da haben Sie auch große Töne gespuckt im Voraus, und was ist nun? Eben nicht viel. Für Prototyping brauchbar, aber sonst eben nicht wirklich, außer in irgendwelchen Ausnahmefällen, die es sicherlich gibt.

Coda

2014-11-18, 13:00:52

Da haben sie keine Performance angegeben.

http://devblogs.nvidia.com/parallelforall/wp-content/uploads/sites/3/2014/04/dynpar-mandelbrot-perf.png

Du sagst also, dass sei frei erfunden? Right.

Skysnake

2014-11-18, 13:20:05

Wäre es eventuell auch möglich einen Zusammenhang zu erstellen? Eine Grafik ohne Link zur Quelle usw. ist nicht gerade förderlich für das Verständnis. So sind es einfach nur ein paar Balken ohne Inhalt.

EDIT:
Ein ganz interessantes Interview (http://insidehpc.com/2014/11/video-radio-free-hpc-takes-hard-look-two-2017-coral-supercomputers/) im Bezug auf die Zukunft, aber auch mit einer ganz interessanten Aussage zu Titan. Es mussten wohl alle Teslas getauscht werden, wegen einem Produktionsfehler. War das bisher bekannt?

Coda

2014-11-18, 13:44:34

http://devblogs.nvidia.com/parallelforall/introduction-cuda-dynamic-parallelism/

AffenJack

2014-11-18, 14:05:20

Ein ganz interessantes Interview (http://insidehpc.com/2014/11/video-radio-free-hpc-takes-hard-look-two-2017-coral-supercomputers/) im Bezug auf die Zukunft, aber auch mit einer ganz interessanten Aussage zu Titan. Es mussten wohl alle Teslas getauscht werden, wegen einem Produktionsfehler. War das bisher bekannt?

Die Teslas wurden nicht getauscht, da liegt er falsch. Alle Mainboards mussten getauscht werden, weil Cray zuviel Gold in den Pcie Steckplätzen hatte oder so.

Gipsel

2014-11-18, 14:17:36

Ich kann mir nicht vorstellen dass man die 2.91 TFLOPS DP wirklich erreichen kann bei 300W.Also wenn man sich nVidias eigene Linpack-Scores ansieht (und mit den angeblich vergrößerten Registerfiles und Caches sollte man eine hohe Auslastung hinkriegen, schon K20/K40 schafften bis zu ~90% der Peakleistung) wird man kaum schneller gegenüber einem K40. Bei entsprechendem, hohe Auslastung produzierendem Code scheint also so eine K80-Karte tatsächlich gerade mal mit Base-Clock von ~560MHz zu laufen um im Powerbudget zu bleiben und dann nur 15-20% gegenüber einem K40 (mit 235W) zuzulegen.

http://international.download.nvidia.com/tesla/images/k80-accelerator-performace.jpg

Skysnake

2014-11-18, 18:15:03

http://devblogs.nvidia.com/parallelforall/introduction-cuda-dynamic-parallelism/
Ja Super, da werden auch Äpfel mit Birnen Verglichen :freak: Mal kurz zwei unterschiedliche Algorithmen verwenden ist jetzt nicht gerade ein fairer Vergleich. Vor allem geht das ja völlig an meiner Aussage vorbei!

Ich sagte, dynamic Parallelism ist eine Software Implementierung, und eben keine Hardwarefunktion. Es spart einem wie virtual unified memory "nur" Komplexität, weil man die Recursion nicht von Hand ausführen muss. Im Treiber passiert aber wohl scheinbar nichts anderes. Zumindest hatten derartiges Untersuchungen mit dynamic Parallelism nahelegt, die eben den GLEICHEN Algorithmus einmal mit und einmal ohne implementiert haben.

Timbaloo

2014-11-18, 20:18:24

Zumindest hatten derartiges Untersuchungen mit dynamic Parallelism nahelegt, die eben den GLEICHEN Algorithmus einmal mit und einmal ohne implementiert haben.
Welche Untersuchungen sind das?

Skysnake

2014-11-18, 22:20:53

Coda

2014-11-18, 22:30:12

Ich sagte, dynamic Parallelism ist eine Software Implementierung, und eben keine Hardwarefunktion.
Ich hätte gerne immer noch eine Quelle dazu. Wir können hier viel rumdiskutieren, aber das führt doch so zu nichts. Ich sag's so, du so.

Timbaloo

2014-11-18, 23:17:49

Wie gesagt, im Rahmen eines Seminars hatte sich das mal einer angeschaut, was dynamic Parallelism vs. "von Hand" gestarteter Kernels bringt. Ergebnis war, das es nichts bis nicht viel bringt. Fazit war damals, das es halt die Handhabung vereinfacht, aber keine Mehrleistung bringt (wenn man weiß was man macht, und den Aufwand dafür nicht scheut).
Wenn es wie du sagst eine reine Lösung in Treiber wäre, dann dürfte bei den Untersuchungen ja herausgekommen sein, dass die Variante mit Dynamic Parallelism sowohl nennenswert CPU-als auch PCIe-Last erzeugt hätte? Das wäre zumindest ein klares Indiz dafür, dass die GPU nicht selbst Kernel spawnt.

Edit: Mich würde es so gesehen noch nichtmal wundern wenn es nur eine SW-Lösung wäre, NV redet in Präsentationen derzeit sehr gerne von "grid free", was ja zumindest nicht unbedingt für Dynamic Parallelism spricht.

Ansonsten sehe ich es wie CUDA.

Skysnake

2014-11-19, 06:58:22

Ich hätte gerne immer noch eine Quelle dazu. Wir können hier viel rumdiskutieren, aber das führt doch so zu nichts. Ich sag's so, du so.
Würde ich gern, die Seminararbeit habe ich aber nicht, und ich habe auch keinen Zugriff auf eine nVidia GPU, sonst würde ich das einfach selbst nachstellen, wobei ich die nächsten 6 Monate auch an sich keine Zeit für so was habe, würde ich Sie mir versuche zu nehmen, sollte ja an sich schnell gemacht sein.

Coda

2014-11-19, 10:10:42

Ich hab's jetzt selber rausgefunden. Der Kernel-Launch geht über einen async Callback über die CPU. Ich wüsste aber auch nich, wie man das anders machen soll weil dort das Speichermanagement gemacht wird.

Das heißt auch immer noch nicht, dass es nichts bringt, man kann damit hierarchische Probleme trotzdem effizienter abarbeiten als das Resultat jedes Mal synchron zurückzulesen.

Damit ist das mit Maxwell aber auch FUD. Eigentlich kann das wohl jede NV-GPU seit langem, das einzige was man braucht damit es effizient ist sind mehrere Compute-Queues.

Hübie

2014-11-19, 11:17:36

Aha. Dann war das so gemeint. Bin halt kein Programmierer. Die Hardware muss jedoch bestimmte Voraussetzungen erfüllen (irgendwas mit Cache Hierarchie bzw der Anbindung). Fermi kann es jedenfalls so nicht. Möglicherweise auch wegen der CUDA-API selber nicht.
Aber gut dass du dich hintergeklemmt hast ;) Bestätigt also Skysnake weitestgehend.

Skysnake

2014-11-19, 12:17:20

Ich hab's jetzt selber rausgefunden. Der Kernel-Launch geht über einen async Callback über die CPU. Ich wüsste aber auch nich, wie man das anders machen soll weil dort das Speichermanagement gemacht wird.
Naja, das Speichermanagement auf der GPU sollte an sich unabhängig von der CPU sein. Man muss halt "nur" genug Speicher für sich reservieren, dann sollte dass die GPU auch intern handhaben können. Man brüchte dafür halt am Besten ne kleine CPU auf der GPU, oder zumindest einen Hardwareblock, der sich drum kümmert. Das hatte man ja auch von der "Secret Souce" erwartet, kam dann aber eben nicht.

Inwieweit das dann aber auch wirklich async läuft, ist die Frage. Bzgl Kernelstart gibt es da so einige Ungereimtheiten, sowohl bei nVidia als auch bei AMD. Ich hatte da aber auch nie die Zeit mich nochmals im Detail damit zu beschäftigen, wobei eben auch immer das große Problem besteht, das man schnell an einen Punkt kommt, wo man schlicht nicht mehr die Informationen bekommt, was da wirklich! gemacht wird. :(

Das heißt auch immer noch nicht, dass es nichts bringt, man kann damit hierarchische Probleme trotzdem effizienter abarbeiten als das Resultat jedes Mal synchron zurückzulesen.

Hat ja auch niemand gesagt, das es nie etwas bringt. ;)

Die Sache ist nur, es bringt weniger als zunächst vermutet/propagiert, weil es dann doch nicht so funktioniert wie dargestellt. Und da stellt sich dann eben die Frage, ob man das selbe Resultat nicht auch von Hand hinbekommt, und wie MEINE Einschätzung dazu aussieht, muss ich sagen, das man es wahrscheinlich auch ohne hinbekommen würde. Man hätte halt unter Umständen viel mehr Arbeit, bzw. kann es einem auch passieren, das man gewisse Sachen nicht weiß/kann.

Damit ist das mit Maxwell aber auch FUD. Eigentlich kann das wohl jede NV-GPU seit langem, das einzige was man braucht damit es effizient ist sind mehrere Compute-Queues.
Und die Multi-Queues kamen doch mit Maxwell,bzw wurden da zumindest ausgebaut, wenn ich mich recht erinnere oder?

Insgesamt zeigt das aber wieder mal so eine unschöne eigenart am Verhalten der Hardwarehersteller, insbesondere nVidia, aber AMD und Intel, man bekommt einfach viel zu wenige Informationen zur Hardware!

Im Endeffekt sichern sich damit die Hardwarehersteller die Möglichkeit mit IHRER Software die Software von Drittanbietern ausstechen zu können. Da wird einfach eine Funktionalität im Treiber versteckt, und schon hat man einen unfairen Vorteil.....

Nettes Beispiel sind die SLI/CrossFireX Anschlüsse. Das wurde nie geöffnet :(

del_4901

2014-11-19, 12:45:43

Naja, das Speichermanagement auf der GPU sollte an sich unabhängig von der CPU sein. Man muss halt "nur" genug Speicher für sich reservieren, dann sollte dass die GPU auch intern handhaben können. Man brüchte dafür halt am Besten ne kleine CPU auf der GPU, oder zumindest einen Hardwareblock, der sich drum kümmert. Das hatte man ja auch von der "Secret Souce" erwartet, kam dann aber eben nicht.
Beim Speichermanagement hat das OS die Hand drauf. Und bei preallocated fixed memory braucht man keine kleine CPU um speicher zu allozieren, da reichen auch RAW buffer und Atomics. In der Realitaet werden warscheinlich groessere Bloecke vom OS geholt, die dann intern verwaltet werden.

Skysnake

2014-11-19, 14:11:24

An sich müssen ja nur die physikalischen und virtuellen Adressen zueinander passen, wobei das Mapping für Speicherbereiche hinter PCI-E sicherlich 1:1 erfolgen wird.

Im Prinzip ist es aber auch egal, denn der springende Punkt ist doch nur, das es halt in Wahrheit anders ist, als nVidia suggeriert, und das ist nicht das erste mal der Fall, und nein, Intel und AMD sind da generell nicht besser, und haben auch ihre Leichen im Keller.

Coda

2014-11-19, 15:12:21

Wo willst du denn den Allocator auf der GPU laufen lassen? Solang es keine ARM-Kerne gibt müsste man dazu einen einzigen Warp mit einem Thread laufen lassen.

del_4901

2014-11-19, 15:19:07

Wo willst du denn den Allocator auf der GPU laufen lassen? Solang es keine ARM-Kerne gibt müsste man dazu einen einzigen Warp mit einem Thread laufen lassen.
Linear Frame Allocator braucht nur Atomics, dann holt sich jeder Thread was er braucht.

Skysnake

2014-11-19, 18:57:11

Das OS, also der Treiber muss halt einmal zu viel Allocieren, und danach kümmert sich teilweise die GPU selbst drum, um dann bei Zugriffen der CPU eben wieder alles gerade zu biegen. Gehen tut das ohne weiteres, es braucht halt "nur" die entsprechende Hardware.

Im Endeffekt macht XeonPhi so etwas. Da kommunizieren XeonPhi und Host OS miteinander, wer wann wo wie Speicher erhält usw. Das ist natürlich die Maximallösung, GPUs brauchen das nicht, sondern könnten da eine deutlich abgespeckte Version von umsetzen.

Ansonsten siehe AlphaTier. Wie es aktuell geregelt ist, weiß er wohl besser, aber prinzipiell gehen tut das schon.

del_4901

2014-11-19, 19:19:57

Das Problem dabei ist, dass es generell sehr schwer ist vorher zu wissen wieviel Speicher man braucht. Bei einer App kann man das machen. Für eine generische Lösung muss die GPU zwischendurch immer mal wieder neue Blöcke hohlen. Und da hat das OS die Hand drauf.

Skysnake

2014-11-19, 19:22:34

Richtig, daher besteht auch durchaus eine Kunst darin, sich eben direkt "genug" Speicher vom OS abzuknabbern, damit man den selbst verwalten kann, und nicht wegen jedem Scheis wieder in den Kernel muss. Gibt ja genug Algorithmen dafür, wie man das effizient macht, z.B. immer den aktuellen Speicherbedarf verdoppeln usw.

del_4901

2014-11-19, 19:30:04

Das hat damit wenig zu tun, und verdoppeln ist generell eine mit der schlechtesten Heuristiken.

Skysnake

2014-11-19, 19:33:03

Naja, war doch wenn ich mich recht an Algorithmen und Datenstrukturen erinnere der asymthotisch effizienteste Algorithmus, also mit der geringsten Komplexität

del_4901

2014-11-19, 19:39:32

Hübie

2014-11-19, 20:04:41

Kann man Erfahrungswerte nicht zurück schreiben und auf dessen Basis für die weiteren Ablauf abschätzen wieviel man braucht (Varianz/Semivarianz)? Zwischendrin wäre das ja quatsch.
Sorry für meine laienhafte Ausdrucksweise ;D

Skysnake

2014-11-19, 23:27:33

Das ist der Fall wenn man den Speicher um kopieren muss, das ist hier aber uninteressant, da man einfach neue Pages mapt oder auf einem deck arbeitet.
Aber selbst fuer einen std vector und co. ist verdoppeln keine gute Strategie, weil es sehr verschwenderisch mit Speicher umgeht, welcher in der Theorie ja unendlich vorhandenen ist.
Das ist mir auch klar, dass das meist im realen Einsatz dann doch nicht die schlauste Idee ist ;)

Es ging mir rein ums Prinzip. Es ist möglich, das auch ohne CPU zu machen, wenn man nur etwas Hirnschmalz reinsteckt, und eben auch bereit ist etwas in Hardware zu investieren.

Klar, wenn man das nicht macht, und eh nen interrupt auf der CPU auslösen muss, dann kann man die ganze Schose auch gleich vom OS und dem Treiber erledigen lassen. Das macht den Fisch dann auch nicht mehr fett.

Hübie

2014-11-19, 23:50:14

Kohl. Das macht den Kohl dann auch nicht mehr fett. Nicht Fisch :P :D SCNR

ndrs

2014-11-20, 09:48:19

Ja, die deutsche Sprache ist ist ein zweigleisiges Schwert. Schwamm drunter.

Skysnake

2014-11-22, 10:35:37

Rodney Jones hat ein Bild eines ziemlich krassen GPU Systems gepostet auf Twitter, leider gibt es sonst keine Information dazu, aber seht selbst:

https://twitter.com/NV_Rodney/status/535167083601215488

Schon krass, 2x8 K80, also insgesamt 32 GPUs in einem System :biggrin:

Erinnert ziemlich etwas an das Design von ASrock, wobei die "nur" 8 GPUs in ihren 3U Server bekommen, dafür aber auch noch 2 S2011 Sockel. Zudem ist das Spaceing zwischen den GPUs auch größer bei denen.

Für mich sieht es auf jeden Fall so aus, als ob keine CPU in dem Server stecken, sondern es "nur" eine PCI-E Box ist. Hinten sieht man ja auch eine weitere PCI-E Karte mit einem fetten Kabel dran. Für mich riecht das nach einer Karte, die PCI-E durchschleift, und halt fette PCI-E Switches (sicher von PLX) ansteuert.

Wäre wirklich sehr interessant, wie es genau aufgebaut ist, aber ich bin mir sehr sicher, dass das etwas in die Richtung sein wird.

Das "lustige" dabei ist, das ist so ziemlich GENAU das Gegenteilige Konzept von nVLink ;D Hier wirste nämlich so gut wie gar keine Bandbreite zwischen GPUs und CPUs haben wirst. So 16GB/s maximal für alle GPUs zusammen.

Es gibt sicherlich seine Einsatzbereiche, aber das ist schon relativ speziell in meinen Augen. Brute Force attacken auf Verschlüsselung, oder sicherlich auch Objekterkennung usw. werden da funktionieren, aber ansonsten? Alles was halt nicht praktisch völlig unabhängig von PCI-E ist, also fast keine Daten austauscht, hat dann so seine Mühe, und die Infiniband interconnects werden in viele Cluster ja nicht aus Spaß eingebaut. Wenn kommen ja eher kleinere Systeme mit 10G Ethernet noch aus.

Btw. Rendering von Filmen usw geht natürlich auch gut mit so einer Kiste.

differenzdiskriminator

2014-11-22, 11:01:49

Rodney Jones hat ein Bild eines ziemlich krassen GPU Systems gepostet auf Twitter, leider gibt es sonst keine Information dazu, aber seht selbst:
Google hilft, wird das System sein:

http://www.onestopsystems.com/3u-compute-accelerator-nvidia-tesla-gpus

4x4 GPUs mit jeweils einer PCIe 3.0 Anbindung.

Also nur 1/4 der PCI-Bandbreite, aber dafür natürlich eine unerreichte Rechenleistung im Platzverhältnis. Wird schlicht am Anwendungsfall liegen, ob viele Daten ausgetauscht werden müssen oder nicht.

Skysnake

2014-11-22, 11:54:33

Ah nice.

Und meine Vermutung bestätigt sich. Das Ding ist ohne eigene CPUs unterwegs. Man kann aber immerhin 4 statt nur einer PCI-E Expandercard verwenden. Also wahrscheinlich einer pro 4x4 Modul.

Schön ist auf jeden Fall, das mal 3 3kW Netzteile hat. So kann man auch ein Netzteil unter Volllast wahrscheinlich tauschen. Das hat der eine oder andere Anbieter meiner Meinung nach verbockt. Zum Beispiel Gigabyte mit ihrem 2U Server mit 8 GPUs/XeonPhis, Da hat man nur 2 Netzteile, die zusammen gerade ausreichen um das System zubefeuern.

Auf jeden Fall eine Interessante Kiste, wenn auch an sich nicht wirklich viel Hardware drin ist. 4 Backplanes mit PLX switchse (sehr wahrscheinlich), Stromversorgung, und dann halt die PCI-E KArten, um das Signal durch zu schleifen. Interessant wäre noch, ob zwischen diesen Breakout cards PCI-E switches liegen oder nicht, also ob man mit den 4 GPUs in einem Einschub jeweils nur auf eine Breakout card nutzen kann, oder alle 4. Ich vermute aber mal, das man immer nur eine nutzen kann.

EDIT:
Man muss nur ins Datasheet mal reinschauen. Da steht, das es PLX switches sind :D

EDIT2:
Ich hab mir das Datasheet noch etwas gneauer angeschaut. Es steht sogar drin, welche PLX Chips verbaut wurden, so ganz schlau werde ich aber daraus nicht, bzw, ich befürchte, das man da sich noch nen weiteren Pferdefuß eingefangen hat.

In jedem Einschub sitzt ein PEX8796 mit maximal 6 mal 16x (Von DMA steht hier nichts, und auch nichts von 64Bit bars. Es ist also nciht klar, ob der Chip 64Bit Bars unterstützt, geschweige denn DMA. Bzgl 64 BIt würde ich davon ausgehen, auch wenn es nicht dasteht, aber für DMA würde ich meine Hand nicht! ins Feuer legen.
Die Einschübe sind also relativ einfach aufgebaut. Jeder GPU hängt sicherlich an einem 16x Slot, und kann mit voller Bandbreite mit jeder anderen GPU innerhalb des Einschubs arbeiten. DMA wird unterstützt, also sollte an sich wohl auch GPUDirect funktionieren. (Könnte! eventuell macht einem etwas anderes noch einen Strich durch die Rechnung! Zur not muss man eben aus dem Einschub raus, um die DMA Aktionen ausführen zu können)
Die Einschübe selbst haben entweder einen oder zwei 16x Ports.

So jetzt wird es aber seltsam. Das Gehäuse selbst hat folgende Ausstattung.
1x PEX8796 (den kennen wir ja jetzt schon) und dann noch 2x PEX8749.

PEX8796 6x 16x
PEX8749 3x 16x, hier ist DMA und 64 Bit Bars auch expliziet aufgeführt.
Dazu kommt dann noch ein kleiner Chip der für Managementfunktionen dient. Der muss irgendwie angeschlossen werden, wie, ist aber eine gute Frage. Es steht zwar nicht expliziet dabei, aber die Chips haben wohl noch einen I²C Anschluss, über den das laufen wird. Der Chip wird sich also recht sicher nicht an den PCI-E Lanes vergreifen.

So jetzt kommt eben die Spannende Frage, wie denn die 3 PLX Chips verbunden sind. Klar ist, man will wohl damit erreichen, das alle GPUs auf alle Breakout cards zugrifen können.

Von denen gibt es ja bekanntlich 4. Man muss also entweder beide PEX8749 nutzen, um jeweils zwei Breakout cards zu verwenden, und hat dann nur noch jeweils einen 16x Port frei, um an den 8796 zu gehen, oder man macht es halt umgekehrt, und hat dann aber auch nur noch zwei 16x Ports für die zwei 8749 Switches zu gehen.

Kurz um, wie man es dreht und wendet, ich bekommt da keine volle Bandbreite zwischen den Breakout Cards hin.

Soweit ich das gerade überblicken kann, wird wohl jeder Einschub auf die eigene Breakout Card mit 16x zugreifen könne, und auf die anderen Breakout Cards, und auf die anderen Einschübe mit 8x. Das ist die in meinen Augen noch sinnvollste Aufteilung, wenn man nicht hinnehmen will, dass zwischen BreakoutCards und Einschüben ein Bottleneck von 2x16x besteht. Ich hoffe mal, dass die das nicht gmeacht haben, aber garantieren kann ich es nicht.

Auf jeden Fall nicht gnaz optimal, aber immerhin kann man wenigstens überhaupt auch auf die anderen BreackoutCards und Einschübe direkt zugreifen.

Optimal ist es aber nicht.

differenzdiskriminator

2014-11-22, 15:56:36

Und meine Vermutung bestätigt sich. Das Ding ist ohne eigene CPUs unterwegs. Man kann aber immerhin 4 statt nur einer PCI-E Expandercard verwenden. Also wahrscheinlich einer pro 4x4 Modul.
Jupp, das Ding ist eine externe GPU-Kiste, um vorhandene Server mit GPUs aufzurüsten, auch wenn darin nur Platz für eine kleine PCIe Karte ist.

Da gibt es sicherlich einen nicht kleinen Markt für.

Bezüglich der PCIe Switches:

Könnte mir vorstellen, dass es mehrere Betriebsmodi gibt. Laut Datasheet heißt es ja auch 4 Anschlüsse am Gehäuse. Wahrscheinlich kann man einfach zwischen 1 und 4 PCIe Anschlüsse extern nutzen. Und wenn man so wenig Bandbreite braucht, dann nimmt man nur einen und die 16 GPUs teilen sich die eine Verbindung. Braucht man mehr Bandbreite, skaliert man das Ganze.

=Floi=

2014-11-23, 00:33:35

trotzdem wird ein normales system schneller sin/ homogener. ichh offe ihr versteht mich. So viele gpus müssen erst mal von cpus gefüttert werden.

was ich nicht so toll finde ist die passivkühlung der karten. ob das so premium ist. bei einer wasserkühlung hätte ich kein problem damit, aber mit einem passiven luftk+hler welcher vom servergehäuse gekühlt werden muss stelle ich mir schon hotspots vor/ die theoretische leistung könnte eigentlich höher ausfallen, wenn die hitze besser abgeführt würde imho.

meine karte hier läuft mit ~1200mhz und stellt alleine fast 7gflop!

Hübie

2014-11-23, 09:33:15

Öhm. Schon mal was von Industrielüfter gehört? :D Schau dir das Gehäuse mal genauer an.

hasebaer

2014-11-23, 09:52:00

Industrielüfter und dazu kommt das ein Serverraum einem Eisfach gleicht, so arschkalt ist es dort, oder sollte es sein.

3X-qT2garaw

differenzdiskriminator

2014-11-23, 10:06:36

trotzdem wird ein normales system schneller sin/ homogener. ichh offe ihr versteht mich. So viele gpus müssen erst mal von cpus gefüttert werden.
Nein, muss es nicht sein, es kommt auf den Anwendungsfall an.

was ich nicht so toll finde ist die passivkühlung der karten. ob das so premium ist. bei einer wasserkühlung hätte ich kein problem damit, aber mit einem passiven luftk+hler welcher vom servergehäuse gekühlt werden muss stelle ich mir schon hotspots vor/ die theoretische leistung könnte eigentlich höher ausfallen, wenn die hitze besser abgeführt würde imho.
Die Hitze wird in so einem System deutlich besser abgeführt, als bei deiner kleinen Desktop-GPU. Alleine deshalb, weil der Kühlkörper viel größer sein kann und die Lüfter davor sitzen.

Was an deinen 7GFlops so toll sein soll, wenn wir über 16x8,7 GFlops in 3U reden - keine Ahnung.

Hübie

2014-11-23, 10:13:06

Perf/W. Und so ein Serverraum ist gar nicht so arschkalt. Muss halt trocken und gleichmäßig sein. Wenn du den konstant zu stark abkühlst versaust du dir ja wieder den Verbrauch. Institute rechnen das zusammen. Deshalb ist die green500 auch nur die halbe Wahrheit, denn soweit ich weiß ist Peripherie da nicht berücksichtigt (man möge mich an dieser Stelle korrigieren).

Skysnake

2014-11-23, 10:25:27

Ich habe mal versucht, mich durch die Unterlagen der Green500 durchzuwühlen, um zu verstehen, was da genau gemessen wird. Also auf jeden Fall wird die Leistungsaufnahme der Computenodes gemessen, und auch des IO. Bei der Kühlung war das nicht so 100% klar, was gemessen wird, und was nicht.

Bzgl Temp:
Im Datenblatt steht ja z.B. dass die Temperatur 10-35°C bei 20-80% relativer Luftfeuchtigkeit betragen darf. Von "Arschkalt" kann da also keine Rede sein. Wenn ist das frisch/kühl, mehr aber auch nicht, zumal man sich auch nicht am unteren Ende, also den 10°C bewegen will, sondern eher bei 25-30°C. Dann muss man nämlich weniger Energie durch die Kühlung verblasen.

Für High-Density Systeme kann es unter Umständen mal bis 20°C oder so runter gehen, aber die sind dann normal auch eh in Klimazonen eingeteilt durch Vorhänge, Trennwände usw.

Wenn wird eher der Luftdurchsatz erhöht, als das man die Temperatur der Luft weiter senkt. Und ja, hinter so nem vollen Highdensity-Rack ist es unangenehm warm, und man hat nen ordentlichen Sturm, der da einem Entgegenweht. Musste mal längere Zeit in nem Serverraum arbeiten, wo son Ding stand und bin immer wieder dran vorbeigelaufen. Da willste nicht hinter stehen bleiben, selbst mit etwas Abstand. Ganz dran war es sehr sehr sehr unangenehm. Praktisch wie bei ner DHE High-End GPU, wenn gerade Furmark läuft :ugly:

differenzdiskriminator

2014-11-23, 11:38:43

Perf/W.
Wie ist denn seine Perf/W und was von diesem theoretischen Wert kriegt seine Karte tatsächlich auf die Straße?

@Skysnake: Green 500 ist wohl All-Inklusive, zumindest betont das GSI, dass ihr Supercomputer nur 10% seiner Leistungsaufnahme in die Kühlung investiert.

hasebaer

2014-11-23, 11:58:29

Von "Arschkalt" kann da also keine Rede sein.

Dann arbeite mal 10min in der Nähe der Kühlung. :rolleyes:

Hübie

2014-11-23, 18:21:00

Wie ist denn seine Perf/W und was von diesem theoretischen Wert kriegt seine Karte tatsächlich auf die Straße?

@Skysnake: Green 500 ist wohl All-Inklusive, zumindest betont das GSI, dass ihr Supercomputer nur 10% seiner Leistungsaufnahme in die Kühlung investiert.

Hm. Nein. Die Klimaanlage wird nicht mit einbezogen. Alles was nötig ist um das System zu erhalten. Also u. U. Wasserkühlung samt Radiator, Lüfter und Pumpen. Aber keine externen Geschichten. Die gehören, ob man es will oder nicht, eben in das Gesamtkonzept und sind ein tragendes Element.
Wieviel man von theoretischen Werten auf "die Straße" bekommt hängt stark von Aufgabe und vor allem Code ab. 90%+ sind nicht ungewöhnlich. Man sieht das aktuell an Mantle recht gut wie Code den Verbrauch und die Leistung beeinflussen.
@Skysnake: Dann krabbel mal hinter meinen PC Zuhause :biggrin: Da haste schon den gleichen Effekt. Brauch im Winter keine Heizung.