neue FirePros -was erwartet uns? [Archiv]

HPVD

2012-06-13, 15:36:41

Heute wurde die erste FirePro basierend auf GCN vorgestellt:

FirePro W600
http://www.amd.com/us/products/workstation/graphics/firepro-display-wall/w600/Pages/w600.aspx#5

eine hauptsächlich auf viele Displays und weniger auf brachiale 3d Leistung ausgelegte Karte mit "kleinem" Chip :

6 Mini-DisplayPorts nach dem aktuellen Standard 1.2 (reicht für 6x 4.096x2.304 Pixeln 30bit @60Hz)
2GB DDR5
75W
1-Slot Bauweise
UVD-3 (2x Full-HD-Video gleichzeitig dekodieren)
ZeroCore <3W
PCIe 3.0

600USD

http://www.computerbase.de/news/2012-06/amd-stellt-mit-firepro-w600-erste-gcn-karte-fuer-profis-vor/

Es stellt sich die Frage: wo bleiben die "Großen" Karten?
Gibt es vielleicht wirklich ein Problem mit Profi Featuren bei Thaiti?

Welche Besonderheiten erwarten uns?

HPVD

2012-06-13, 15:38:38

interessant:

...im vierten Quartal 2012 will AMD mit neuen Treibern die Ansteuerung von Projektoren verbessern. Dann sollen die FirePro-Karten auch in der Lage sein, Überlappungen und Verzerrungen an jedem einzelnen Beamer zu korrigieren.

http://www.golem.de/news/amd-firepro-w600-erste-professionelle-grafikkarte-mit-gcn-architektur-1206-92499.html

=> ob man das wohl manuell einstellen muss?

Vision: Perfekt wäre es wenn man mit einer einer Kinect das Wandprofil und die Bildränder des Nachbar-Beamers "scannt" und der Treiber die nötige Korrekturen berechnet...

HPVD

2012-06-13, 15:46:30

Im Notebookbereich wirds
die M2000 und die M4000 (1 GByte GDDR5) geben

Quelle: z.B. hier: http://www.notebookcheck.com/HP-Mobile-Workstations-HP-EliteBook-8470w-8570w-und-8770w.74567.0.html
oder auch hier:
http://www.notebookcheck.com/Dell-Details-zu-Precision-M4700-und-M6700-sowie-Alienware-M18x-R2.73484.0.html

Hugo78

2012-06-13, 17:46:37

Gibt es vielleicht wirklich ein Problem mit Profi Featuren bei Thaiti?

Davon muss man ja mittlerweile ausgehen, wenn AMD ein Jahr nach der Preview von GCN, ihre GCN FirePro mit einem "Videowall-Kärtchen" startet.

Die Karte ist im Verbund mit einer zweiten W600 und damit bis zu 12 Displays, sicherlich immernoch deutlich billiger als eine Matrox M9188,
die "nur" 8 Displays bedient, von daher will ich dem Kärtchen seine Daseinsberechtigung nicht absprechen,
aber für den GCN Profistart schaut das nicht beeindruckend aus und auch die Matrox M9188 kann man im Verbund betreiben => 16 Displays.

HPVD

2012-06-13, 21:49:46

noch eine Kleinigkeit gefunden:

New Eyefinity modes: up to six screens can now be arranged in a single horizontal line or vertical tower

http://fireuser.com/blog/amd_firepro_w600_for_digital_signage_and_display_walls_up_to_16k_x_16k_plus/

Coda

2012-06-13, 23:36:34

16k ist einfach eine DX11-Anforderung die jetzt somit vom Marketing ausgeschlachtet wird.

AnarchX

2012-06-14, 20:07:29

W9000 mit ~1GHz Tahiti:
http://cdnmo.coveritlive.com/media/image/201206/phpX2cHFk57.jpg

http://pcper.com/news/Graphics-Cards/Live-Blog-AMD-Fusion-Developer-Summit-2012-AFDS

Knuddelbearli

2012-06-14, 21:07:54

hui sogar höhere taktraten als ( am anfang ) im desktop segment nicht schlecht

und das wo 225W im profisegment ein absolutes maximum ist

AnarchX

2012-06-14, 21:18:19

Auf dem AFDS zeigt man wohl aber eine Triple-Fan-Karte: http://www.computerbase.de/news/2012-06/firepro-w9000-amd-kuendigt-profigrafikkarte-mit-4-tflops-an/
edit: New Zealand: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9345121#post9345121

Fraglich ob man da mit 225W auskommt. Die zusätzlichen 12 Speicherchips sollten die TDP schon um fast 30W erhöhen.

Knuddelbearli

2012-06-14, 21:59:29

300W wird kaum wer nehmen auch NV musste den GF1x0 entsprechend abspecken da mehr nicht offiziel zertifiziert ist

Gipsel

2012-06-14, 22:05:38

Fraglich ob man da mit 225W auskommt. Die zusätzlichen 12 Speicherchips sollten die TDP schon um fast 30W erhöhen.0,05V weniger auf den Chip (im Schnitt) sollten das schon so ziemlich kompensieren. Muß halt das Binning etwas aggressiver erfolgen. Wenn die HD7970 GHz Edition Gerüchte mit den 1075MHz stimmen, sieht das nicht unmöglich aus.

Dural

2012-06-14, 22:07:42

Profi Hardware mit mehr Takt als die Desktop Produkte?

In disem Segment zählt Energie Effizients und Stabilität / Zuverlässikeit mehr als alles andere.

Wenn sich da AMD nicht übernommen hat... :rolleyes:

http://www.computerbase.de/news/2012-06/firepro-w9000-amd-kuendigt-profigrafikkarte-mit-4-tflops-an/

Die Karte ist richtig Gross.

Knuddelbearli

2012-06-14, 22:10:46

och bis dahin dürfte die ghz edition draussen sein dann passts wieder

HPVD

2012-06-14, 22:20:38

FirePro W9000?
interessant, interessant :-)

ABER: für die W9000 steht auf dem schon benannten http://pcper.com/news/Graphics-Cards/Live-Blog-AMD-Fusion-Developer-Summit-2012-AFDS

Tag 3 10:49Uhr: "That new graphics card will shown at Siggraph"

und die Siggraph 2012 ist erst am 5–9 August 2012
http://s2012.siggraph.org/

=> mit etwas Glück haben sie dann auch dank den Thaiti Chips in der Version die auch für die "7970 Ghz " verwand werden das Abwärmeproblem etwas besser im Griff und sie müssen nicht den für eine Workstation Karte eher "lustigen" 3 Lüfter-Kühler nehmen...

HPVD

2012-06-15, 09:28:15

Update 15.06.2012 09:09 Uhr

AMD hat mittlerweile verlauten lassen, dass die auf dem AFDS gezeigte Grafikkarte nicht die FirePro W9000 gewesen ist, sondern ein noch nicht vorgestelltes Dual-GPU-Produkt. Die Vermutung legt nahe, dass es sich dabei um die Radeon HD 7990 mit zwei „Tahiti“-GPUs, Codename „New Zealand“, handelt.
http://www.computerbase.de/news/2012-06/firepro-w9000-amd-kuendigt-profigrafikkarte-mit-4-tflops-an/

AnarchX

2012-06-15, 09:40:17

0,05V weniger auf den Chip (im Schnitt) sollten das schon so ziemlich kompensieren. Muß halt das Binning etwas aggressiver erfolgen. Wenn die HD7970 GHz Edition Gerüchte mit den 1075MHz stimmen, sieht das nicht unmöglich aus.
Eine 3GiB 7970 hat momentan eine TDP/PowerTune von 250W. Da müsste man gute 50W allein mit der GPU kompensieren.

Die W9000 ist wohl eh nicht für den Rack-Einsatz gedacht und kann somit wohl auch mehr als 225W verbrauchen.

HPVD

2012-06-15, 13:04:41

wenn hier was dran ist, und der Chip der 7979GHz auch für die FirePro W9000 genutzt wird, passt es vielleicht doch in die 225W:

"Mittlerweile sind auch schon sehr ausführliche Spekulationen zu dem Produkt ins Internet gelangt. Demnach soll AMD in Verbindung mit TSMC die Fertigungsqualität der Tahiti-GPU verbessert haben, sodass diese nun gleich auf die Bezeichnung „Tahiti XT2“ hören soll. Das Ziel von dem Unterfangen: Höhere Frequenzen bei gleichzeitig niedrigerer Spannung.

Die Radeon HD 7970 GHz Edition soll dementsprechend mit gleich 1.100 MHz an den Start gehen – 175 MHz mehr als die ältere Version. Dennoch soll AMD die GPU-Spannung von 1,175 Volt auf 1,02 Volt reduzieren, sodass trotz der höheren Performance eine niedrigere Leistungsaufnahme (und damit auch Lautstärke) nicht unwahrscheinlich sind – falls die Gerüchte der Wahrheit entsprechen."

http://www.computerbase.de/news/2012-06/weitere-spekulationen-zur-radeon-hd-7970-ghz-edition/

AnarchX

2012-06-15, 13:07:27

Es gibt auch 7970 Karten mit 1,07V. Da die Leakage unterschiedlich von Chip zu Chip ist, kann man anhand der Spannung keine Aussagen über den Verbrauch treffen.

Die 7970 GHz Samples der Koreaner haben jedenfalls mehr verbraucht.

Skysnake

2012-06-16, 09:27:21

Auf dem AFDS zeigt man wohl aber eine Triple-Fan-Karte: http://www.computerbase.de/news/2012-06/firepro-w9000-amd-kuendigt-profigrafikkarte-mit-4-tflops-an/
edit: New Zealand: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9345121#post9345121

Fraglich ob man da mit 225W auskommt. Die zusätzlichen 12 Speicherchips sollten die TDP schon um fast 30W erhöhen.

Das wird man müssen. Die ganzen "GPU-Server" sind da ziemlich schwachbrüstig ausgelegt.... Da ist meist nur 2x6Pin vorhanden und das wars, auch ansonsten sind die NTs nicht gerade überdimensioniert, bzw. es gibt halt ganz klare Vorgaben an die sich gehalten werden muss. Ganz zu schweigen vom Kühlungsproblem.

Wenn ich z.B. auf meine C2070er Kisten schau, dann drehen die auf 70% hoch wenn ich auf denen Rechne, und da ist NUR eine drin. Ok ok, steht nicht im klimatisierten Raum, daher wärmer, aber wenn du da 2 Stück reinballerst, dann wirds echt eng, wobei das da nicht geht, weil nur 2x6Pin Stecker :(

Mehr als 225W, eventuell realer Verbrauch im Peak bei 250W würde ich wirklich nicht erwarten. Ansonsten können einfach zu VIELE! das Ding nicht einbauen.

WIe aber schon vorher gesagt wurde, sollte das mit dem neuen Rev. wohl machbar sein. Da sieht man mal, was AMD der frühe Launch gekostet hat bei der Effizienz.

RavenTS

2012-06-16, 14:17:28

noch eine Kleinigkeit gefunden:

New Eyefinity modes: up to six screens can now be arranged in a single horizontal line or vertical tower

http://fireuser.com/blog/amd_firepro_w600_for_digital_signage_and_display_walls_up_to_16k_x_16k_plus/

Sind für diese Auflösungen 2 GB Kartenspeicher nicht schon langsam etwas zu wenig?

ENKORE

2012-06-16, 14:57:09

Die W600 ist ja eher Low-End und dürfte beim gedachten Einsatzzweck wohl nicht viel mehr machen als eben diese 6 Bildschirme samt Framebuffer zu beheimaten, daher wird das wohl ausreichen...

AnarchX

2012-06-18, 11:06:08

The initial GPUs supported in this release are AMD FirePro W9000, FirePro S8000, and FirePro W8000 series.
http://www.drdobbs.com/parallel/240002179

Imo sind W/S8000 die 225W GPUs, S8000 wohl eine lüfterlose Server-Version.

Skysnake

2012-06-18, 11:30:19

Interessant. Wenn man wirklich mit OpenMP arbeiten könnte, wäre das schon verdammt göttlich, auch wenn die Performance natürlich schlechter wäre also ne komplett händische Implementierung.

Man würde es einfach an jeder Ecke verwenden können. Das ist schon ziemlich cool, vor allem würden auch viele alte Programme davon profitieren können, da man einfach nur nochmals compilieren müsste.

Gerade APUs könnte das nochmals nen fetten Schub geben, aber die werden ja leider nicht supported :(

HPVD

2012-06-18, 15:50:53

die W9000 müsste ja bei DP bei ca. 1TFLOP liegen (die 7970 liegt ja auch bei 0, 95 TFLOP)

=> damit ist sie ja leistungsmäßig voll konkurrenzfähig zu Intels „Knights Corner“ bzw Xeon Phi

http://www.heise.de/newsticker/meldung/ISC12-Intel-stellt-HPC-Beschleuniger-Xeon-Phi-vor-1619632.html

Skysnake

2012-06-18, 16:22:50

Kommt drauf an, wie effizient Sie ihre Rohleistung auf die Straße bekommt.

MIC soll ja 1 TFlop/s in DGEMM Schaffen, also als Realer Endwert. Da wird AMD nicht ran kommen.

HPVD

2012-06-18, 16:26:15

ok, hier soll was darüber drin stehen:
http://www.heise.de/ct/inhalt/2012/08/152/
- hab ich leider grad nicht zur Hand.

ENKORE

2012-06-18, 17:19:11

@Skysnake:
OpenMP und OpenACC kommen zwar idR nicht an eine komplette Umsetzung mittels, z.B. OpenCL ran, aaaaber: Da OMP vieeel einfacher einzusetzen ist, wird es eher eingesetzt womit der Speedup insgesamt wieder höher sein kann, als ohne OMP.

HPVD

2012-06-18, 17:20:11

Kommt drauf an, wie effizient Sie ihre Rohleistung auf die Straße bekommt.

MIC soll ja 1 TFlop/s in DGEMM Schaffen, also als Realer Endwert. Da wird AMD nicht ran kommen.

lt diesem Artikel "nur" ca 800 GFLOP/s da der Rest von den XEONs des Rechners kommt...
http://www.hpcwire.com/hpcwire/2012-06-18/intel_will_ship_knights_corner_chip_in_2012.html

egal -weitere Details zu Labree/Knight Corner/ XEON PHI gibts ja hier:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=366311&page=105

AnarchX

2012-06-29, 16:37:59

http://semiaccurate.com/2012/06/27/amd-new-firepro-details/

W9000 mit einem 300W PCB.

Mobile FirePro: http://www.amd.com/us/products/workstation/graphics/ati-firepro-mobility/Pages/amd-firepro-mobile-family.aspx

Skysnake

2012-06-29, 17:11:01

Die 300W seh ich schon als problematisch an. Viele Blades können das gar nicht versorgen...

Gipsel

2012-06-29, 17:20:31

Die 300W seh ich schon als problematisch an. Viele Blades können das gar nicht versorgen...
In die kommt die S-Serie. Die W-Serie ist für Workstations (deswegen auch die ganzen Displayport-Anschlüsse).

Skysnake

2012-06-29, 17:54:53

Stimmt auch wieder.

:biggrin:

Ich hätte ja schon gern ein paar von denen :(

AnarchX

2012-08-07, 09:28:24

Nun offiziell: http://www.heise.de/newsticker/meldung/AMD-Workstation-Grafikkarten-mit-28-nm-GPUs-und-erste-FirePro-APU-1660807.html

Ein paar der Konfigurationen wären wohl auch für den Endkunden-Markt interessant.

fondness

2012-08-07, 09:55:46

Hier eine etwas genauere Aufstellung mit vielen Folien und Bildern:
http://www.computerbase.de/news/2012-08/amd-stellt-firepro-profigrafikloesungen-gcn-vor/

Wenn AMD in diesem Segment immer so lange benötigt bis mal Karten kommen darf man sich nicht wundern wenn man kaum Marktanteile hält. Von der S-Serie für Server fehlt noch immer jede Spur.

Hier gibt es inzwischen bereits eine ausführlichen Test: http://www.tomshardware.de/firepro-gcn-workstation-grafikkarte,testberichte-241074.html

Spasstiger

2012-08-07, 10:10:21

Endlich kommt AMD mal in die Pötte und stellt das Produkt vor, bei dem sich die knapp 400 mm² Diefläche in 28 nm tatsächlich lohnen. AMD hätte schon seit Monaten den Markt für professionelle Grafikkarten anführen und Markanteile sichern können. Jetzt rücken Xeon Phi und GK110 immer näher und die bestehenden Kepler-Verträge mit Nvidia wird Cray wohl auch nicht mehr auflösen.

Skysnake

2012-08-07, 10:59:09

Ganz sicher nicht ;)

Tja, AMD ist halt irgendwie nie zur richtigen Zeit am richtigen Ort in den letzten Jahren....

XeonPhi und GK110 werden für die "breite" Masse allerdings noch einige Zeit benötigen. Ich würde bei beiden erst mit 2013 rechnen. Von daher kommt AMD nochmals mit einem blauen Auge davon. Es ist allerdings schon sehr schmerzlich, denn Sie hätten halt RICHTIG abräumen können, da eben absolut konkurrenzlos. Jetzt müssen Sie sich halt mit K10 rum schlagen...

Ailuros

2012-08-07, 11:36:31

Es wird nie so weit kommen dass ein jeglicher IHV es allen recht machen kann; ueberhaupt mit dem heutigen 28nm Schlammassel muessen IHVs auch ihre Prioritaeten setzen.

Haette AMD irgendwelche Prioritaeten fuer FirePROs gesetzt, haetten dann wieder die mainstream 3D users gemeckert weil darunter die desktop GPUs gelitten haetten. Unter diesem Licht sollte mir jemand mal erklaeren wieso es eine logischere Loesung gewesen waere den desktop Markt zu vernachlaessigen und hier im Gegenfall NVIDIA einen Vorsprung zu schenken.

Sowohl IHVs als auch foundries muessen irgend eine Loesung fuer die Zukunft finden, denn die heutige Situation (von high end bis zu small form factor) fuer 28nm ist alles andere als ideal und nein dieses begrenzt sich leider nicht nur auf eine foundry.

Spasstiger

2012-08-07, 15:47:30

Wenn man sich die Benchmarks bei THG anschaut, dann sind die FirePro-Treiber noch nicht wirklich für die Zielgruppenanwendungen ausgereift. Vielleicht fehlt nach den ganzen Personaländerungen auch die Expertise.

/EDIT: Sowas z.B.:
http://www.abload.de/img/0101_catia_854ofa.png
Trotz 8xMSAA kommt die W9000 nicht über die Performance der Quadro 2000 (GF106) hinaus. Ohne AA siehts noch viel schlimmer für die Fire Pro aus. Dabei sollte die Tahiti-GPU in jeder einzelnen Metrik der GF106-GPU klar überlegen sein! 15 fps sind auch kaum akkzeptabel, wenn die direkte Konkurrenz bei 30 fps sieht. Eigentlich müsste da doch Jemand bei AMD aufstehen und ein oder zwei Leute dafür abstellen, genau dieses Problem zu beheben.

Gipsel

2012-08-07, 19:01:29

Wenn man sich die Benchmarks bei THG anschaut, dann sind die FirePro-Treiber noch nicht wirklich für die Zielgruppenanwendungen ausgereift. Vielleicht fehlt nach den ganzen Personaländerungen auch die Expertise.

/EDIT: Sowas z.B.:
http://www.abload.de/img/0101_catia_854ofa.png
Trotz 8xMSAA kommt die W9000 nicht über die Performance der Quadro 2000 (GF106) hinaus. Ohne AA siehts noch viel schlimmer für die Fire Pro aus. Dabei sollte die Tahiti-GPU in jeder einzelnen Metrik der GF106-GPU klar überlegen sein! 15 fps sind auch kaum akkzeptabel, wenn die direkte Konkurrenz bei 30 fps sieht. Eigentlich müsste da doch Jemand bei AMD aufstehen und ein oder zwei Leute dafür abstellen, genau dieses Problem zu beheben.Häufig sieht man auch eine extreme Gruppierung der Ergebnisse bzw. eine Unabhängigkeit vom AA, die vermuten lassen, daß die Ergebnisse oft nicht wirklich GPU-limitiert sind. Und dann gibt es natürlich auch Extreme in die andere Richtung:
http://www.abload.de/img/0208_image20surface20z4xcj.png

|MatMan|

2012-08-07, 19:33:23

Naja die "Extreme in die andere Richtung" (also für die neuen FirePros) sind aber leider die deutlich selteneren. Sogar bei den meisten OpenCL Tests werden die neuen FirePros von der alten Generation Quadros verhauen - was passiert dann erst wenn die Kepler-Quadros kommen? :eek:

Hier sieht man wieder eindeutig dass zu wenig Arbeit in den Treiber gesteckt wird... ;(

Gipsel

2012-08-07, 19:38:08

Naja die "Extreme in die andere Richtung" (also für die neuen FirePros) sind aber leider die deutlich selteneren. Sogar bei den meisten OpenCL Tests werden die neuen FirePros von der alten Generation Quadros verhauen - was passiert dann erst wenn die Kepler-Quadros kommen? :eek:

Hier sieht man wieder eindeutig dass zu wenig Arbeit in den Treiber gesteckt wird... ;(
Ich wollte damit ja auch nur das Treiber-Argument von Spasstiger stärken. Allgemein weiß ich nicht so recht, was ich von diesen komischen OpenCL-Benchmarks in dem Test dort halten soll. Die Ergebnisse sehen für mich nicht wirklich konsistent aus. Keine Ahnung, was die Benchmark-Programmierer da machen, um irgendwelche Corner Cases zu provozieren. Wirklich aussagekräftig sieht das für mich nicht aus.

boxleitnerb

2012-08-09, 12:43:58

Review bei HotHardware:
http://hothardware.com/Reviews/AMDs-New-FirePro-W8000-W9000-Challenge-Nvidias-Quadro/

Aua, mehr gibts da nicht zu sagen.

Skysnake

2012-08-09, 12:55:20

Ähm...

The sharp-eyed will notice that the AMD cards have the same number of ROPs (Raster Operation Pipelines) in both cards, while the Quadro 6000 picks up a further 16 units relative to the Quadro 4K. Could this design difference account for the FirePro's relatively poor scaling?

Partially, yes. There are, however, too many places where AMD's scaling fails (or even moves backwards) to pin the problem on ROP count. If ROPs were the limiting factor, we'd expect to see scaling that was significantly influenced by clock rate and fill rate. The W9000's typical speed gain of 11% is far below its 34% clock rate improvement.

Gabs die ROP Diskussion nicht schon einige male hier im Forum, und man ist immer zu dem Ergebnis gekommen, dass die AMD ROPs nicht limitieren können, weil Sie mehr Durchsatz schaffen, als Sie überhaupt mit Daten versorgt werden können???

boxleitnerb

2012-08-09, 12:58:08

Ja, es hieß die ROPs wurden im Vergleich zu Cayman deutlich aufgebohrt. Quelle find ich leider grad nicht mehr.

Locuza

2012-08-09, 22:52:56

Ja, es hieß die ROPs wurden im Vergleich zu Cayman deutlich aufgebohrt. Quelle find ich leider grad nicht mehr.
Ich habe in Erinnerung das an den ROPs gar nichts gemacht wurde, diese aber bei Cayman verhungert sind, weswegen eher 22-24 effektiv versorgt werden konnten.

Skysnake

2012-08-10, 00:13:08

Ist ja auch ziemlich egal, wies jetzt genau war.

Der srpingende Punkt ist doch, wie man diese recht einfache/triviale Erklärung bewerten soll. Wenns so einfach wäre, hätten die Leute bei AMD was anders gemacht, denn eins muss man denen lassen. Hardware können Sie bauen, die Softwareleute sollten sich da mal eine Scheiben von abschneiden...

Was soll man also von dem Test und insbesondere von der Schlüssen halten eurer Meinung nach?

Ich für meinen Teil bin da irgendwie SEHR skeptisch. Das ist einfach zu einfach....

Blediator16

2012-08-10, 00:48:38

Ist ja auch ziemlich egal, wies jetzt genau war.

Der srpingende Punkt ist doch, wie man diese recht einfache/triviale Erklärung bewerten soll. Wenns so einfach wäre, hätten die Leute bei AMD was anders gemacht, denn eins muss man denen lassen. Hardware können Sie bauen, die Softwareleute sollten sich da mal eine Scheiben von abschneiden...

Was soll man also von dem Test und insbesondere von der Schlüssen halten eurer Meinung nach?

Ich für meinen Teil bin da irgendwie SEHR skeptisch. Das ist einfach zu einfach....

Das denke ich mir auch so langsam. Man weiß doch, dass AMD einen scheiss Ruf bei den Treibern hat und dann liefert man so eine Katastrophe aus. Was denken sich diese Leute da eigentlich:rolleyes:

Skysnake

2012-08-10, 00:53:18

Zu so manchen Testern ist das aber scheinbar noch nicht durchgedrungen, wenn man obigen Test sieht, wo gleich so was wie die ROPs als Übeltäter auserkohren werden :ugly:

Dabei sieht man doch, dass die Werte an sich selbst wenn Sie Schuld wären, jenseits von Gut und Böse liegen :ugly:

Aber naja, schauen wir mal, was die nächsten 2 Jahre wird. Dann sollten die Ergebnisse des neuen CEO vollständig zu sehen sein. Hoffen wir, das er mal den Laden auf Vordermann bekommt...

mczak

2012-08-10, 05:58:40

Diese "Pro" Tests sind traditionell ja SEHR geometrielastig. Dinge wie Texturfüllrate, Speicherbandbreite kann man da praktisch vergessen. Und ja die Quadro 6000 hat da immer noch einen theoretischen (und wohl auch praktischen...) Vorteil (4 Tris/Takt gegenüber 2 Tris/Takt). Vermutlich wäre da auch die W7000 (mit Pitcairn-Chip der hat ja dasselbe Frontend) ähnlich schnell wie die W8000/W9000.
Das Ergebnis ist natürlich trotzdem enttäuschend (auch wenn ich SpecViewPerf nicht gerade sonderlich vertraue).

Ailuros

2012-08-10, 08:34:25

Ist ja auch ziemlich egal, wies jetzt genau war.

Der srpingende Punkt ist doch, wie man diese recht einfache/triviale Erklärung bewerten soll. Wenns so einfach wäre, hätten die Leute bei AMD was anders gemacht, denn eins muss man denen lassen. Hardware können Sie bauen, die Softwareleute sollten sich da mal eine Scheiben von abschneiden...

Was soll man also von dem Test und insbesondere von der Schlüssen halten eurer Meinung nach?

Ich für meinen Teil bin da irgendwie SEHR skeptisch. Das ist einfach zu einfach....

Man kann es durch eine andere Perspektive noch einfacher ansehen: AMD widmet Profi-Maerkten immer noch nicht die notwendige Konzentration um NVIDIA aggressiver zu konfrontieren. Kein IHV hat unendliche Resourcen und innerhalb dieser Begrenzungen setzt man einfach Prioritaeten.

Es ist eben nicht so dass die jeweiligen engineers (egal ob hw oder sw) nur dumm herumhocken (oder auch keine Erfahrung haben) bei AMD oder sonst wo. Man versucht eben stets das bestmoegliche zu liefern unter den gegebenen Moeglichkeiten und Begrenzungen.

boxleitnerb

2012-11-10, 14:09:12

13 und 14 SMX stimmen:

Nvidia and Advanced Micro Devices on Monday announced high-performance graphics chips for supercomputers.

Nvidia announced GPUs (graphics processing units) called K20 and K20X, with the latter being used in Titan, a 20-petaflop supercomputer at the U.S. Department of Energy's Oak Ridge National Laboratory. AMD announced the FirePro SM10000 graphics processor, which is targeted at high-performance computers and servers in virtualized environments.
[..]
The Titan supercomputer pairs 18,688 Nvidia Tesla K20X GPUs with 18,688 AMD 16-core Opteron 6274 CPUs,
[..]
Nvidia's K20 has 5GB of memory and delivers 1.17 teraflops of double-precision performance and 3.52 teraflops of single-precision performance.
[..]
The faster K20X has 6GB of memory and delivers 1.31 teraflops of double-precision performance.
[..]
AMD claimed that its FirePro SM10000 delivered 1.48 teraflops of peak double-precision performance. The graphics card has 6GB of memory.

http://www.computerworld.com.au/article/441702/nvidia_amd_release_graphics_processors_supercomputing/

Thx@sontin im Luxx.

Von AMD kommt eine FirePro mit 2 Tahiti GPUs (hätte ich jetzt nicht gedacht) mit 1.48 Teraflops DP. Also taktet ein Chip mit 732 MHz. TDP unbekannt.

Skysnake

2012-11-10, 14:14:09

Doch dafür gab es schon Anzeichen.

In nem Topic von mir im AMD devguru Forum hatte sich mal nen AMD´ler dazu geäußert, das man an MultiGPU arbeitet, ist dann aber nicht mehr näher drauf eingengangen, nur das man eben warten soll. Ist nun aber auch knapp nen 3/4 Jahr her :ugly:

boxleitnerb

2012-11-10, 14:18:11

Interessant. Warum bringt man nicht einfach ne FirePro mit 1:2 DP/SP? Die Architektur gibts ja angeblich her. Wozu dann zwei Chips auf ein PCB packen? Die W9000 kostet jetzt schon $3999 (SRP), die K20 wird bei $3199 liegen, wobei hier nicht klar ist ob mit X oder ohne - eher ohne. Die W10000 wird sicher nicht billiger als die W9000 und nur gute 10% schneller als die K20 bei sicher mehr wie 225W TDP.

Ailuros

2012-11-10, 14:22:06

Interessant. Warum bringt man nicht einfach ne FirePro mit 1:2 DP/SP? Die Architektur gibts ja angeblich her. Wozu dann zwei Chips auf ein PCB packen? Die W9000 kostet jetzt schon $3999 (SRP), die K20 wird bei $3199 liegen, wobei hier nicht klar ist ob mit X oder ohne - eher ohne. Die W10000 wird sicher nicht billiger als die W9000 und nur gute 10% schneller als die K20 bei sicher mehr wie 225W TDP.

Und wie sieht es mit Intel aus?

fondness

2012-11-10, 14:47:25

Interessant. Warum bringt man nicht einfach ne FirePro mit 1:2 DP/SP? Die Architektur gibts ja angeblich her. Wozu dann zwei Chips auf ein PCB packen?

Weil es sich natürlich nicht mal annähernd lohnt für die paar benötigen Karten einen neuen Chip zu entwickeln und zu produzieren.

Edit:
Die 225W TDP gelten jetzt für K20 oder K20X? Wenn für K20, dann wäre das schon etwas schade.

AFAIK sind alle aktuell verfügbaren Server-Racks namhafter Hersteller auf eine TDP von max. 225W ausgelegt was Kühlung und Stromversorgung betrifft. Wenn ein IHV nicht verdammt gute Gründe hat warum Firmen wie Cray, HP oder Dell ihre Racks neu konzipieren müssen wäre es äußerst ungeschickt eine höhere TDP zu veranschlagen weil man zu sämtlichen aktuell verfügbaren Lösungen inkompatibel wäre.

Die entsprechenden Server-Pendants von AMD/Intel/Nvidia werden also mit großer Wahrscheinlichkeit nicht mehr als 225W benötigen. Im Workstation-Bereich ist das natürlich was anderes.

Gipsel

2012-11-10, 15:04:46

Interessant. Warum bringt man nicht einfach ne FirePro mit 1:2 DP/SP? Die Architektur gibts ja angeblich her. Wozu dann zwei Chips auf ein PCB packen?Für einen Markt, in dem man praktisch kaum vertreten ist, extra einen neuen Chip auflegen und zu validieren kostet so viel Geld, daß AMD damit wohl nur rote Zahlen schreiben könnte. Auch mit eine einzelnen Tahiti liegt man jetzt von den möglichen Leistungsdaten eigentlich nicht so schlecht, selbst gegen GK110. Es scheitert eher an der suboptimalen Softwareunterstützung.
Die W9000 kostet jetzt schon $3999 (SRP), die K20 wird bei $3199 liegen, wobei hier nicht klar ist ob mit X oder ohne - eher ohne. Die W10000 wird sicher nicht billiger als die W9000 und nur gute 10% schneller als die K20 bei sicher mehr wie 225W TDP.Schon mal auf die SP-Leistung geschaut? Das sind 5,94 TFLOP/s (K20: 3,51 TFLOP/s; K20X: 3,93 TFLOP/s). Und nein, die ist nicht unwichtig. Und da die Tahitis nur mit 725 MHz takten, können die richtig selektiert (mit geringen Spanungen) recht stromsparend ausfallen. Unter 250 Watt sind da schon drin.

boxleitnerb

2012-11-12, 08:19:03

Für einen Markt, in dem man praktisch kaum vertreten ist, extra einen neuen Chip auflegen und zu validieren kostet so viel Geld, daß AMD damit wohl nur rote Zahlen schreiben könnte. Auch mit eine einzelnen Tahiti liegt man jetzt von den möglichen Leistungsdaten eigentlich nicht so schlecht, selbst gegen GK110. Es scheitert eher an der suboptimalen Softwareunterstützung.
Schon mal auf die SP-Leistung geschaut? Das sind 5,94 TFLOP/s (K20: 3,51 TFLOP/s; K20X: 3,93 TFLOP/s). Und nein, die ist nicht unwichtig. Und da die Tahitis nur mit 725 MHz takten, können die richtig selektiert (mit geringen Spanungen) recht stromsparend ausfallen. Unter 250 Watt sind da schon drin.

Takt ist doch höher laut SA, 825 MHz, dafür weniger Cores. TDP liegt bei 375W. In die Standardracks wird man damit dann wohl nicht reinkommen, der Fokus liegt eher im Bereich VDI.
http://semiaccurate.com/2012/11/11/amd-launches-dual-gpu-firepro-s10000/

AnarchX

2012-11-12, 09:29:12

Im Endeffekt ist man mit der S9000 @ 225W TDP aber auch nicht so schlecht aufgestellt.

Gipsel

2012-11-12, 11:13:02

Takt ist doch höher laut SA, 825 MHz, dafür weniger Cores. TDP liegt bei 375W. In die Standardracks wird man damit dann wohl nicht reinkommen, der Fokus liegt eher im Bereich VDI.
http://semiaccurate.com/2012/11/11/amd-launches-dual-gpu-firepro-s10000/Hmm, fällt Jemandem ein Grund ein, warum die nicht zwei volle Tahitis bei 725MHz und geringen Spannungen nehmen? Ist die Raster-/ROP-Performance so wichtig in dem Markt?

fondness

2012-11-12, 11:15:45

Hmm, fällt Jemandem ein Grund ein, warum die nicht zwei volle Tahitis bei 725MHz und geringen Spannungen nehmen? Ist die Raster-/ROP-Performance so wichtig in dem Markt?

Eigentlich sollte die Raster-/ROP-Performance weitgehend egal sein. Das kam mir schon bei der S9000 seltsam vor das man keinen vollen Tahiti mit geringerer Spannung verbaut.

Hübie

2012-11-12, 12:34:54

Hmm, fällt Jemandem ein Grund ein, warum die nicht zwei volle Tahitis bei 725MHz und geringen Spannungen nehmen? Ist die Raster-/ROP-Performance so wichtig in dem Markt?

Das kann man sich ja denken: TDP. Dieses Geschoss is primär für den Einsatz von virzuellen Desktops konzipiert. Die Server solcher Aufgabengebiete haben oft recht bescheidene Netzteile. Da ist es wichtig ein stabiles Verhalten zu gewährleisten. Selbst 99% sind da schon zu wenig. Schau mal den Verbrauch einer 7990 an und rechne den Takt runter (skaliert ja recht proportional wenn die Spannung konstant bleibt).

Eventuell auch zusätzlich ne Ergonomie-Geschichte...

Gipsel

2012-11-12, 13:13:55

Das kann man sich ja denken: TDP.Und genau aus diesem Grund wäre eine voller Chip bei niedrigeren Taktraten besser. ;)

Hübie

2012-11-12, 13:41:17

Doppelpost vom smartphone :rolleyes:

Knuddelbearli

2012-11-12, 13:44:45

nur währe dann ein voller chip bei zB 675 mhz effizienter ^^

boxleitnerb

2012-11-12, 14:55:39

Und auf wieviel würde die S10000 oder S9000 in so einer Konfiguration kommen? Nvidia hat hier offenbar bei der Effizienz aufgeschlossen, das ist doch gut. Mich würden konkrete Vergleichswerte interessieren.

Gipsel

2012-11-12, 15:44:53

Und auf wieviel würde die S10000 oder S9000 in so einer Konfiguration kommen? Nvidia hat hier offenbar bei der Effizienz aufgeschlossen, das ist doch gut. Mich würden konkrete Vergleichswerte interessieren.
Schon ein bißchen älter, aber hier (http://university.jwdt.org/Reports/CALDGEMM.HPL.Technical.Report.pdf) kam man mit AMD-GPUs auch über hunderte Knoten noch auf ~70% DGEMM Effizienz mit Cypress-Karten.
Nur die GPU betrachtet kam man mit dem DGEMM Kernel auf >90%, ein einzelner Knoten erreichte ungefähr 85% Effizienz (gerechnete Flops / Summe der Peakflops von GPU und CPU) *), mit dem kompletten HPL-Code auf einem Knoten waren es dann noch bei 75,54% (kann man auch auf 76% runden ;)) und auf mehreren Knoten dann schlußendlich etwa 70% (70,6% auf 4 Knoten, 69,7% auf 550 Knoten). Das liegt also vollkommen gleichauf zu den Effizienzwerten mit K20X bzw. bei Titan (~65%).
Du hast also recht, gut das nV hier aufschließen konnte.

*):
Die Angaben von nV mit den 92% gelten auch nur für den Kernel und die 76% sind auch genau so (Summe der GPU- und CPU-Flops als Grundlage) berechnet.

Hübie

2012-11-12, 15:57:54

Und genau aus diesem Grund wäre eine voller Chip bei niedrigeren Taktraten besser. ;)

Öh. Du hast aber gefragt warum nicht volle Einheiten und weniger Spannung... :cool:

Gipsel

2012-11-12, 16:17:50

Öh. Du hast aber gefragt warum nicht volle Einheiten und weniger Spannung... :cool:
Und das frage ich immer noch: Warum nicht 32CUs bei 725 MHz statt 28 CUs bei 825 MHz? Erstere Variante verbraucht insbesondere mit abgesenkten Spannungen deutlich weniger bei praktisch identischen Werten bezüglich absoluter Numbercrunching-Leistung (Setup/Raster/ROPs sollten bei den FirePro S Varianten eher nebensächlich sein).

AnarchX

2012-11-12, 16:36:27

Und das frage ich immer noch: Warum nicht 32CUs bei 725 MHz statt 28 CUs bei 825 MHz? Erstere Variante verbraucht insbesondere mit abgesenkten Spannungen deutlich weniger bei praktisch identischen Werten bezüglich absoluter Numbercrunching-Leistung (Setup/Raster/ROPs sollten bei den FirePro S Varianten eher nebensächlich sein).
Irgendwo gab es mal Skalierungsbenchmarks zwischen 7950 und 7970, wo die 7950 teilweise eine erheblich bessere Leistung aufwies bei bestimmten Shadern. Vielleicht sind 32 CU für bestimmte Workloads einfach zuviel für das Front- und Back-End für Tahiti.

Hübie

2012-11-12, 16:56:02

@Gipsel: Fairerweise hättest du das mit den Taktraten auch dazu schreiben sollen. Die Antwort wieso nur 28 statt 32 CU kann man damit begründen dass du so mehr Cache pro ALU hast. AnarchX erwähnte es bereits. Vielleicht ist dass der beste Spagat aus Leistung, Verbrauch und Preis. Wie gesagt ist es eine andere Zielgruppe als bpsw. K20(X). K20 ist nur in Kombi mit einer Quadro zu gebrauchen. Viele Filmemacher nutzen diese Kombos. Da brauchst du renderingspeed.
S10000 zielt dagegen eher auf mittelständige Unternehmen die hier und da mal CAD machen, Rechnungen schreiben, animierte Präsentationen halten etc. Perfekt für meinen Arbeitgeber beispielsweise.

Die Frage ist: Kann man die Aufgaben dynamisch verteilen oder hat nun jeder fixe Adressräume. Bei AMD hapert es leider immer noch an guter Software bzw. Dokumentation/SDKs etc...

Gipsel

2012-11-12, 18:03:17

Irgendwo gab es mal Skalierungsbenchmarks zwischen 7950 und 7970, wo die 7950 teilweise eine erheblich bessere Leistung aufwies bei bestimmten Shadern. Vielleicht sind 32 CU für bestimmte Workloads einfach zuviel für das Front- und Back-End für Tahiti.Für das Numbercrunching, für das die FirePro S-Versionen üblicherweise ausgelegt sind, sollte das aber kein Problem sein. Ist ja keine FirePro W wie Workstation. ;)
@Gipsel: Fairerweise hättest du das mit den Taktraten auch dazu schreiben sollen.
Habe ich doch:
Takt ist doch höher laut SA, 825 MHz, dafür weniger Cores. TDP liegt bei 375W. In die Standardracks wird man damit dann wohl nicht reinkommen, der Fokus liegt eher im Bereich VDI.
http://semiaccurate.com/2012/11/11/amd-launches-dual-gpu-firepro-s10000/Hmm, fällt Jemandem ein Grund ein, warum die nicht zwei volle Tahitis bei 725MHz und geringen Spannungen nehmen?:rolleyes:
Die Antwort wieso nur 28 statt 32 CU kann man damit begründen dass du so mehr Cache pro ALU hast.Das bißchen Unterschied beim Cache ist völlig irrelevant. Bei einer CPU würde sich sich auch nichts Wesentliches ändern, wenn man statt 2 MB mit einem Mal 2,2 MB hätte. Die Menge an L1-Cache skaliert sowieso mit den CUs und beim L2-Cache ist der Unterschied wie gesagt kaum relevant. Wäre es anders, müßte z.B. Pitcairn komplett gegenüber CapeVerde abstinken, die haben nämlich beide die exakt gleiche Menge an L2 (und Pitcairn hat doppelt so viele CUs).
AnarchX erwähnte es bereits. Vielleicht ist dass der beste Spagat aus Leistung, Verbrauch und Preis.Gerade das bezweifle ich für das Aufgabenspektrum einer FirePro S.
Wie gesagt ist es eine andere Zielgruppe als bpsw. K20(X). K20 ist nur in Kombi mit einer Quadro zu gebrauchen. Viele Filmemacher nutzen diese Kombos. Da brauchst du renderingspeed.
S10000 zielt dagegen eher auf mittelständige Unternehmen die hier und da mal CAD machen, Rechnungen schreiben, animierte Präsentationen halten etc. Perfekt für meinen Arbeitgeber beispielsweise.Die hätte aber das Potential gehabt, gewissermaßen einen perfekten Blend zwischen K10 und K20 zu erreichen. Nehmen wir nur mal die Variante mit 2 vollen Tahitis bei 725 MHz und 300W TDP an. Man wäre bei SP-Flops/W nur ganz knapp (3%) hinter dem K10 gewesen, würde aber 30% höhere SP-Performance bieten, fast 8 mal so hohe DP-Performance, 50% höhere Speicherbandbreite und richtiges ECC (also auch auf den internen SRAMs, nicht so eine halbes PR-Feature wie beim K10).
Gegenüber dem K20 wäre man genau wie jetzt bei der absoluten DP-Performance vorne (mit dem Malus der Dual-GPU-Lösung), bei der DP-Performance pro Watt allerdings nur knapp hinten (5%, statt jetzt deutlich mehr) und bei der SP-Performance natürlich recht deutlich vorne, genau wie bei der SP-Performance/Watt.
Man hätte also mit einem Produkt sowohl gegen die K10- als auch K20-Karten antreten können, die von der Auslegung der FirePro S-Serie die normalen Gegenparts wären.
Die FirePro S haben ja nur als Goodie normalerweise noch einen einzigen DisplayPort-Ausgang (statt komplett ohne Displayausgänge dazustehen wie die Teslas). Wenn man bei der FirePro S10000 mehr verbaut, könnte man das auch als Angebot an die von Dir erwähnten Anwendungen in mittelständischen Firmen verstehen, die damit eventuell auf eine Extra-Visualisierungsworkstation bzw. -karte sogar verzichten können (die ~13% extra Rasterleistung machen den Kohl ja auch nicht wirklich fett).
Die Frage ist: Kann man die Aufgaben dynamisch verteilen oder hat nun jeder fixe Adressräume.Das funktioniert ziemlich genau so wie bei der K10. Programmierst Du es selber, darfst/mußt Du die Aufgaben natürlich auch selber verteilen. Benutzt Du entsprechende Bibliotheken, erledigen die das hoffentlich für Dich.

Edit:
Sogar AMDs Dave Baumann schlägt bei B3D ein wenig in die gleiche Kerbe wie ich (http://forum.beyond3d.com/showthread.php?p=1678991#post1678991).
"S" pretty much stands for server, and these are targetted towards number crunching workloads not CAD workloads; Visualisation and sim are more maths problems. So these are more inline with prior "Firestream" offering than Quadro competitors.:rolleyes:
Eigentlich ist es ja auch klar, FirePro W ist das Äquivalent zu den Quadros, FirePro S konkurriert eher gegen die Teslas.

Hübie

2012-11-12, 20:09:06

Wir reden hier von ein paar Kilobytes. Da ist es sehr wohl ein Unterschied ob 16 durch 32 oder 28 geteilt werden. Tahiti hat afaik 4 SRAM-ZellenBlöcke. Ein instruction-cache, ein skalaren data-share cache für je 4 CUs und einen "großen" shared data-cache mit dem alle kommunizieren können.Aber da ich vom programmieren wenig verstehe kann ich das nicht beschwören. Das keimt halt immer wieder aus Unterhaltungen hervor.
Wieso die sich so entschieden haben können wir nur weiter spekulieren. Du fragtest ich antwortete. Sonst frag Baumann ;) Ich sehe die S nicht als Tesla-only Konkurrent sondern Tesla&Quadro. Immerhin hat diese ein Displayport. Äh, also ein Anschluß für einen Bildschirm - nicht den Industriestandard. Aber auch ohne kannst du da schön viele Desktops drauf laufen lassen. Ist halt nur benutzerfreundlicher. Der Begriff CAD ist sehr weitläufig. "Wir" brauchen das nur um recht simple Modelle zu erstellen. Das kann man sogar mit einem Rechenschieber bewerkstelligen. Mein Dad hat am A380 mitgewirkt und hatte da tonnenweise Daten die erst mal geladen werden mussten - da wäre eine S10000 hoffnungslos überfordert.

Das mit den 725 MHz ist wohl an mir vorbeigeflogen. Oder hast du heimlich editiert? ;D Sorry.
Deine 300 Watt finde ich aber schon recht optimistisch. Könnte eng werden. Wie sind eigtl. die Spannungen bei der HD7990? Habe diese Karte gekonnt ignoriert.

Was hast du denn für Antworten/Hypothesen auf deine Frage?

AnarchX

2012-11-12, 20:11:55

Hier stellt man die S10000 gegen Quadro und Tesla: http://www.pcgameshardware.de/AMD-Radeon-Hardware-255597/News/AMD-stellt-Firepro-S10000-vor-1035261/galerie/2012425/

Insofern könnte die Geometrie-Leistung wohl doch eine Rolle spielen. Laut Specs ist wohl sogar Boost möglich. Vielleicht bis zu 1GHz für Wireframe-Darstellungen?

Hübie

2012-11-12, 20:25:05

Die wird in anbetracht des Preises und meiner Argumente oben gegen beide gestellt. Wenns ums stumpfe Rechnen geht greift man halt eher zur K20, da die eine bessere Effizienz aufweist.

Gipsel

2012-11-12, 21:00:42

Wir reden hier von ein paar Kilobytes. Da ist es sehr wohl ein Unterschied ob 16 durch 32 oder 28 geteilt werden.
X/28 oder X/32 ergibt in jedem Fall ein sehr ähnliches Ergebnis, völlig unabhängig von der Größe von X. Daß kann gar nicht entscheidend sein, weil es im Normalfall auch gar nicht limitiert.
Tahiti hat afaik 4 SRAM-Zellen.Ich vermute mal ganz stark, das sind etliche Milliönchen mehr. Eine SRAM-Zelle speichert nämlich nur ein einziges Bit. ;)
Ein instruction-cache, ein skalaren data-share cache für je 4 CUs und einen "großen" shared data-cache mit dem alle kommunizieren können. Aber da ich vom programmieren wenig verstehe kann ich das nicht beschwören. Das keimt halt immer wieder aus Unterhaltungen hervor.Okay, dann mal ein Crashkurs für die GCN-Architektur:
In jeder CU (und davon gibt es bekanntlich bis zu 32) gibt es 4 x 64kB Vektor-Register (für jeden Scheduler/ jede Vektor-ALU getrennt, ist auch SRAM bei GPUs) sowie 4 x 2 kB Skalar-Register (auch für jeden Scheduler getrennt). Dann noch 64 kB shared memory (gemeinsam für alle Scheduler/vALUs, natürlich auch SRAM) sowie 16 kB Vektor-L1-Daten-Cache (read-write, unified mit Textur-Cache). Drei bis vier CUs (je nach GPU bzw. kann das sogar innerhalb einer GPU variieren) teilen sich dann 32 kB Skalar-L1-Daten-Cache (der ist read-only) sowie 32kB L1-Instruktionscache (auch read-only). Für alle CUs zusammen gibt es dann den L2 (read-write), an dem sowohl die ganzen Vektor-L1D-Caches, Skalar-L1D-Caches als auch L1I-Caches hängen (die Größe beträgt 512kB bei Pitcairn und CapeVerde sowie 768kB bei Tahiti). Zusätzlich gibt es noch einen 64kB GlobalDataShare. Dann kommen natürlich noch etliche Puffer dazu, die man nicht explizit ansprechen kann, die aber ebenfalls aus SRAM bestehen. Beispiele wären z.B. die WriteCombining Puffer (erinnere mich gerade nicht an die Größe bei GCN, aber bei Cayman waren es iirc 2 x 4 kB), natürlich die TileCaches in jeder ROP-Partition (jeweils zwei: Color und Z) sowie vermutlich noch Unmengen andere Stellen, wo ein paar SRAM-Zellen anfallen.
Wieso die sich so entschieden haben können wir nur weiter spekulieren. Du fragtest ich antwortete.Nur überzeugen mich die Antworten nicht. ;)
Sonst frag Baumann ;)Habe ich schon. Der kann sich auch keinen Reim drauf machen und zieht sich darauf zurück, daß er mit den FirePros nicht so viel zu tun hat (er kann ja schlecht öffentlich sagen, daß die Entscheidung Mist ist). :rolleyes:
Ich sehe die S nicht als Tesla-only Konkurrent sondern Tesla&Quadro. Immerhin hat diese ein Displayport. Äh, also ein Anschluß für einen Bildschirm - nicht den Industriestandard.Das ist schon ein standardkonformer Display-Port-Anschluß, den die FirePro S haben (die FirePro W haben glaube ich alle mindestens 4). Nur die S10000 hat mehr.
Aber auch ohne kannst du da schön viele Desktops drauf laufen lassen. Ist halt nur benutzerfreundlicher. Der Begriff CAD ist sehr weitläufig. "Wir" brauchen das nur um recht simple Modelle zu erstellen. Das kann man sogar mit einem Rechenschieber bewerkstelligen. Mein Dad hat am A380 mitgewirkt und hatte da tonnenweise Daten die erst mal geladen werden mussten - da wäre eine S10000 hoffnungslos überfordert.Die FirePro S sind explizit nicht für CAD-Workstations gemacht, da sollen FirePro W-Modelle rein (wo dann etwas mehr Setup/Rasterleistung helfen kann).
Was Du beschreibst, hat ja erstmal nicht viel mit der Thematik zu tun. Auch eine einzelne Quadro oder meinetwegen auch im Doppelpack mit einer Tesla wird wohl nur jeweils eine relativ kleine Baugruppe des A380 darstellen können.
Das mit den 725 MHz ist wohl an mir vorbeigeflogen. Oder hast du heimlich editiert? ;D Sorry.Edits von Posts, die älter als 60 Sekunden sind, werden mit Zeitstempel vermerkt. Immer, auch bei Mods. ;)
Deine 300 Watt finde ich aber schon recht optimistisch. Könnte eng werden.Ein Zehntel Volt weniger und Du bist locker da. Und bei 725MHz sollte das mit dem richtigen Binning wohl drin sein. NV hat ja auch für die Tesla K10 zwei GK104 (mit sogar 2 GB mehr RAM in 33% mehr Speicherchips) in 225W gequetscht und ist dafür auf 745 MHz runter gegangen. Ich sehe das Problem nicht (und für den Notfall hat man Powertune).
Hier stellt man die S10000 gegen Quadro und Tesla: http://www.pcgameshardware.de/AMD-Radeon-Hardware-255597/News/AMD-stellt-Firepro-S10000-vor-1035261/galerie/2012425/

Insofern könnte die Geometrie-Leistung wohl doch eine Rolle spielen. Laut Specs ist wohl sogar Boost möglich. Vielleicht bis zu 1GHz für Wireframe-Darstellungen?Wie gesagt sind das ~13% Geometrie-/ROP-Leistung. Für ein Goodie obendrauf würde ich nicht die Kernaspekte der Performance vernachlässigen (und das ist bei der FirePro S-Reihe eben das Numbercrunching).
Und an die 1GHz-Boost-Taktrate glaubst Du doch selbst nicht. ;)

Skysnake

2012-11-12, 21:07:31

Schwierige Frage, warum Sie keinen vollen Tahiti gebracht haben.

Was man allerdings nicht vernachlässigen sollte ist die wirklich brachiale RAM-Bandbreite von dem Ding.

Das ist schon ziemlich böse. Vor allem kommt das eben dem zugute, was schon lange an GPUs/HPC kritisiert wird. Die Speicherbandbreite steigt viel zu langsam im Vergleich zur Rechenleistung.

Wenn man bedenkt, das man eh schon sehr stark parallelisierte Aufgaben hat, sollte es auch nicht all zu stark ins Gewicht fallen, das man zwei GPUs hat und nicht nur eine.

Bei DGEMM ist der Nutzen wohl nicht sooo groß, je Grobgranularer und unvorhersagbarer die Aufgabe aber wird, umso größer wird der Bandbreitenvorteil für AMD ausfallen im Vergleich zu GK110.

Ich will da wirklich nicht abschätzen müssen, wer da am Ende dann in Anwendungen schneller ist.

Gipsel

2012-11-12, 21:12:07

Die wird in anbetracht des Preises und meiner Argumente oben gegen beide gestellt. Wenns ums stumpfe Rechnen geht greift man halt eher zur K20, da die eine bessere Effizienz aufweist.
Siehst Du, und das könnte man mit 2 vollen Tahitis auf 725MHz in 300W anders entscheiden. Hätte absolut sowohl eine höhere SP-Performance als K10 bei in etwa gleicher Perf/W während es K10 in DP praktisch zerstört und zudem richtiges ECC bietet (sowie 50% höhere Speicherbandbreite). Gegen den K20 steht sowohl leicht höhere absolute DP-Performance als auch deutlich höhere SP-Performance mit nur grob 5% niedrigerer DP-Performance/W bei höherer SP-Performance/Watt. Und man hat halt zusätzlich noch einen (bzw. mehrere) Display-Ausgänge (sowie durch Multi-GPU effektiv die doppelte Speicherbandbreite). Man könnte also sowohl einem K10 als auch einem K20 Konkurrenz machen (und je nach Anwendung die Quadro auch gleich noch sparen). Zumindest wenn man von den technischen Leistungsdaten ausgeht (die Software-Seite ist was anderes und kann vom Einzelfall abhängen).

In dem 375W Powerbudget gibt man das Rennen um Perf./Watt ja praktisch kampflos verloren. Deswegen verstehe ich die Entscheidung nicht.

Skysnake

2012-11-12, 21:16:20

Jup, das ist schon sehr unverständlich, warum man da so nen Stromfresser hinstellt....

Es macht halt echt keinen Sinn. So kommt die Karte nämlich in keinen Cluster. Die 2U Boxen usw. sind einfach auf 225W ausgelegt, und bei allem drüber raus wirds halt echt bitter, das unter zu bringen. Also sowohl Probleme mit dem Netzteil, als auch überhaupt mit den Stromanschlüssen, der Kühlung usw. usw.

Vor allem kannste da die 3 Axiallüfter eh in die Tonne treten... Die stören den Luftstrom. Wenn du die in nen normales Rack mit normaler Kühlung reinbaust, dann killste sicherlich die Boxen.

Hübie

2012-11-12, 21:16:44

Na ja wie gesagt bin ich kein Programmierer. Danke für die Nachhilfestunde. Weißt du dass alles aus dem Kopf? Ich muss jedes mal noch gucken. Ich kenne nicht mal die Spielernummern meines Lieblingsfussballvereins ;D

Und wenn ichs dir nochmal sage: Das CAD-Programm von uns rennt garantiert auf einer S10000. Sogar mehrere Instanzen. ;)

So. Und nun spekulier du doch mal mit warum nun 825 MHz @28CUs...?! :tongue: Mir fällt nix mehr ein. Yields?

Edit: Weitere Theorie: Man will AMD gegen die Wand fahren und dann günstig aufkaufen ;D

y33H@

2012-11-12, 21:20:25

Was man allerdings nicht vernachlässigen sollte ist die wirklich brachiale RAM-Bandbreite von dem Ding.Was ist an 240 GB/s pro GPU jetzt so toll? Da hat eine FirePro W9000 mehr und eine Tesla K20X auch.

HPVD

2012-11-12, 21:28:14

8 AMD FirePro S10000s (16 GPUs) achieve 8 TFLOPS real world (DGEMM) double precision compute performance

This 16 GPU (eight S10000s) Exxact Computing Server provides more than 8 TFLOPS of real world double precision computing performance. While these are early drivers, this still means you are still seeing around 70% efficiency of the theoretical peak double precision floating point performance of 11.84 TFLOPS (47.28 TFLOPS peak single precision performance!).

mehr + Bilder
http://fireuser.com/blog/8_amd_firepro_s10000s_16_gpus_achieve_8_tflops_real_world_double_precision_/

Locuza

2012-11-12, 21:28:22

Was ist an 240 GB/s pro GPU jetzt so toll? Da hat eine FirePro W9000 mehr und eine Tesla K20X auch.
Und in Relation zur Rechenleistung?

Gipsel

2012-11-12, 21:30:03

Weißt du dass alles aus dem Kopf?Ich muß gestehen: Ja. :redface:
Und wenn ichs dir nochmal sage: Das CAD-Programm von uns rennt garantiert auf einer S10000. Sogar mehrere Instanzen. ;)Das rennt auch auf jeder normalen Radeon. Im Normalfall nur langsamer. Das ist aber eine reine Treibersache. Natürlich kannst Du FirePro S-Karten mit CAD-Programmen betreiben. Die kommen ja auch mit dem FirePro-Treiber. Aber dafür vorgesehen sind eigentlich nicht, das ist wie gesagt die FirePro W-Reihe (wenn Du nicht über hardwarebeschleunigte VMs auf einem Server redest). Wie Dave Baumann schon sagte, das "W" steht für Workstation, das "S" für Server (weswegen die Modelle üblicherweise ohne Lüfter mit auf Racks abgestimmtem Kühlkörper daherkommen). Die S10000 paßt da einfach nicht rein. Die hätte man so wie sie jetzt aussieht eher W10000 nennen sollen (bzw. zwei verschiedene Versionen rausbringen sollen).
So. Und nun spekulier du doch mal mit warum nun 825 MHz @28CUs...?! :tongue: Mir fällt nix mehr ein. Yields?
Wenn ich es wüßte, hätte ich nicht gefragt. Es ergibt für mich wenig Sinn.
Und bei den Preisen, die für die FirePros aufgerufen werden, machen Yield-Probleme auch keinen Sinn. Da würde man eher eine Handvoll weniger HD7970er-Karten verkaufen, an denen ja momentan nicht wirklich Mangel besteht. Außerdem ist Tahiti seit einem ganzen Jahr in Produktion und hat schon Preissenkungen hinter sich. Ein Defizit an voll funktionsfähigen Tahitis kann es also kaum sein.

y33H@

2012-11-12, 21:31:38

Und in Relation zur Rechenleistung?

FirePro W9000 = 1,0 DP-TFLOPS @ 264 GB/s
FirePro S10000 = 0,74 DP-TFLOPS @ 240 GB/s (pro GPU)
Tesla K20X = 1,31 DP-TFLOPS @ 250 GB/s

Gipsel

2012-11-12, 21:36:40

FirePro W9000 = 1,0 DP-TFLOPS @ 264 GB/s
FirePro S10000 = 1,48 DP-TFLOPS @ 240 GB/s (pro GPU)
Tesla K20X = 1,31 DP-TFLOPS @ 250 GB/s
Macht also:
FirePro W9000: 0,264 Byte/Flop
FirePro S10000: 0,324 Byte/Flop
Tesla K20X: 0,191 Byte/Flop

q.e.d.

Hübie

2012-11-12, 21:37:01

Ich muß gestehen: Ja. :redface:

Erstaunlich. Mein Hirn ist so eingerostet - da wird so was nur grob abgespeichert ;D

Das rennt auch auf jeder normalen Radeon. Im Normalfall nur langsamer. Das ist aber eine reine Treibersache. Natürlich kannst Du FirePro S-Karten mit CAD-Programmen betreiben. Die kommen ja auch mit dem FirePro-Treiber. Aber dafür vorgesehen sind eigentlich nicht, das ist wie gesagt die FirePro W-Reihe (wenn Du nicht über hardwarebeschleunigte VMs auf einem Server redest). Wie Dave Baumann schon sagte, das "W" steht für Workstation, das "S" für Server (weswegen die Modelle üblicherweise ohne Lüfter mit auf Racks abgestimmtem Kühlkörper daherkommen). Die S10000 paßt da einfach nicht rein. Die hätte man so wie sie jetzt aussieht eher W10000 nennen sollen (bzw. zwei verschiedene Versionen rausbringen sollen).

Doch davon sprach ich. Dachte das ginge aus meinem vorherigen Post mit meinem AG als Beispiel hervor.

Wenn ich es wüßte, hätte ich nicht gefragt. Es ergibt für mich wenig Sinn.
Und bei den Preisen, die für die FirePros aufgerufen werden, machen Yield-Probleme auch keinen Sinn. Da würde man eher eine Handvoll weniger HD7970er-Karten verkaufen, an denen ja momentan nicht wirklich Mangel besteht. Außerdem ist Tahiti seit einem ganzen Jahr in Produktion und hat schon Preissenkungen hinter sich. Ein Defizit an voll funktionsfähigen Tahitis kann es also kaum sein.

Wir sind hier im Speku-Forum. Da muss man nix wissen sondern kann seiner Fantasie mal freien lauf lassen. Genau das tat ich doch ;) Also was könntest du dir so denken? Oft jonglieren da ja mehrere Instanzen und letzten Endes entscheiden da vielleicht die Wirtschafter über das finale Produkt.

Macht also:
FirePro W9000: 0,264 Byte/Flop
FirePro S10000: 0,324 Byte/Flop
Tesla K20X: 0,191 Byte/Flop

q.e.d.

Und jetzt rechnen wir das noch mal auf ALU-Leistung runter ;)

Skysnake

2012-11-12, 21:38:10

S9000 : 806 GFlop/s & 264 GB/s -> ~3,05 Flop/s/Byte
S10000: 1480 GFlop/s & 480 GB/s -> ~3,08 FLop/s/Byte

Ok :ugly:
Das ist sogar schlechter als bei der S9000 :ugly:

Wenn man sich aber anschaut, dass GK110 wie folgt aussieht:
K20 : 1170 GFlop/s & 208 GB/s -> ~5,625 FLop/s/Byte
K20x: 1310 GFlop/s & 250 GB/s -> ~5,24 FLop/s/Byte

dann sieht man schon sehr schön, das AMD da einen nicht gerade kleinen Vorteil gegenüber nVidia hat.

Mit S9000<->S10000 hab ich mich verschätzt beim grob überschlagen. Hatte mit nem nochmal leicht besseren Wert für S10000 gerechnet. (Merke nicht überschlagen, sondern ausrechnen ;))

Gerade für so Sachen wie (Map-)Reduce Sachen, ist die höhere Bandbreite aber ganz nett, und wie gesagt, bei "schlechter" Datenlokalität natürlich auch ein nicht zu vernachlässigender Vorteil. Das ist ja auch der Grund, warum K10, so lange man eben kein DP braucht, doch ziemlich interessant sein kann.

EDIT:
8 AMD FirePro S10000s (16 GPUs) achieve 8 TFLOPS real world (DGEMM) double precision compute performance

This 16 GPU (eight S10000s) Exxact Computing Server provides more than 8 TFLOPS of real world double precision computing performance. While these are early drivers, this still means you are still seeing around 70% efficiency of the theoretical peak double precision floating point performance of 11.84 TFLOPS (47.28 TFLOPS peak single precision performance!).

mehr + Bilder
http://fireuser.com/blog/8_amd_firepro_s10000s_16_gpus_achieve_8_tflops_real_world_double_precision_/

HOLY SHIT :eek:

OMFG die haben nicht wirklich ACHT! von den Karten in ne ~4U Bock gepackt :eek:

OMFG

Das ist KRANK!

Mir haben schon eine M2070 in nem 2U Server gereicht. Das Ding wurde ziemlich heis.

Vor allem sehr ihr die 3 Netzteile? :biggrin: und CPUs sind auch noch mit drin versteckt. Das ist mal ne echt Höllenmaschine :biggrin:

Gipsel

2012-11-12, 21:42:37

Das ist ja auch der Grund, warum K10, so lange man eben kein DP braucht, doch ziemlich interessant sein kann.Und ein Grund, warum eine Karte, die Beides erledigen kann, meiner Meinung nach durchaus einen Markt hat (den man mit 300W TDP sicher besser erschließen könnte als mit 375W).

Locuza

2012-11-12, 21:43:14

FirePro S10000 = 1,48 DP-TFLOPS @ 240 GB/s (pro GPU)

0.78 DP-TFLOPs @ 240 GB/s (pro GPU)
1.48 DP-TFLOPs @ 480 GB/s (zusammen)

Hübie

2012-11-12, 21:43:58

Ja der Verbrauch stößt sicher vielen sauer auf. Neuausrüstern weniger als Bestandsanwender.

Skysnake

2012-11-12, 21:48:43

Der Verbrauch stößt so manchem ziemlich übel auf, da kannste einen drauf lassen. Ich kann mir nicht vorstellen, dass die die Dinger unter "normalen" Serverraumbedingungen gekühlt bekommen.

Wobei... Man siehe die Kiste da oben. Das ist schon krass.

Von so was träum ich schon seid ca. 2 Jahren und häng den verschiedensten Leuten damit in den Ohren ;D

Ich freu mich auf jeden Fall auf die nächste CeBIT, und meinen Besuch bei SuperMicro :biggrin: Der Techniker, mit dem ich mich unterhalten habe meinte nämlich das ginge nicht. Ich meinte ja ;D

Hübie

2012-11-12, 22:11:15

Also Gipsel. Hab noch mal n bissl herumgerechnet. Basis waren TahitiXT2 und 2xTahiti XT aus Reviews von techpowerup. Wenn man einen 32er Chip bei 725 statt einem 28er @825 MHz hätte dann käme man nicht auf 300 Watt sondern ~315 Watt (rechnerisch).

LG Hübie

Gipsel

2012-11-12, 22:14:34

Also Gipsel. Hab noch mal n bissl herumgerechnet. Basis waren TahitiXT2 und 2xTahiti XT aus Reviews von techpowerup. Wenn man einen vollen Chip bei 725 statt 825 MHz hätte dann käme man nicht auf 300 Watt sondern ~315 Watt (rechnerisch).Wenn Du jetzt noch verrätst, was Du da genau gerechnet hast, könnte man vielleicht drüber reden. ;)

Skysnake

2012-11-13, 00:28:12

So bin mal die neue Top500 durchgegangen, und dabei ist mir folgendes ins Auge gestochen:

http://www.top500.org/system/177996

Sollte doch ein GCN System sein oder?

Gipsel

2012-11-13, 00:34:45

So bin mal die neue Top500 durchgegangen, und dabei ist mir folgendes ins Auge gestochen:

http://www.top500.org/system/177996

Sollte doch ein GCN System sein oder?
Das Ding haben Andere auch schon gefunden (http://forum.beyond3d.com/showthread.php?p=1679041#post1679041). ;)

Kurz: Das Ding hat ziemlich wenige GPUs (56% der Peakleistung kommt von den CPUs), beim Benchmark-Run rechneten vermutlich die GPUs gar nicht mit und auch insgesamt scheint die Kiste ziemlich verkorkst zu sein, da selbst mit den 614,4 TFlop/s Peak reine CPU-Leistung die Effizienz immer noch ziemlich mies wäre.

Edit:
Die Angaben in der Top500-Liste waren offensichtlich nicht ganz korrekt und sind es selbst nach einer Korrektur noch nicht ganz. Die Uni Frankfurthat eine Pressemeldung mit den genauen Daten rausgegeben (http://fias.uni-frankfurt.de/press121114.html).
Technisch gesehen ist der deutsch-arabische Supercomputer ein Cluster-Computer aus Standard-Servern mit einem Hochgeschwindigkeits-Netzwerk. Der Cluster besteht aus 210 Servern mit 3.360 Rechenkernen, 840 Grafikchips und 26.880 Gigabyte Hauptspeicher. Die Server vom Typ ASUS ESC4000/FDR G2 sind mit jeweils zwei Intel Xeon E5-2650 Prozessoren und acht 16 Gigabyte-Modulen (128 GB) der energie-effizienten “Samsung Green Memory”-Bauelemente bestückt. Jeder Server enthält zwei Grafikkarten des Models AMD FirePro S10000 mit insgesamt vier Grafik-Prozessoren zur Beschleunigung. Bei dem Netzwerk handelt es sich um ein FDR InfiniBand-Netz mit einer Übertragungsleistung von 56 Gigabit/s. Die Server wurden geliefert von dem Unternehmen Adtech Global.
Es gibt also 210 dual CPU Knoten, jede mit zwei S10000 cards. Das bedeutet es gibt lediglich 3360 CPU Kerne mit einer theoretischen Peakleistung von 53,76 TFLOP/s, insgesamt hat der Cluster dann eine Peakleistung von "nur" 674,7 TFLOP/s (und nicht die fast 1,1 PFLOP/s wie in der Top500-Liste angegeben). Die Effizienz beträgt damit 62,4%. Das ist gar nicht so schlecht verglichen mit den ~70% des Vorläufers LOEWE-CSC (mit Cypress-Karten), wenn man bedenkt, daß für die Energieeffizienz offenbar ein paar Kompromisse bei der Vernetzung eingegangen wurden. So stehen einem Knoten mit zwei S10000-Karten (so ein Knoten schafft ja immerhin >3 TFLOP/s) wohl nicht mehr Bandbreite zur Verfügung, als einem (deutlich langsameren) Knoten des LOEWE-CSC. Hier dürfte man einen deutlichen Nachteil gegenüber dem custom Interconnect z.B. eines Titan haben. Bei dem deutlich langsameren (pro Knoten, absolut sind es nur 30% oder so) LOEWE spielt das noch nicht so die Rolle, hier fängt es wirklich an, wichtig zu werden. Vorteil ist natürlich, daß das Teil praktisch aus Standardkomponenten zusammengesteckt ist, also vermutlich im Vergleich ziemlich billig (und er verbraucht nur ein Drittel des Stroms wie der LOEWE mit Cypress-Karten bei 40% mehr Linpack-Leistung).
Der ganze Cluster (der momentan in Darmstadt steht und Ende des Jahres nach Riad transportiert werden soll) paßt übrigens in genau zehn 42U Standardracks, jeder Knoten benötigt 2U (http://www.asus.com/Server_Workstation/Servers/ESC4000FDR_G2/) und würde auch erlauben, vier S9000 Karten (oder vier K20 oder vier beliebige andere Karten mit 225W TDP) reinzupacken.

Übrigens scheint Dave Baumann zu behaupten (http://forum.beyond3d.com/showthread.php?p=1679465#post1679465), daß das eigentliche Maximum des Stromverbrauchs der S10000-Karten bei etwa 330W liegt:
Evidently the actual power draw of S10000 in this platform is more like 330W.
I mean under qual conditions, not the test conditions under which this was measured.
Während des Benchmark-Runs lag sie wahrscheinlich unter 300W (rechnerisch 856W "an der Steckdose" pro Knoten mit 2 CPUs [je 95W TDP] + 2 GPU [je 375W board power?!?], 128 GB RAM [paar Watt zieht der auch], dem Dual-CPU-Mainboard mit Infiniband, 7 ziemlich kräftigen 80mm Lüftern alles über ein 80+ Platinum-Netzteil [92% Effizienz im fraglichen Lastbereich?] betrieben, ein wenig Overhead für die Infiniband-Switches sollte man auch noch berücksichtigen).

Wenn man also sowieso nur relativ knapp über 300W liegt, dann stellt sich nur noch um so mehr die Frage, warum man nicht volle Tahitis bei einem ~12% niedrigerem Takt (725 MHz) und noch minimal niedrigerer Spannung (z.B. 0,025V weniger) gewählt hat, um bei gleichen nominellen Leistungsdaten (und für so ein DGEMM-Kernel spielt die niedrigere Rasterleistung keine Rolle) innerhalb von 300W zu bleiben. Ein paar der Display-Port-Ausgänge wegzulassen, hätte vermutlich auch geholfen. Sind die nicht mit jeweils 6W pro Port veranschlagt (gab da doch mal eine Diskussion wegen der Eyefinity6-Version der HD5870)?

M4xw0lf

2013-06-11, 15:37:31

Neuer Mac Pro mit Dual-Firepro - und abgefahrenem Kühlerdesign.

http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1370951491

http://www.planet3dnow.de/vbulletin/attachment.php?attachmentid=27653&stc=1&d=1370950487

http://www.planet3dnow.de/vbulletin/attachment.php?attachmentid=27655&stc=1&d=1370950489

http://www.planet3dnow.de/vbulletin/attachment.php?attachmentid=27654&stc=1&d=1370950489

mczak

2013-06-11, 15:58:54

Sind dann wohl sowas wie runtergetaktete FirePro W9000 auf Custom-Boards.
Interessanterweise scheinen es tatsächlich 2 verschiedene Custom-Boards zu sein, das verstehe ich nun aber wirklich nicht.

M4xw0lf

2013-06-11, 16:35:50

Bei Spon stellt jemand eindrucksvoll seine Inkompetenz unter Beweis:
Intel sorgt für viel Leistung auf kleiner Fläche

Zudem hatte die raumfüllende Supermaschine aus den Siebzigern und Achtzigern knapp neuntausend Mal weniger Leistung, nämlich 800 Megaflops. Dem Apple-Boliden werden bis zu sieben Teraflops attestiert. Dass es möglich ist, diese Leistung auf so wenig Fläche anzubieten, haben die Kalifornier Intel zu verdanken, die für die Maschine Xeon-Server-Prozessoren mit bis zu zwölf Kernen beisteuern.

Skysnake

2013-06-11, 18:34:44

Ja, das ist schon ein epic Fail ;D

Hübie

2013-06-11, 19:15:31

Kapier ich auch nicht. Der Großteil kommt doch vom GPU-Part oder nicht? XEON mit 12 Kernen kenn ich auch nicht (höchstens 10 - Westmere EX). Sind wohl 6-Kerner + SMT. Und die bringen, wenn mans gut meint, 0.4 TFlops. Korrigiert mich ggf.

Nakai

2013-06-11, 19:18:38

Kapier ich auch nicht. Der Großteil kommt doch vom GPU-Part oder nicht? XEON mit 12 Kernen kenn ich auch nicht (höchstens 10 - Westmere EX). Sind wohl 6-Kerner + SMT. Und die bringen, wenn mans gut meint, 0.4 TFlops. Korrigiert mich ggf.

Ne, du hast scho recht. Deswegen ist es ja schon so ein Fail vom SPON. Die theoretische Hauptrechenleistung kommt ja von den GPUs.

Hübie

2013-06-11, 19:26:06

Was ist SPON? :redface:

Gipsel

2013-06-11, 19:30:26

Was ist SPON? :redface:Spiegel Online (http://www.spiegel.de/netzwelt/gadgets/neue-apple-hardware-roehren-renner-und-marathonlaeufer-a-904929.html) :freak:

Skysnake

2013-06-11, 20:54:59

Kapier ich auch nicht. Der Großteil kommt doch vom GPU-Part oder nicht? XEON mit 12 Kernen kenn ich auch nicht (höchstens 10 - Westmere EX). Sind wohl 6-Kerner + SMT. Und die bringen, wenn mans gut meint, 0.4 TFlops. Korrigiert mich ggf.
Ist ein Ivy-Bridge-E. Steht zumindest glaub bei Heise usw.

Also echte 12-Kerne + SMT

Die CPU-Power lässt aber etwas zu wünschen übrig für ne echte Workstation. Vor allem der Speicherausbau ist somit halt schon stark limitiert...

Wenn Apple aber 2 GPUs von AMD da rein packt, darf/kann man davon ausgehen, dass Apple bzgl OpenCL Support nochmals auf die Tube drückt bei ihren Foto/Video Anwendungen.

Auf nen neuen MacPro haben ja durchaus viele gewartet.

Ein Hacken hat die Sache aber....

Du hast NULL!!!!! Storage, und die Anbindung ist auch LÄCHERLICH!

Nur GB-Ethernet, und TB :ugly: HALLO????

Wer hat denen bitte ins Hirn geschissen???

Wo sollen die ganzen Daten denn ausreichend schnell herkommen, um das System zu füttern??? :facepalm:

Spiegel Online (http://www.spiegel.de/netzwelt/gadgets/neue-apple-hardware-roehren-renner-und-marathonlaeufer-a-904929.html) :freak:
LOL ;D

YfOrU

2013-06-12, 12:12:26

Ein Hacken hat die Sache aber....
Du hast NULL!!!!! Storage, und die Anbindung ist auch LÄCHERLICH!
Nur GB-Ethernet, und TB :ugly: HALLO????
Wer hat denen bitte ins Hirn geschissen???
Wo sollen die ganzen Daten denn ausreichend schnell herkommen, um das System zu füttern??? :facepalm:
LOL ;D

Die interne PCIe SSD hat massig Durchsatz und über Thunderbold 2 angebundene Storage Lösungen sind (bei Verwendung von SSDs) kaum langsamer:
http://www.anandtech.com/show/7049/intel-thunderbolt-2-everything-you-need-to-know

Wo ist also das Problem ? Thunderbolt 2 ist in diesem sehr spezialisierten Segment so ziemlich die optimalste Lösung. Ist ein ganz anderes Kaliber als USB 3.0.

basti333

2013-06-12, 12:19:20

Ist ein Ivy-Bridge-E. Steht zumindest glaub bei Heise usw.

Also echte 12-Kerne + SMT

Die CPU-Power lässt aber etwas zu wünschen übrig für ne echte Workstation. Vor allem der Speicherausbau ist somit halt schon stark limitiert...

Wenn Apple aber 2 GPUs von AMD da rein packt, darf/kann man davon ausgehen, dass Apple bzgl OpenCL Support nochmals auf die Tube drückt bei ihren Foto/Video Anwendungen.

Auf nen neuen MacPro haben ja durchaus viele gewartet.

Ein Hacken hat die Sache aber....

Du hast NULL!!!!! Storage, und die Anbindung ist auch LÄCHERLICH!

Nur GB-Ethernet, und TB :ugly: HALLO????

Wer hat denen bitte ins Hirn geschissen???

Wo sollen die ganzen Daten denn ausreichend schnell herkommen, um das System zu füttern??? :facepalm:

Nur Thunderbolt? An was hast du denn so gedacht?

Knuddelbearli

2013-06-12, 12:26:36

USB 3.5, eSATA, freie PCI-E Slots

YfOrU

2013-06-12, 12:30:12

USB 3.5, eSATA, freie PCI-E Slots

eSATA ist zu lahm und die PCIe Slots befinden sich über TB genaugenommen außerhalb des Systems ;)

Über TB lässt sich sehr viel mehr realisieren als mit internen Steckkarten da extern Raum für Interfaces und nahezu unendlich viele Ports vorhanden ist.

Knuddelbearli

2013-06-12, 12:47:20

was bringen gesharte Ports?

und was bringt mir bei einer SSD TB, außer das ich ein deutlich teures externes Gehäuse kaufen muss? Intern sind die doch eh wieder Sata 3.

Dazu noch der Platzbedarf usw

YfOrU

2013-06-12, 12:57:50

was bringen gesharte Ports?

Ports bezogen auf externe Interfaces wie über TB angebundene Capture Lösungen.

und was bringt mir bei einer SSD TB, außer das ich ein deutlich teures externes Gehäuse kaufen muss? Intern sind die doch eh wieder Sata 3.

Wie kommst du auf nur SATA3 ? Hier kann praktisch jeder PCIe (Raid) Controller verbaut werden und da sah es in der Vergangenheit (SATA6) allgemein schlecht aus. Der Aufpreis für die externe (Storage) Lösung spielt in diesem Segment keine nennenswerte Rolle.

Dazu noch der Platzbedarf usw

Bei den Datenmengen wäre intern bereits ein Nachteil. Die Daten von Workstation zu Workstation zu tragen ist ganz ernsthaft der schnellste Weg ;)

basti333

2013-06-12, 13:01:44

was bringen gesharte Ports?

und was bringt mir bei einer SSD TB, außer das ich ein deutlich teures externes Gehäuse kaufen muss? Intern sind die doch eh wieder Sata 3.

Dazu noch der Platzbedarf usw

Naja, das sind jetzt keine Grundlegenden Nachteile. Für manche Anwender ja, für manche nein. Wenn du eine Workstation suchst die es jedem recht macht, wirst du auch bei anderen Anbietern nichts finden.

Knuddelbearli

2013-06-12, 13:33:33

naja frage bleibt wer hat echte Vorteile dadurch? mir fällt da niemand ein!

@YfOrU
bring jetzt nicht die Sata Standards durcheinander! Sata 3 ist Sata mit 600MB/s.

Sata 6 dauert noch ca 10 jahre ;-)

YfOrU

2013-06-12, 13:44:53

naja frage bleibt wer hat echte Vorteile dadurch? mir fällt da niemand ein!

Der Pro ist primär für die Video/Audio Produktion gedacht und da ist externer Storage mit hohem Durchsatz in der Handhabung angenehmer.

@YfOrU
bring jetzt nicht die Sata Standards durcheinander! Sata 3 ist Sata mit 600MB/s.

Sata 6 dauert noch ca 10 jahre ;-)

Deine Zahlen habe ich als Gbit/s verstanden. Die Namenskonvention bei SATA ist leider Mist und wird auch von den Herstellern ungenau gehandhabt.

basti333

2013-06-12, 13:50:21

naja frage bleibt wer hat echte Vorteile dadurch? mir fällt da niemand ein!

Naja, Thunderbolt ist schon noch ein alleinstellungsmerkmal. Außerdem dürfte der Mac Pro ggü. anderen Workstations kleiner und leiser sein und (je nach Geschmack und notwendigkeit) sieht er auch schöner aus. Noch ein Alleinstellungsmerkmal: Mac OS läuft darauf :tongue:

Aber kein Zweifel: es gibt mindestens genauso viele oder mehr Gründe die für eine klassische Worktstation sprechen.

Knuddelbearli

2013-06-12, 13:55:40

ein Mac Pro komplett ohne externe Anschlüsse nur wifi HDMI wäre auch ein Alleinstellungsmerkmal *hust* ;-)

und das leider bezweifle ich atm noch der Kühlkörper sieht für gut 600W schon massiv unter dimensioniert aus was die Lüfter dann ausgleichen müssten

Skysnake

2013-06-12, 14:12:53

Die interne PCIe SSD hat massig Durchsatz und über Thunderbold 2 angebundene Storage Lösungen sind (bei Verwendung von SSDs) kaum langsamer:
http://www.anandtech.com/show/7049/intel-thunderbolt-2-everything-you-need-to-know

Wo ist also das Problem ? Thunderbolt 2 ist in diesem sehr spezialisierten Segment so ziemlich die optimalste Lösung. Ist ein ganz anderes Kaliber als USB 3.0.
Und wieviel bringen dir die 2 TB2 Anschlüsse? Richtig 20GBit/s laut Apple, also gerade mal 5GB/s, sprich so viel wie 5 PCI-E 3.0 Lanes. Das ist jetzt nicht schlecht, aber auch nicht der Hammer, wobei man schauen muss, wieviel am Ende wirklich bei rum kommt. Vor allem verschenkt man damit aber wieder 3GB/s, welche man über die direkten PCI-E Lanes hätte.

Und ja, die SSD ist schnell, aber die aggregierte Bandbreite ist halt nicht so knalle.

Du musst bedenken, du hast mit dem Chipsatz schon 10/12 (?) Ports für SAS+SATA. Die fehlen dir praktisch komplett.

Dazu kannst du eben keine Raidcontroller verbauen, sondern musst auf externe Gehäuse zurückgreifen, die dann funktionieren oder auch nicht. Dann kannst du kein 10/40 GB-Ethernet dir zulegen, du kannst keine Capturing-Karten einbauen, du kannst rein gar nichts machen.

Zudem ist der Hauptspeicher mit nur einer CPU schon ziemlich limitiert. Klar, das hört sich jetzt viel an, was es da gibt, aber es gibt genug Leute, die eben mehr brauchen.

Und ja, im Photo/Video-Bereich wird doch einiges mit Wechselplatten gemacht, die einfach rumgetragen werden, das ist aber eher etwas für tagesaktuelle Produktionen usw, wo man einfach Durchlaufsprojekte hat und gut ist.

Wenn man aber an etwas arbeitet, was Monate später erst kommt, dann will man Redundanz, dann will man zich TB an Datenspeicher, will eventuell eben auch den Storage im Firmennetz, bei dem alle auf den gleichen Daten arbeiten usw usw.

Da ist die Limitierung auf GBit-Ethernet z.B. schon ziemlich bescheiden... 10GBit NIC(s) wäre da schon angebracht gewesen. Dann könnte man auch eventuell über den bescheidenen Storage "onboard" hinwegsehen, weil TB zwar ne verdammt teure Lösung ist, aber machbar.

So kannst du das Ding aber eher nur als Einzelplatzmaschine sehen, ohne vernünftige Integration ins Firmennetz.

Gerade in Zeiten von Cloude, also insbesondere firmenintern, ist das einfach nicht zeitgemäß. Die Cloude hat hier schon ihre Berechtigung, weil es die Datensicherung und auch den Austausch teilweise deutlich beschleunigt. Nur mit GBit-Ethernet wird das nichts...

Vor allem, da bringt Intel schon dicke 40GB-NICs raus, und dann sowas -.-

Knuddelbearli

2013-06-12, 14:25:44

40GB-NICs ? oO Link? und was kostet das?
In meine nächste Wohnung sollte ja eigentlich 10GBit ^^

YfOrU

2013-06-12, 15:02:19

Du musst bedenken, du hast mit dem Chipsatz schon 10/12 (?) Ports für SAS+SATA. Die fehlen dir praktisch komplett.

Warum alle Daten auf das System übertragen (->Zeit) wenn es auch ohne geht ?

Dazu kannst du eben keine Raidcontroller verbauen, sondern musst auf externe Gehäuse zurückgreifen, die dann funktionieren oder auch nicht. Dann kannst du kein 10/40 GB-Ethernet dir zulegen, du kannst keine Capturing-Karten einbauen, du kannst rein gar nichts machen.[

Raid (PCIe) geht extern und potente Capture Lösungen sind im Regelfall extern. Gegenüber Firewire und vor allen USB ist das ein großer Schritt nach vorne.

So kannst du das Ding aber eher nur als Einzelplatzmaschine sehen, ohne vernünftige Integration ins Firmennetz.

Zielgruppe erkannt. Vor allen "kleinere" Produktionsstudios.

Gerade in Zeiten von Cloude, also insbesondere firmenintern, ist das einfach nicht zeitgemäß. Die Cloude hat hier schon ihre Berechtigung, weil es die Datensicherung und auch den Austausch teilweise deutlich beschleunigt. Nur mit GBit-Ethernet wird das nichts...

Das hier theoretisch nötige SAN ist kaum bezahlbar und für eine handvoll Arbeitsplätze welche mit den Datenmengen wirklich arbeiten unwirtschaftlich.

Skysnake

2013-06-12, 15:04:53

Ja, das ist ziemlich normal heutzutage :ugly:

Gibt ja sogar 100GBit/s NICs.

Billig ist sowas natürlich nicht.

Intel hat ja sogar QDR80er NICs (ok Infiniband aber egal, darüber kann man ja auch Ethernet tunneln...). http://www.intel.com/content/dam/www/public/us/en/documents/case-studies/high-performance-computing-xeon-e5-2680-univ-of-coimbra-study.pdf
http://semiaccurate.com/2013/02/22/intels-true-scale-infiniband-with-qdr-80/

Zu kaufen gibts die aber noch nicht. Ich hatte auch auf die QDR80 verzichtet, da es "einfach" nur 2xQDR40 ist...

Gibt aber auch mehr. Wir machen z.B. 120GBit/s :tongue:
http://extoll.de/index.php/technology/resourcesapapers

EDIT:
@YfOrU:
Supi, derjenige, der aber nur nen Einzelplatzrechner ohne Anbindung braucht/will, für den ist das hier dann aber VIEL zu teuer. Da kommt er mit normalen Workstations deutlich billiger weg. Und er hat es eben nicht zu verschenken, da zu klein.

Wenn du 10, 20 oder 100 Arbeitsplätze hast, dann ja, dann interessieren die Preise nicht mehr wirklich, aber dann willst du eben auch die Anbindung heutzutage. Sorry, aber meiner Meinung nach völlig am Markt vorbei konstruiert. Und son SAN/NAS in entsprechender Größenordnung sind auch nicht wirklich soooo teuer. Man spart sich dafür eben die Verwaltung auf dem einzelnen Arbeitsplatz, und kann eben auch mal von Unterwegs dem Kunden etwas zeigen usw usw. Vor allem können die einzelnen Mitarbeiter aber eben viel schneller auf die Arbeit der Kollegen zugreifen. Viele Firmen wollen das daher heutzutage.

PS:
Können wir vielleicht das Apfelthema splitten?

YfOrU

2013-06-12, 15:32:42

Supi, derjenige, der aber nur nen Einzelplatzrechner ohne Anbindung braucht/will, für den ist das hier dann aber VIEL zu teuer. Da kommt er mit normalen Workstations deutlich billiger weg. Und er hat es eben nicht zu verschenken, da zu klein.

Wie viele Personen in einer Agentur arbeiten mit dem Rohmaterial ? Das ist überschaubar. Zur weiteren Verteilung genügt selbst ein simples Office Netzwerk. Gleichzeitig ist das heute ein vergleichsweise großer Markt denn die alleinige Produktion von Bild und Text ist aufgrund der Popularität der vielen Videoplattformen kaum mehr ausreichend. Apple adressiert mit dem Pro vor allen die Stammkundschaft -> Produktion im Kreativbereich und da wird pro Mitarbeiter ordentlich Kapital umgesetzt.

Skysnake

2013-06-12, 16:03:35

Das kommt eben GANZ darauf an.

Im Fotobereich sind es wenige, im Filmbereich sind es schnell viele, vor allem, wenn man noch Spezialeffekts, Animationen usw hinzufügt. Da sind es dann schnell viele Leute die mit ganz unterschiedlichen und auch wechselnden Datensätzen arbeiten.