Google TPU - ASIC fuer machine learning [Archiv]

iuno

2016-05-19, 13:32:15

blinki

2016-05-19, 19:16:23

Mittlerweile hat es ja jede Newsseite gebracht, Heise pappt noch am meisten Infos dran, aber Google rückt keine genauen Infos raus.

Die sagen ihr Asic ist 10x effizienter als aktuelle (wohl GPU) Lösungen.
Denke mal, dass das den GPU-Herstellern nicht schmeck. Und deshalb wohl auch geheim, denn mit denen zu kooperieren und gleichzeitig an deren Ast zu sägen kommt nicht so gut.

iuno

2016-05-20, 09:59:49

Ich habe mal ein paar Links von Newsmeldungen angefuegt. Neue Infos sind aber wie du sagst nicht wirklich dabei.
Von 10-facher Effizienz steht auch nirgends was, wurde das live gesagt? Eine halbwegs klare Bezugsgroesse gibt es nicht oder (CPU/GPU)?

edit: kann gerade keinen recap anschauen, aber wenn ich nach folgenden Kommentaren urteile:
http://www.heise.de/forum/heise-online/News-Kommentare/Google-I-O-2016-Tensor-Prozessoren-halfen-beim-Go-Sieg/Leistungsvergleich/thread-4923514/

wuerde ich sagen, dass man sich auf CPUs bezieht. Vielleicht ist das ein GPU-artiger Chip mit vielen Shaderprozessoren, ohne Ballast fuer Echtzeitgrafik (Textureinheiten, Rasterizer, Geometrie, ...) und mit ALUs nur fuer FP16.

StefanV

2016-05-20, 10:17:13

Dedizite, stark spezialisierte Hardware ist immer besser/effizienter als eher allgemeine Hardware.

Und das wird Google hier wohl gemacht haben und die Hardware entsprechend dem Problem gebaut haben...
Dass diese Geräte dann wesentlich effizienter sind, sollte einleuchten...

blinki

2016-05-20, 18:30:55

Das faktor Zehn steht so im Blog, "an order of magnitude better perf/watt for machine learning"
und weiter "This is roughly equivalent to fast-forwarding technology about seven years into the future (three generations of Moore’s Law)."

Das die das mit GPUs vergleichen habe ich mal vorausgesetzt, denn das ist doch seit Jahren standard in dem Bereich. Und google hat das ja selbst mit forciert
(Tensorflow hat ja zb ne cuda Beschleunigung).

Wenn die das mit Cpus vergleichen dann würde ich sagen nichts besonderes, dann wäre das eher heiße luft.

Was ich interessant finde ist die Aussage, die Asics stecken in den Festplattenslots ??? Ist damit halt pcie gemeint und das ist Standard oder ist das eine Besonderheit?

blinki

2016-05-20, 18:49:51

Skysnake

2016-05-20, 21:43:51

Google's TPU (Tensor Processing Unit):
https://2.bp.blogspot.com/-z1ynWkQlBc8/VzzPToH362I/AAAAAAAACp0/2QBREGUEikoHrML1nh9h3SEKQVzm8NV7QCLcB/s1600/tpu-2.png

Fuer Google hat es sich offenbar inzwischen gelohnt, einen ASIC fuer maschinelles Lernen zu entwerfen:
https://cloudplatform.googleblog.com/2016/05/Google-supercharges-machine-learning-tasks-with-custom-chip.html

Leider ist nicht besonders viel bekannt, nur dass das Modul in einen Festplattenslot passt und mit niedrigerer Genauigkeit arbeitet, als herkoemmliche Prozessoren, in welchem Format genau steht da aber nicht.

Die ASICs laufen schon seit mehr als einem Jahr in deren Datencentern und wurden etwa fuer RankBrain, StreetView und AlphaGO verwendet.

Der Anschluss ist mir unbekannt. Also weder SATA, SAS, PCI, PCI-E oder SATA-Express noch sonst irgend etwas, was mir bekannt wäre.

Bezüglich des Formats sollte man wohl nur davon ausgehen, dass das Ding halt genau so groß ist wie eine 3,5" Festplatte, also verdammt klein für einen Accelerator.

Das war mir nicht bekannt, in dem Blogeintrag steht auch "stealthy project". Kannte das jemand schon oder gibt es weitere Infos?
Meint ihr, Google hat inzwischen eine Abteilung, die Chips designt oder wurde das eher extern in Auftrag gegeben?

Meines Wissens nach hat Google eine nicht zu vernachlässigende Entwicklungsabteilung. Die haben auch einen eigenen Netzwerkchip sich gebaut, der Ethernet auf tieferen Ebenen verarbeitet und damit das OS/CPU für die meisten Aufgaben gar nicht benötigt. Das wurde auch erst vor einigen Wochen bekannt. Gab dazu auch einen Vortrag von Google.

Ich glaube vielen ist nicht klar, was für ein Monstrum Google ist.

Es gab seit Ende letzten Jahres Meldungen von Google, dass Sie jeden Tag ein PetaByte an Speicher nachschieben, was in einem Monat so viel ist, wie die meisten Supercomputer überhaupt an Massenspecher haben :ugly:.

Oder auch dass Sie mal eben einen Deal über 8 MegaWatt Erneuerbare Energien abgeschlossen haben, was mehr ist als die meisten Supercomputer überhaupt verbrauchen :ugly:

Microsoft, Amazon, Facebook und vor allem Google sind wirklich Hyperscaler. Die sind völlig fern ab von allem, was man als "normale" Kunden bezeichnen kann. Quasi die Apples des Serverbereichs, wobei die eben noch extremer sind.

Daher lohnt sich für die auch alles mögliche selbst zu machen, denn selbst kleine Einsparungen multiplizieren sich schnell zu Millionen beträgen.

EDIT @blinki:
Kann gut sein, dass die nur fürs auswerten zuständig sind, aber genau das ist ja das, was am Ende wirklich die viele Rechnzeit kostet, denn im Optimalfall trainierst du halt mal dein Netz und dann ist es eben gut genug für deine Aufgaben.

Genau aus diesem Grund wird nVidia auch schon auf mittlere Sicht mit ihrem Automotivbestrebungen voll gegen die Wand fahren. Sobald man die Technik im Griff hat, kommen die ASICS und dann hat sich das GPU Intermetzo erledigt. Im Moment ist es halt interessant, weil man sehr agiel vorgehen kann, ohne den Aufwand von FPGAs zu haben, aber auf mittlere, geschweigen denn lange Sicht ist es halt nicht zielführend.

klutob

2016-05-20, 22:33:19

Bei genauerer Überlegung komme ich auf die Idee das die ASics eher für das Ausführen von bereits trainierten Netzten und weniger für das Training selbst geeignet sein könnten. Wenn so eine Karte nur die Bandbreite einer (Server) Festplatte hat, sind das ja irgend was mit 2GB/s. Lächerlich wenig im Gegensatz zu GPUs.
Und im Blog steht, das die ASICs beim AlphaGO match gegen Lee Sedol mitgerechnet haben, nicht, das sie im Rahmen des Trainings benutzt wurden.
Was sagt ihr?

Mit so einem Edge-Card Connector wie auf dem Schaubild sichtbar, ist selbst die volle 16x PCIe Bandbreite machbar. Das Modul sollte nicht größer als eine 2,5" Festplatte sein, in Relation zum Connector. Solche Anschlüsse sind häufig in Serverblades anzutreffen wenn der Platz für eine volle PCIe Riser Lösung nicht vorhanden ist.

iuno

2016-05-20, 23:04:27

Bezüglich des Formats sollte man wohl nur davon ausgehen, dass das Ding halt genau so groß ist wie eine 3,5" Festplatte, also verdammt klein für einen Accelerator.
Das denke ich auch, es wird ja auch nur auf die Groesse im Speziellen eingegangen.

Meines Wissens nach hat Google eine nicht zu vernachlässigende Entwicklungsabteilung. Die haben auch einen eigenen Netzwerkchip sich gebaut, der Ethernet auf tieferen Ebenen verarbeitet und damit das OS/CPU für die meisten Aufgaben gar nicht benötigt. Das wurde auch erst vor einigen Wochen bekannt. Gab dazu auch einen Vortrag von Google.
Da habe ich auch noch was im Kopf, wonach sie den Netzwerkstack umgebaut haben, bzw. sogar den Kernel komplett umgehen und das auf tieferer Ebene abarbeiten.

mboeller

2017-04-06, 12:45:59

jetzt gibt es endlich neue Infos zu den TPU Systemen von Google. Da schauen CPUs und GPUs ziemlich scheixxe aus im Vergleich:

https://www.heise.de/newsticker/meldung/Kuenstliche-Intelligenz-Architektur-und-Performance-von-Googles-KI-Chip-TPU-3676312.html

:eek:

Im Ergebnis war die TPU um den Faktor 15 bis 30 schneller als CPU und GPU. Noch besser sieht der Vergleich der Energieeffizienz aus: In der Disziplin TOPS/Watt ist die TPU um den Faktor 30 bis 80 besser. Die Forscher rechnen außerdem aus, dass man diese Werte noch steigern könnte, wenn man auf der TPU GDDR5-Speicher statt DDR3 verwenden würde. Das könnte die erzielbare Rechenleistung noch einmal verdreifachen und die Energieeffizienz auf Faktor 70 gegenüber der GPU und Faktor 200 gegenüber der CPU bringen

edit: direkter Link zum "Paper": https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view

Screemer

2017-04-06, 13:22:05

wäre das auch ne alternative für die automobilindustrie?

Pirx

2017-04-06, 13:29:56

ist dann allerdings nicht machine learning sondern machine applying (oder so);)

BoMbY

2017-04-06, 13:35:03

Heißt ja auch Tensor Processing Unit, nicht Tensor Building Unit ...

Skysnake

2017-04-07, 14:10:29

wäre das auch ne alternative für die automobilindustrie?
Wenn die Algorithmen mal soweit stehen ja natürlich.

Das dann noch am Besten direkt in die Sensoren integriert und gut ist.

Da kann auch keine CPU oder GPU jemals gegen anstinken. Da sind die schon rein konzeptionell im Nachteil. Versuche ich den Leuten auch schon seit einigen Jahren klar zu machen, aber was solls :rolleyes:

Pixelmonk

2017-05-18, 06:39:11

Google hat die zweite Generation seiner TPU vorgestellt.
Mit der neuen TPU soll man nun auch das trainieren auf der TPU ausführen können.
Zusätzlich wurde die Performance verbessert. Mit nur acht TPUs brauchen sie nur noch Stunden zum tranieren wofür sie voher mit 32 der besten GPUs einen ganzen Tag gebraucht haben.

180 teraflops pro TPU
11.5 petaflops pro TPU pod (64 TPUs pro TPU pod)

We’re excited to announce that our second-generation Tensor Processing Units (TPUs) are coming to Google Cloud to accelerate a wide range of machine learning workloads, including both training and inference. We call them Cloud TPUs, and they will initially be available via Google Compute Engine.

While our first TPU was designed to run machine learning models quickly and efficiently—to translate a set of sentences or choose the next move in Go—those models still had to be trained separately. Training a machine learning model is even more difficult than running it, and days or weeks of computation on the best available CPUs and GPUs are commonly required to reach state-of-the-art levels of accuracy.

Research and engineering teams at Google and elsewhere have made great progress scaling machine learning training using readily-available hardware. However, this wasn’t enough to meet our machine learning needs, so we designed an entirely new machine learning system to eliminate bottlenecks and maximize overall performance. At the heart of this system is the second-generation TPU we're announcing today, which can both train and run machine learning models.

Each of these new TPU devices delivers up to 180 teraflops of floating-point performance. As powerful as these TPUs are on their own, though, we designed them to work even better together. Each TPU includes a custom high-speed network that allows us to build machine learning supercomputers we call “TPU pods.” A TPU pod contains 64 second-generation TPUs and provides up to 11.5 petaflops to accelerate the training of a single large machine learning model. That’s a lot of computation!

Using these TPU pods, we've already seen dramatic improvements in training times. One of our new large-scale translation models used to take a full day to train on 32 of the best commercially-available GPUs—now it trains to the same accuracy in an afternoon using just one eighth of a TPU pod.

https://blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/

http://img5.fotos-hochladen.net/uploads/tpu2j25p6bckv3.jpg

http://www.fotos-hochladen.net/uploads/tpu33zfvyclqwr.jpg

Pirx

2017-05-18, 07:06:38

Tjo wer braucht da noch GPUs?

urpils

2017-05-18, 07:24:51

macht Microsoft doch auch. Interessant - aber ich verstehe nicht ganz, wieso sie damit "werben". dennoch - gut zu wissen :)

mboeller

2017-05-18, 07:43:04

Tjo wer braucht da noch GPUs?

alle ... außer Google.

Google verkauft seine TPUs ja nicht, oder?

w0mbat

2017-05-18, 08:08:47

Pixelmonk

2017-05-18, 08:23:50

Google verkauft die TPUs nicht, sie bieten aber einen Cloud-service (https://cloud.google.com/compute/) bei dem man auf die TPUs zugreifen kann.

Introducing Cloud TPUs

We’re bringing our new TPUs to Google Compute Engine as Cloud TPUs, where you can connect them to virtual machines of all shapes and sizes and mix and match them with other types of hardware, including Skylake CPUs and NVIDIA GPUs. You can program these TPUs with TensorFlow, the most popular open-source machine learning framework on GitHub, and we’re introducing high-level APIs, which will make it easier to train machine learning models on CPUs, GPUs or Cloud TPUs with only minimal code changes.

With Cloud TPUs, you have the opportunity to integrate state-of-the-art ML accelerators directly into your production infrastructure and benefit from on-demand, accelerated computing power without any up-front capital expenses. Since fast ML accelerators place extraordinary demands on surrounding storage systems and networks, we’re making optimizations throughout our Cloud infrastructure to help ensure that you can train powerful ML models quickly using real production data.

Our goal is to help you build the best possible machine learning systems from top to bottom. While Cloud TPUs will benefit many ML applications, we remain committed to offering a wide range of hardware on Google Cloud so you can choose the accelerators that best fit your particular use case at any given time. For example, Shazam recently announced that they successfully migrated major portions of their music recognition workloads to NVIDIA GPUs on Google Cloud and saved money while gaining flexibility.

https://blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/

Skysnake

2017-05-18, 08:35:14

Was quasi noch schlimmer als verkaufen ist je nach Sichtweise. Man kann sich nämlich das holen was man braucht und gut ist. Bei den DataAnalytics Leuten ist das ganz begehrt, da die Workloads sehr punktuell sind.

Auf der anderen Seite sind Baidu, Microsoft, Facebook usw. eher daran interessiert das Zeug zu kaufen.

Am Ende wahrscheinlich eine ganz intelligente Wahl von Google, um die Kosten wieder rein zu holen, ohne die Konkurrenz die Ergebnisse der eigenen Arbeit auf dem Silbertablett zu servieren.

Nakai

2017-05-18, 10:53:17

Das könnte ein Problem für Nvidia werden. GV100 mit seinen 815mm2 und 300W schafft 120TFlops, Google's neue TPU 180TFlops. Und die wird deutlich günstiger und sparsamer sein. Wenn ich Tensor cores will kaufe ich Google, wenn ich alles andere will kaufe ich AMD.

Dass GV100 ein Schuß in den Ofen ist, sollte langsam klar werden. Das Ding ist sowieso nur ein Zwischenschritt bis zur richtigen TPU von NV, ohne den ganzen Ballast einer GPU.

€: Spezialisierte ASICs sind für diesen Markt eh das Beste.

mboeller

2017-05-20, 12:35:28

http://www.nextbigfuture.com/2017/05/on-device-ai-coming-from-google-to-support-speech-processing-and-augmented-reality.html

wie soll ich mir das vorstellen? Tensorflow Lite würde ja immer noch TFlops an Leistung benötigen, oder?

Trap

2017-05-20, 13:53:23

wie soll ich mir das vorstellen? Tensorflow Lite würde ja immer noch TFlops an Leistung benötigen, oder?
Nicht alle Anwendungen brauchen direkt Tflops. Google hatte ja zum Beispiel auch automatische Selektion von sinnvollen Schnipseln aus Text vorgestellt, basierend auf Tensorflow.

gravitationsfeld

2017-05-20, 17:54:35

Dass GV100 ein Schuß in den Ofen ist, sollte langsam klar werden. Das Ding ist sowieso nur ein Zwischenschritt bis zur richtigen TPU von NV, ohne den ganzen Ballast einer GPU.

€: Spezialisierte ASICs sind für diesen Markt eh das Beste.
Auf welche fantasierten Roadmap hat NVidia irgend was nicht CUDA kompatibles?

AffenJack

2017-05-20, 18:36:15

Auf welche fantasierten Roadmap hat NVidia irgend was nicht CUDA kompatibles?

Seit wann haben wir überhaupt roadmaps für nach Volta? Ansonsten guck dir doch Xavier an. Da ist schon nen DL ASIC drauf. Nichts hindert Nvidia das Ding in Größer als Seperaten Chip zu entwickeln, wenn der Markt es bedarf. Da Intel ebenso ne TPU am Ende des Jahres bringt ist es jetzt nicht groß unwahrscheinlich, dass Nvidia auch in die Richtung gehen wird. Und wieso sollte das Ding nicht CUDA kompatibel sein?

Achill

2017-05-21, 11:45:49

Ich finde was die Google Cloud TPU (TPU v2) aktuell voraus hat, ist:
- Existiert in produktiven Einsatz
- Geeignet für Training und Inference
- 64 Cloud TPUs direkt verknüpfbar (TPU Port) ohne weitere HW (z.B. IBM)
- Cloud-Based Businesses Modell und Google App Engine

Interessant wird es sein zu sehen, wie es angenommen wird und was Google für Preise aufruft.

dildo4u

2017-05-21, 12:24:54

Laut dem Google Blogeintrag sind die TPU's nur durch ein Netzwerk verbunden,das könnte die Achillesferse sein.Für Nvidia ist es schon ideal Beides auf dem Die zu haben,so deckt man Google und AMD ab.

Achill

2017-05-21, 12:45:27

Das Paper hatten wir noch nicht oder? In-Datacenter Performance Analysis of a Tensor Processing Unit (https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view)

This paper describes and measures the Tensor Processing Unit (TPU) and compares its performance and power for
inference to its contemporary CPUs and GPUs. Here is a preview of the highlights:
● Inference apps usually emphasize response-time over throughput since they are often user-facing.
● As a result of latency limits, the K80 GPU is under-utilized for inference, and is just a little faster than the Haswell CPU.
● Despite having a much smaller and lower power chip, the TPU has 25 times as many MACs and 3.5 times as much on-chip memory as the K80 GPU.
● The TPU is about 15X - 30X faster at inference than the K80 GPU and the Haswell CPU.
● Four of the six NN apps are memory-bandwidth limited on the TPU; if the TPU were revised to have the same memory system as the K80 GPU, it would be about 30X - 50X faster than the GPU and CPU.
● The performance/Watt of the TPU is 30X - 80X that of contemporary products; the revised TPU with K80 memory would be 70X - 200X better.
● While most architects have been accelerating CNNs, they represent just 5% of our datacenter workload.

Troyan

2017-05-21, 12:54:09

Das ist TPU1 und im Grunde veraltet. GV100 liefert alleine 20x mehr Rohleistung als K80 und bietet explizit für <=FP32 eine viel bessere Leistung aufgrund der Architekturvorteile.

Digidi

2017-05-21, 13:12:56

Das ist TPU1 und im Grunde veraltet. GV100 liefert alleine 20x mehr Rohleistung als K80 und bietet explizit für <=FP32 eine viel bessere Leistung aufgrund der Architekturvorteile.

GV100 = 120 Teraflops
Google TPU = 180 Teraflops + kein Sonstiger Ballast mit dabei

Bin mal gespannt wo die Reise hin geht. Gerade AI gepaart mit Industrie 4.0 klingt interessant. Dann müsste aber auch die FP64 Leistung sehr stark steigen, weil Physikalische Systeme eine hinreichende Genauigkeit brauchen um diese zu lösen.

Troyan

2017-05-21, 13:17:40

GV100 = 120 Teraflops
Google TPU = 180 Teraflops + kein Sonstiger Ballast mit dabei

Eine Google TPU2 hat 45TFLOPs. Erst im Verbund in einer Cloud-TPU erreicht Google die 180TFLOPs.

Digidi

2017-05-21, 13:24:40

Eine Google TPU2 hat 45TFLOPs. Erst im Verbund in einer Cloud-TPU erreicht Google die 180TFLOPs.

Und? Ist doch egal wo raus es besteht, dass TPUs überhaupt etwas nutzen, müssen sehr sehr viele davon in Server verbaut werden. Google hat hier 28nm und 330mm² große Chips. Was glaubst du was wohl günstiger ist und mehr Leistung bringt und weniger Strom verbraucht?

Hinzu kommt, dass das Netzwerk von Google schon für die Bedürfnisse Ihrer AI ausgelegt ist, während Nvidia für alle AI etwas parat haben muss. Entweder Nvidia löst die Tensoreinheiten heraus und machen irgendwann eine eigene Produktlinie dafür aus, oder sie werden sang und klanglos untergehen.

Im übrigen ist meine Vermutung das es in Zukunft jede gewünschte Funktion einzeln auf einem Chip abgebildet wird. Dann gibt es FP64 Chips, Int8 Chips, Tensor Chips, die dann wie in einem Baukasten zu einem beliebigen Produkt zusammengebaut werden können. Deshalb werden Netzwerke - Verknüpfungen auch immer wichtiger. Grund hierfür ist die Stagnation beim Produktionsprozess der Chips. Wenn man kleiner nicht !

Hübie

2017-05-21, 13:48:58

Digidi

2017-05-21, 13:57:16

Ist doch Müll was du redest. Sang und klanglos untergehen. :facepalm: Sorry, aber in den letzten Tagen kann man dich echt nicht mehr ernst nehmen.

Eine TPU ist ein ASIC für AI. Wenn du also zum Beispiel google Sprachsteuerung benutzt. GV100 hat ein anderes Gebiet wo man eben noch mit graphics etwas verknüpft wie z.B. Schwarmintelligenz im Simulator oder Flugverkehrsimulationen etc. Google ist, ob du es glaubst oder nicht, nach wie vor ein Großkunde von nVidia. Was ist denn so schwer zu akzeptieren dass es mehrere Produkte parallel geben kann. Gibt doch auch Pickups und Kleinlaster. Ist einer sang und klanglos untergegangen weil er nicht wie der andere wurde?

Bitte informiere dich doch erst mal etwas. :up:

Ps: Wir diskutieren hier nicht wirklich ob eine TPU besser als eine GPU für training und inference ist oder? :|

Edit: Ja ich weiß; Autovergleich. Ne andere Sprache verstehen manche aber wohl nicht. X-D

Äh ja ich hab mich Informiert. Gerade Schwarmintiligenz ist etwas was keinen großen Graphischen Rechenaufwand braucht und man mit der TPU von Google bestimmt sehr gut nachbilden kann, als ob Google nur Interesse an Sprachsteuerung hat. Google möchte ja Wissen was der Menschen"Schwarm" so alles treibt.

Natürlich gibt es Nischen wo Nvidia gut geeignet ist, aber es sind halt Nischen. Da gibt's keinen großen Umsatz und ein Chip mit 814mm² in einem teuren Fertigungsprozess ist da garantiert nicht gerne gesehen.

Hübie

2017-05-21, 14:07:01

Äh ja ich hab mich Informiert. Gerade Schwarmintiligenz ist etwas was keinen großen Graphischen Rechenaufwand braucht und man mit der TPU von Google bestimmt sehr gut nachbilden kann, als ob Google nur Interesse an Sprachsteuerung hat. Google möchte ja Wissen was der Menschen"Schwarm" so alles treibt.

Natürlich gibt es Nischen wo Nvidia gut geeignet ist, aber es sind halt Nischen. Da gibt's keinen großen Umsatz und ein Chip mit 814mm² in einem teuren Fertigungsprozess ist da garantiert nicht gerne gesehen.

Vergiss es einfach. Du hast Recht, ich meine Ruhe. :D

Digidi

2017-05-21, 14:07:46

Vergiss es einfach. Du hast Recht, ich meine Ruhe. :D
Na dann erkläre es doch wenn du so schlau bist :facepalm:

Schwarmintiligentz ist ein Entscheidungsprozess welche die Bahn eines Objekts aufgrund bestimmter Informationen bestimmt und viele Abhängigkeiten hat. Jetzt sag mir warum ich hier eine Genauigkeit von 1000 Stellen hinter dem Komma brauche oder aufwendige graphische Darstellungen!
Hier mal dazu: https://petewarden.com/2015/05/23/why-are-eight-bits-enough-for-deep-neural-networks/

Oder sag mir doch auch mal wozu ich bei der Simulation des Universums oder der Erde Int8 brauche, hier sind 1000 Stellen hinter dem Komma sehr erwünscht wenn man sich ein bisschen damit auskennt?

GV100 ist ein guter Chip und er kann von allem ein bisschen und das auch relative Gut, aber das braucht kaum jemand. Viele Felder brauchen Speziallösungen und deshalb glaube ich, das dies der letzte Große Chip war den wir von Nvidia so gesehen haben.

Kriton

2017-05-21, 15:13:25

Eure argumenta ad hominem sind aber auch echt Mist. Wenn ihr es besser wisst, dann erklärt euch, oder shreibt halt gar nichts. Zumindest kommt von ihm Inhalt. Wenn falsch liegt, kann man ihn ja widerlegen.
Aber sich nur hinstellen und sagen man wäre blöd und das war´s ist halt echt scheisse.

Das ist TPU1 und im Grunde veraltet. GV100 liefert alleine 20x mehr Rohleistung als K80 und bietet explizit für <=FP32 eine viel bessere Leistung aufgrund der Architekturvorteile.

Wenn ich jetzt nur mal den von Achill zitierten Teil nehme, dann bringt mehr Rohleistung doch erst einmal nichts, weil die Limitierung in der Latenz besteht.

Troyan

2017-05-21, 15:21:52

nVidias Huang hat doch ein Blogpost darüber verfasst: https://blogs.nvidia.com/blog/2017/04/10/ai-drives-rise-accelerated-computing-datacenter/

Google hat die TPU aus 2015 mit K80 aus "2012" verglichen. GP102 mit 48TOPS ist deutlich schneller und GV100 legt nochmal um mehr als Faktor 2 zu.

Interessant ist viel mehr, dass Google bei TPU2 weggeht von reinen INT8-Einheiten und wie nVidia FP-Einheiten verwendet.

iuno

2017-05-21, 18:56:49

Interessant ist viel mehr, dass Google bei TPU2 weggeht von reinen INT8-Einheiten und wie nVidia FP-Einheiten verwendet.
Das liegt schlicht und einfach daran, dass man auch auf der eigenen Hardware trainieren will. Die alte TPU mit INT8 (oder wahlweise INT16) Matrix-Ops war nur fuer Inferencing gedacht. Activation Inputs und Gewichte sind ganzzahlig, fuers Training braucht man FLOPs.
Das ist TPU1 und im Grunde veraltet. GV100 liefert alleine 20x mehr Rohleistung als K80 und bietet explizit für <=FP32 eine viel bessere Leistung aufgrund der Architekturvorteile.
Eine TPU taugt nach wie vor sehr gut fuer inferencing, selbst gegen die V100 "Nano" mit "nur" 150 Watt, ausserdem kann man viel mehr davon pro Node verbauen.

Und warum muss man hier eigentlich wieder etliche OT Posts lesen? Wen interessiert FP64 auch nur im entferntesten bei TPUs? Die gruenen haben doch wirklich selber genug Threads wo sie ihren Lederjackenfetisch ausleben koennen, jetzt muss sogar schon Google dran glauben, weil sie sich in direkte Konkurrenz stellen :eek::freak::rolleyes:

scully1234

2017-05-21, 19:20:42

Eine TPU taugt nach wie vor sehr gut fuer inferencing, selbst gegen die V100 "Nano" mit "nur" 150 Watt,:

Und was passiert wenn die Aufgabenstellung mehr als das erfordert?

z.B Belastungs/Strömungssimulationen , gepaart mit neuronalen Netzen ...interessiert dann FP64 am Rande doch wieder?

Digidi

2017-05-21, 19:29:38

Wenn du mir jetzt die Frage beantwortest wie du Strömungssimmulationen mit neuronalen Netze zusammenführst oder welches Unternehmen oder Wissenschaftliche Einrichtung das gleichzeitig Braucht werde ich nie wieder was sagen.

Darum ging es mir die ganze Zeit. Moderne GPUs sind Alleskönner. Ist das der richtige Weg? Google findet nein und hat was sehr spezielles dafür entwickelt -.-

scully1234

2017-05-21, 19:57:14

oder welches Unternehmen oder Wissenschaftliche Einrichtung das gleichzeitig Braucht werde ich nie wieder was sagen.

Dann hättest du mit dem Heise Link schon schweigen müssen,denn Summit als auch Sierra ist für beides vorgesehen

|MatMan|

2017-05-21, 20:09:16

Aktuell wirft man Deep Learning auf alle möglichen Probleme, das sehe ich auch in meinem Umfeld. Da man oft keinen Mathematiker zur Hand hat, der einem garantiert dass FP32 reicht, nimmt man sicherheitshalber FP64 (einfach aus der Historie). Ein eher all-rounder wie GV100 oder ggf. Vega kann da gerade im wissenschaftlichen Umfeld sinnvoll sein.
Für mich ist das größte Argument für eine Alternative zu Googles TPUs, dass diese nicht verkauft werden. Ein Cloud Service ist einfach oft keine realistische Option.
Da gibt es definitiv Bedarf für Lösungen neben Googles TPU. In erster Linie hat Google die TPUs ja auch für sich selbst entwickelt und nicht jeder macht dasselbe wie Google...

Skysnake

2017-05-21, 20:29:31

GV100 = 120 Teraflops
Google TPU = 180 Teraflops + kein Sonstiger Ballast mit dabei

Naja, man weiß weder bei GV100 noch bei der Google TPU was am Ende bei rum kommt. Wen interessieren schon PEAK Werte?

Gerade bei GV100 muss man befürchten, dass das nur bei 4x4x4 Tensoren funktioniert mit dem Peak. Und 4x4x4 sind meinem Gefühl nach eher selten.

Bei der TPU weiß man leider noch gar nichts...

Kann also am Ende locker ein Faktor 2 zwischen den Lösungen bei der Anwendungsperformance liegen, welche aber vorne liegt, kann man heute noch gar nicht sagen außerhalb von Google...

Bin mal gespannt wo die Reise hin geht. Gerade AI gepaart mit Industrie 4.0 klingt interessant. Dann müsste aber auch die FP64 Leistung sehr stark steigen, weil Physikalische Systeme eine hinreichende Genauigkeit brauchen um diese zu lösen.
Ich glaube ihr vergesst wie groß Google ist.... Die stellen mal eben für Umme für die Forschung 1000 TPU2 hin. Das ist zich mal mehr Rechenleistung als sich nVidia mit ihrem Saturn V System gegönnt hat. Da will man gar nicht wissen, was Google an Rechenleistung für sich selbst hat...

Laut NV bringt NVlink gerade bei Deep Learing was also hat nur NV TPU plus High Speed Interface.
http://www.nvidia.com/object/nvlink.html
Das ist so nicht richtig. die TPU2 hat wohl einen 2D-Tori Interconnect. Man weiß aber sonst nichts darüber. Man kann aber davon ausgehen, dass das wahrscheinlich deutlich im Vorteil gegenüber nVLink ist. Man kennt genau die Architektur und muss nur gewisse Größen an Messages supporten. Zudem skaliert das Ding mindestens bis 48. Bei nVLink ist wohl schon bei 8 Schluss.

Solche Prozessoren lohnen sich für Google, weil diese für deren Aufgabengebiet sinn ergeben. Für Daten-/Rechenzentrumbetreiber müssen sich Produkte viel schneller wirtschaftlicher lohnen. Mit GV100 bieten man das beste aus jeder Welt: Grafik, DL/ML, HPC. Selbst bei einer Instanzierung von 3 Usern auf einer GV100 Karte erhält man für DL immer noch 88% der Rechenleistung von Googles TPU2 und bei sogar 5 Usern die Rechenleistung von AMDs Vega Produkt.

Es ist ökonomisch vollkommen sinnbefreit sein Zentrum mit zig verschiedenen Architekturen auszustatten, um jedes Aufgabengebiet abzudecken.
Naja, sooo kann man das nicht unbedingt sagen.

Für das "normale" Rechenzentrum von nebenan, als auch wohl für >90% der Betreiber von den TOP500 Systemen, trifft das zu, wobei man heutzutage eigentlich überall 2-5 verschiedene Systeme hat, wobei es sich bei vielen Dingen nur um ein paar Knoten handelt. Visualisierungsknoten sind da immer gern genommen. Also viel RAM und GPUs drin. Aber halt seltens mehr als 10-20 Knoten, oder halt weniger als 1% der Knoten.

Wenn du dir aber die Big 5(?) anschaust, dann ist es für die kein Problem zich unterschiedliche Systeme zu haben, und zwar in den tausenden bis zehntausenden von Systemen. Die sind einfach RIESIG! Die werden selbst mit so Speziallösungen wie der TPU größere Rechenzentren haben, als die meistne Anbieten auf der Welt...

Da du die Projekte ja anscheinend kennst, kannst du ja mal offen legen ,warum Nvidia für Qak Ridge explizit Tensor Cores eingepflegt hat?

Wäre mir aber ganz neu. Link dazu?

Vielleicht ist die Google Architektur ohne den ganzen anderern "sinnlosen Mist" den Nvidia da noch einbaut, ja doch nicht so flexibel wie du den Anschein erwecken willst mmmh

Denn anderenfalls kann sich wohl kaum jemand erklären ,warum man Nvidia dort den Vorzug gibt mit ihrem riesen Chip
GV100 ist halt ein Allround-Chip. Den nimmt man genau wie CPUs, wenn man halt viele Workloads hat, die alle ein großes System brauchen, aber eben nicht genug Ressourcen auf die ZEit brauchen, um dedizierte Systeme zu rechtfertigen.

Bei Google ist das halt anders. Die haben für zich unterschiedliche große! Systeme genug Bedarf. Da macht es natürlich Sinn sich mehrere große Systeme hin zu stellen, die jeweils diese speziellen Aufgaben erfüllen.

scully1234

2017-05-21, 21:17:59

Does Google’s TPU Investment Make Sense Going Forward?
April 12, 2017

If Nvidia can double the performance of machine learning inference with the future “Volta” GPUs that will presumably be announced at the GPU Technical Conference in May and possibly shipping later this year for selected HPC customers and maybe for AI customers, then Nvidia V4 and V40 accelerators will be in the same league as a TPU gussied up with GDDR5 memory and moved to a slightly more aggressive process shrink to 20 nanometers (https://www.nextplatform.com/2017/04/12/googles-tpu-investment-make-sense-going-forward/)

...

Achill

2017-05-21, 23:21:28

Im neuen Artikel zu TPU v2 (https://www.nextplatform.com/2017/05/17/first-depth-look-googles-new-second-generation-tpu/) von nextplatform.com wird gesagt, dass jetzt FP Berechnungen durchgeführt werden:

[..]
On that note, Dean did say that “Unlike the first generation that supported quantized integer arithmetic, this uses floating point computations. You won’t have to transform the model once its trained for inference to use quantized arithmetic, you can use the same floating point representation throughout training and inference, which will make this easier to deploy.”
[..]

Skysnake

2017-05-21, 23:32:34

Ja, aber wahrscheinlich nur FP16. Maximal FP32, aber FP64 garantiert nicht.

Hübie

2017-05-21, 23:49:17

Für DL spielt FP64 keine Rolle und selbst im HPC ist es selten genutzt.

Gipsel

2017-05-21, 23:57:45

Langsam bin ich es leid, hier ständig OT-Posts zu löschen. Ab sofort gibt es dafür Karten.

Skysnake

2017-05-22, 02:40:39

Wann soll eigentlich das Paperback zur TPUv2 kommen? Das soll ja noch im peer Review hängen

bertramfx

2017-05-22, 09:19:15

Im deep learning bereich wird standardmäßig FP32 verwendet. Alle anderen Formate sind derzeit aktives Forschungsgebiet, gerade deshalb ist eine gewisse Flexibilität bei der Präzision wünschenswert. Oftmals wird mehr Präzision während des trainings (gradient backpropagation) als während der inference ( forward pass ) benötigt. Auch der Netzwerktyp ( feedforward vs recurrent ) spielt eine Rolle, ebenso der input ( time series, single frames etc.).

Complicated

2017-07-19, 12:21:12

Fujitsu steigt auch bei AI ein. 2018 kommt ein Deep Learning Chip der es wohl in sich hat.
http://www.guru3d.com/news-story/fujitsu-releases-details-of-new-ai-processor.html
HBM2 ist verbaut und es scheint als ob sie mit 8-bit und 16-bit Berechnungen die selbe Präzision erreichen die üblicherweise mit 32-Bit Berechnungen erreicht wird. 10x Performance als die Konkurrenz ist auch eine Ansage.

BlackBirdSR

2017-07-19, 14:05:41

Das kommt davon wenn einer vom anderen a schreibt und keiner die Quelle richtig deutet..
Dann kommt plötzlich sowas raus wie : 8bit und 16bit precision = 32bit....

Da steht, dass man bei vielen Applikationen auch mit 8 und 16 Bit INT auskommen würde, und das die Software / Algorithmen eben nutzen sollten...

Fujitsu steigt auch bei AI ein. 2018 kommt ein Deep Learning Chip der es wohl in sich hat.
http://www.guru3d.com/news-story/fujitsu-releases-details-of-new-ai-processor.html
HBM2 ist verbaut und es scheint als ob sie mit 8-bit und 16-bit Berechnungen die selbe Präzision erreichen die üblicherweise mit 32-Bit Berechnungen erreicht wird. 10x Performance als die Konkurrenz ist auch eine Ansage.

Complicated

2017-07-19, 14:12:45

Da steht:
The company claims to be able to achieve the required precision with 8- or 16-bit data sizes , which right now is just for full-FP32 calculations, and that is a massive time saver, it should be just as accurate.

Es gibt eine eigene "DLU" - Deep Learning Unit die das ermöglicht.

Troyan

2017-07-19, 14:48:29

Sie verwenden INT16- und INT8-Datentypen und -Genauigkeiten, da diese für den dort genannten Anwendungszweck ausreichen. Selbst auf dem Schaubild ist es kein Ersatz für FP32.

Ist auch nichts besonderes. nVidia und Google arbeiten nach dem selben Prinzip mit den Tensorcores.

Complicated

2017-07-19, 15:36:33

Schau dir das Schaubild genauer an.

Troyan

2017-07-19, 15:50:47

Das Schaubild, wo die FP32 über dem roten INT16 ist? :rolleyes:

Und nein, ich werde jetzt nicht seitenweise auf deinen Antworten eingehen. Deine Aussage und die von Guru3D ist einfach falsch.

/edit: Google ging weg von INT8 Einheiten und hat für TPU2 auf FP16 Einheiten gesetzt.

Loeschzwerg

2017-07-19, 17:08:57

Die vier Steckkarten links:
http://it.impressbm.co.jp/mwimgs/b/e/-/img_be40a4e116f0decb00a96467773be4831537141.jpg

Entropy

2017-07-19, 17:16:48

Sie verwenden nicht "INT16- und INT8-Datentypen und -Genauigkeiten", da ist explizit von "Deep Learning Integer" die Rede, das ist auch nochmal auf der lezten Folie.

Meine Vermutung:
Die können wiederholt paarweise akkumulieren und haben dadurch mehr genauigkeit als sequenziel erreicht, falls die untersten Bits verworfen werden wenn es einen Überlauf gibt. Oder sie Haben bei jeder "Kaskade" ein bit mehr im Rechenwerk. Im ASIC kann man vermutlich sehr leicht soeinen spezialisierten fake-float machen.
Ich denke dass die Deswegen die FP32 bzw FP16 oben zeigen, das ist vermutlich der Rückgabewert der DLU.

FP16 hat leider auch nur 10Bit Genauigkeit, 4 INT8 aufaddiert erreichst du schon das limit, die haben ihr Deep Learning Int8 oberhalb von FP16 vermerkt.

Nakai

2017-07-19, 17:45:39

Boah Leute habt ihr keinen Plan von Numerik?!

INT8 ADD INT8 => INT9
INT8 MUL INT8 => INT16

Kurz, bei INT-ADD kann ein Bit durch einen CarryOver entstehen. Bei INT-MUL kann die Bitbreite eben verdoppelt werden.

Das ist damit gemeint und nichts anderes. Die integrierten Einheiten sind eben hierfür designt worden.

€: Und klar, wird irgendwann die Präzision auf die Eingabe-Datentypen runtergerechnet.

Und NV und Google machen eben nicht das gleiche. Google macht es 1000mal besser, indem sie den ganzen GPU-Overhead einfach entfernt haben. Das was Google macht ist nicht eine soetwas was ein TensorCore bei NV durchführt.

Was macht Google? Die haben im Endeffekt ein fettes modifiziertes Array von Gleitkommaeinheiten (FP16). Von oben und von der Seite kommen die Daten rein. Das ist dabei immer in Layer angeordnet, welche stufenweise eine fette Matrixmultiplikation ausführen.
Layer 0: Input0xWeight0 = res0 => Layer 1
Layer 1: Input1xWeight1 + res0 = res1 => Layer 2
Layer 2: Input2xWeight2 + res1 = res 2
etc...

Im Grunde ist die Google TPU nur ein richtig fetter DSP und hat wenig mit Compute zu tun. Eigentlich nur ein richtig fetter Slave zum Berechnen von MMs.