3D Chips seriell? [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : 3D Chips seriell?

Haarmann

2004-04-30, 09:54:45

Also mal kurz die Idee abgehandelt. Man bastelt Heute Transistorenmonster mit sehr vielen identischen Einheiten nebeneinander. Wieso macht man ned nur wenige Einheiten und lässt die schneller laufen, wobei logisch gesehen nach wie vor mehrere Einheiten vorhanden sind. Das müsste doch das Silizium beängstigend schrumpfen lassen.

Demirug

2004-04-30, 10:18:58

Die Idee ist ja nicht neu. Das Problem ist aber die Datenübertragung von einer Recheneinheit zur nächsten. Um ein Signal von Einheit A nach Einheit B zu bekommen braucht man unter umständen eine sehr lange Zeit weil der Signalweg so lang ist. Man schaut sich in diesem Zusammenhang übrigens inzwischen wieder die Lösungen von den alten Supercomputer (Gray) an. Dort gab es ähnliche Probleme.

Zudem besteht ja auch eigentlich kein Interesse kleine Highend-Chips zu bauen.

Muh-sagt-die-Kuh

2004-04-30, 10:25:43

Original geschrieben von Haarmann
Also mal kurz die Idee abgehandelt. Man bastelt Heute Transistorenmonster mit sehr vielen identischen Einheiten nebeneinander. Wieso macht man ned nur wenige Einheiten und lässt die schneller laufen, wobei logisch gesehen nach wie vor mehrere Einheiten vorhanden sind. Das müsste doch das Silizium beängstigend schrumpfen lassen. Weil die Rechnung nicht aufgeht...

Nimm einen 16 Pipe Chip als Basis und rechne dir mal aus, um wieviel du die Taktrate steigern müsstest um das gleiche Leistungsniveau mit einem kleinen 4 Pipe Chip zu erreichen....um eine Größenordnung die im gleichen Prozess nicht möglich ist.

Haarmann

2004-04-30, 13:34:18

Muh-sagt-die-Kuh

400MHz*4=1600MHz Ich hab ehrlicherweise schon manchen 0.13 gefertigten Chip mit der Taktrate gesehen...

Demirug

Gerade dieses mangelnde Intresse ist aus meiner Sicht verdächtig. Bei mir im Kopf geistert irgendwie sowas ala - weniger Fläche -> weniger Preis -> mehr Gewinn ;). Von daher ists mir langsam ein Rätsel, wieso man diese Transistormonster weiterhin pflegt. Bei CPUs kriegen wir inzwischen SRAM mit etwas Logik dran serviert... Bei GPUs langsam getaktete mehrfache Einheiten. Da muss man sich wirklich mal nach dem Sinn fragen.

Demirug

2004-04-30, 14:39:23

Original geschrieben von Haarmann
Demirug

Gerade dieses mangelnde Intresse ist aus meiner Sicht verdächtig. Bei mir im Kopf geistert irgendwie sowas ala - weniger Fläche -> weniger Preis -> mehr Gewinn ;). Von daher ists mir langsam ein Rätsel, wieso man diese Transistormonster weiterhin pflegt. Bei CPUs kriegen wir inzwischen SRAM mit etwas Logik dran serviert... Bei GPUs langsam getaktete mehrfache Einheiten. Da muss man sich wirklich mal nach dem Sinn fragen.

Es ist etwas komplizierter. Die Kosten für OPs/s werden mit steigender DIE grösser kleiner. Allerdings nur bis zu einem bestimmten Punkt. Dieser Punkt hängt aber von der FAB und dem Prozess ab und wird desweiteren ständig in die Richtung grösser verschoben. Kommt man aber über diesen Punkt steigen die Kosten für OPs/s ins unendliche. Die Kunst ist es also den Punkt möglichts genau vorherzusagen wenn man mit dem Design eines Chips anfängt.

Natürlich sind Chips welche sich in diesem Bereich bewegen teuer. Und darum lohnt das ganze auch nur für Highend Produkte. In anderen Bereichen wären sie einfach zu teuer. Dort nimmt man dann höhere Kosten pro OP/s in kauf um die Gesamtkosten unter der entsprechenden Grenze zu halten.

Aus diesem Grund tendiert man ja auch inzwischen zu Multicore Chips.

ilPatrino

2004-04-30, 14:54:35

man sieht doch beim vergleich presskot vs. hammer recht gut, wo der takt-wahn mit ipc-schwachen prozzies hinführt. komplexere recheneinheiten verursachen in erster linie kosten, höhere takte bedingen idr neue fertigungstechnologien. höhere kosten lassen sich in dem markt problemlos auf die käufer abwälzen, aber fertigungstechnologien müssen erst zur serienreife entwickelt werden. und zeit ist ein luxus, den in der branche kaum einer hat...

Brillus

2004-04-30, 16:26:47

Wirde sich dies nicht auch schlecht auf die Latzen auswirklen also ich meine damt vievile Takte eine Pipe leer läuft bis sie die Daten hat oder ist das bei VPUs zu vernachlässigen?

Haarmann

2004-04-30, 16:53:14

Demirug

Ich muss ev mal genau erklären, was mir vorschwebte. Wobei imho ein Cray hier schon einige dieser Prinzipien beinhaltet, aber imho nur "eindimensional".
In meinem Geiste schwebet nun ein PS/VS (das soll ja in Zukunft beides das Gleiche sein). Der beinhaltet wohl irgendwelche Funktionen, die ich nicht alle kenne. Nun würde ich versuchen eine lange "Pipeline" zu bauen, wobei man sich dies nicht "Schrittweise" vorstellen sollte, sondern eben "Zeiteinheitsweise". Wenn ich das richtig machte, dann kann ich im Prinzip diese Unit dann so nutzen, wie ich das noch erläutere. Die Idee dahinter ist, dass ich die "Pipeline" sogar in "extreme" Takte jagen kann (da wären mir auch 150 Stufen recht). 4 GHz ist da schon mein Minimum, wofür sie ausgelegt werden müsst.
Davor steht dann eben der nette "Dekoder", der die Aufgabe hat, die Pipeline voll zu halten. Der wird ne Menge Zwischenspeicher verbrauchen, aber damit sollte es eigentlich möglich sein die "Pipeline" voll zu erhalten. Abhängige Befehle sollten daher aufgefangen werden können, weil ich dieser "Pipeline" ja logisch mehrere zuordne. Die Idee ist also recht simpel gestrickt. Die Transistorenzahl für die Logik sollte gering sein im Vergleich zu Heute. Es hindert aber keinen dran die Fläche mit SRAM zu füllen ;).
Intel versucht uns per HT ja sowas in der Art zu verkaufen. Nur würd ich gleich 4 eher 8 Einheiten emulieren wollen.

Brillus

Natürlich ist diese Gefahr gross - daher eben die Idee der verschiedenen logischen Einheiten. Wenn eine blockiert ist, hats Andere, die das wohl noch nicht sind.

Xmas

2004-04-30, 17:04:57

Intel geht mit HT IMO das Problem an, dass die verschiedenen unabhängigen Einheiten nur schlecht ausgenutzt werden. Das ist in einer GPU aber normalerweise nicht der Fall, solange kein Branching vorliegt.
Abhängige Befehle sind in GPUs bereits dadurch unerheblich, dass sich immer dutzende Quads in der Pipeline befinden. Deswegen sehe ich hier nicht welches Problem du lösen möchtest.

Haarmann

2004-04-30, 17:52:59

Xmas

Bei 150 Stufen muss man wohl schon recht zaubern um die voll zu halten...
Diese extreme Länge geht aber wohl auch nur, wenn man eben ne gute Ausgangslage hat, die Du ja auch siehst.

Demirug

2004-04-30, 18:02:44

Original geschrieben von Haarmann
Xmas

Bei 150 Stufen muss man wohl schon recht zaubern um die voll zu halten...
Diese extreme Länge geht aber wohl auch nur, wenn man eben ne gute Ausgangslage hat, die Du ja auch siehst.

150 Stufen sind in einem Grafikchip ein Witz. NV30 hat über 200 aleine im Pixelprozessor. Wenn man nicht zu viele Temp-Register braucht kann man die auch leicht voll halten. Grafikchips nutzten nunmal massive Multithreading.

NV30 = Pro Pipelinestufe ein Thread beim NV40 wahrscheinlich auch.

Muh-sagt-die-Kuh

2004-04-30, 18:54:59

Original geschrieben von Haarmann
Muh-sagt-die-Kuh

400MHz*4=1600MHz Ich hab ehrlicherweise schon manchen 0.13 gefertigten Chip mit der Taktrate gesehen...Ein Grafikchip ist aber nunmal keine CPU....formulieren wir die Frage anders: Hast du schonmal einen Grafikchip mit 1600 mhz gesehen?

Haarmann

2004-04-30, 19:04:29

Muh-sagt-die-Kuh

Hast Du mal nen Grafikchip mit einer physischen Einheit gesehen? Also ich nicht...
Von daher schliesse ich die Möglichkeit und Machbarkeit nicht aus. Du offenbar schon - darf man fragen wieso?

Demirug

Tjo, dann setz ne 0 hinten hin ;). Ich kann mir nicht vorstellen, wie man dann die Units ned schneller betreiben kann bei 200 Stufen, aber offenbar ist dem so. Ev die Hotspots?

Gast

2004-04-30, 19:14:21

Original geschrieben von Muh-sagt-die-Kuh
Weil die Rechnung nicht aufgeht...

Nimm einen 16 Pipe Chip als Basis und rechne dir mal aus, um wieviel du die Taktrate steigern müsstest um das gleiche Leistungsniveau mit einem kleinen 4 Pipe Chip zu erreichen....um eine Größenordnung die im gleichen Prozess nicht möglich ist.

Doch doch es geht.....Fast14

Demirug

2004-04-30, 19:21:00

Original geschrieben von Haarmann
Demirug

Tjo, dann setz ne 0 hinten hin ;). Ich kann mir nicht vorstellen, wie man dann die Units ned schneller betreiben kann bei 200 Stufen, aber offenbar ist dem so. Ev die Hotspots?

Mit der Anzahl der Stufen steigt aber auch der Bedarf an Speicher. Wenn ich die 10 fache Anzahl von Stufen habe brauche ich auch 10 mal so viel Speicher im Chip. Zudem sind ja nicht gerade wenige Stufen nur dafür da die Speicherlatenz auszugeleichen. Erhöht man den Takt braucht man auch davon mehr.

Demirug

2004-04-30, 20:02:00

Original geschrieben von Gast
Doch doch es geht.....Fast14

Besonders grosse Chips wurden damit ja noch nicht designt und an den 2,5 GHZ versucht man sich inzwischen auch schon eine ganze weile. Erschwerden kommt hinzu das die FAST14 Technologie für die gleiche Schaltungen tendenziel mehr DIE-Fläche braucht.

Muh-sagt-die-Kuh

2004-04-30, 20:35:18

Original geschrieben von Haarmann
Muh-sagt-die-Kuh

Hast Du mal nen Grafikchip mit einer physischen Einheit gesehen? Also ich nicht...
Von daher schliesse ich die Möglichkeit und Machbarkeit nicht aus. Du offenbar schon - darf man fragen wieso?
Klar, jeder aktuelle Grafikchip hat eine physische Einheit, auch DIE genannt ;)

Definiere mir erstmal, was du unter einer physischen Einheit verstehst.

Haarmann

2004-04-30, 22:54:54

Muh-sagt-die-Kuh

P4 = 1 Physische Einheit und 2 Logische. Nun das ganze analog übertragen.

Muh-sagt-die-Kuh

2004-05-01, 01:24:45

Original geschrieben von Haarmann
Muh-sagt-die-Kuh

P4 = 1 Physische Einheit und 2 Logische. Nun das ganze analog übertragen. Irgendwie sehe ich hier keine Analogien zwischen einer CPU und einer GPU, da fällt es mir schwer das ganze analog zu übertragen...eine ordentliche Definition von "phyischer Einheit" bei einer GPU würde das ganze vielleicht klarer machen.

Haarmann

2004-05-01, 06:53:14

Muh-sagt-die-Kuh

Ein P4 mit HT hat im Prinzip 2 Registersätze und ein VS/PS verwende ich nun einfach analog dazu. Is doch nicht so schwer sowas zu sehen...

Xmas

2004-05-04, 17:21:40

Und ein Grafikchip hat im Prinzip Hunderte Registersätze. Einen pro Thread in der Pipeline.

GloomY

2004-05-05, 01:18:04

Ich sehe eigentlich gar keinen Grund umbedingt seriell zu arbeiten. Die Berechnung von Grafik kann man hervorragend parallelisieren, das ist die einfachste, schnellste und wahrscheinlich effektivste Lösung.

Bei CPUs sieht das ganze nunmal ganz anders aus. Da hat man nicht mal eben 16 verschiedene Befehle, die man pro Takt parallel machen kann. Daher ist der Drang zur Serialität schon viel eher gegeben.

Haarmann

2004-05-06, 09:27:01

Ich gebe hier mal ein Stichwort, das inzwischen an Bedeutung gewinnt - Leckströme. Je grösser dies Problem ist, desto besser eignet sich ne Serialisierung.

GloomY

2004-05-07, 18:11:49

Du leitest von der Performance auf Verlustleistung über. Ok, in diesem Punkt kann man vielleicht drüber reden.Original geschrieben von Haarmann
Ich gebe hier mal ein Stichwort, das inzwischen an Bedeutung gewinnt - Leckströme. Je grösser dies Problem ist, desto besser eignet sich ne Serialisierung. Ich bin mir nicht sicher, in wie fern das eine Auswirkung auf die Leckströme hat.

Aber eins ist klar: Je höher der Takt, desto größer wird die Verlustleistung durch die Schaltvorgänge.

Wo ist der Break-Even (wie der Wiwi sagen würde)?

Haarmann

2004-05-07, 22:09:32

GloomY

Das ist eben die Frage - ich denke, dass man bald mal einfach am "Kühllimit" ist und sich Alternativen anbieten müssen. Ich denke daher nicht an nur mehr Speed, sondern eben etwas weiter als nur Speed. Ich sage eher, dass man nen gleich schnellen Chip hinkriegt, der aber weniger Strom frisst, und daher quasi schneller wird, da er kühlbar bleibt.
Ich weiss nicht, bei welcher Taktfrequenz ein NV40 versagt (Laufzeitfehler oder Schaltzeitfehler is mir egal), aber ich denke der würde ev vorher schmelzen bei Luftkühlung. Noch schlimmer wärs wohl, wär er in 0.09 wie ein neuer P4 gefertigt... Dann wär imho einfach Ende Feuer.
Hier muss man meiner Meinung nach auch mal was tun. Einmal wird die Wärme nimmer ableitbar sein.

StefanV

2004-05-07, 22:16:12

Original geschrieben von Muh-sagt-die-Kuh
Nimm einen 16 Pipe Chip als Basis und rechne dir mal aus, um wieviel du die Taktrate steigern müsstest um das gleiche Leistungsniveau mit einem kleinen 4 Pipe Chip zu erreichen....um eine Größenordnung die im gleichen Prozess nicht möglich ist.

Wenn ich die eingesparte DIE Fläche mit eDRAM 'auffülle', dann könnte das sogar unter Umständen klappen...