PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : DualCore Itanium (Montecito) Blockdiagramm


Muh-sagt-die-Kuh
2004-09-07, 13:07:00
http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=ja_en&trurl=http%3a%2f%2fpc.watch.impress.co.jp%2fdocs%2f2004%2f0906%2fkaigai_4.gif

Maschinelle Übersetzung des ganzen Artikels (http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=ja_en&trurl=http%3a%2f%2fpc.watch.impress.co.jp%2fdocs%2f2004%2f0906%2fkaigai116.htm)

Wer findet den größten Unterschied zu Madison im Blockdiagramm? Mal abgesehen davon, dass es nun 2 Kerne sind..... ;)

warper
2004-09-07, 13:17:15
Mal abgesehen davon, dass ich nicht sehr viel Ahnung davon habe:

Seit wann gibt es einen separaten L2 Instruction und L2 Data Cache?

Ist das sonst nicht beim L1 Cache üblich?

(Und ist das eventuell diese Änderung) ^^

Coda
2004-09-07, 13:40:35
Vor allem finde ich es sehr interessant das EPIC anscheinend 4x soviel Instruction als Datencache braucht :|

CrazyIvan
2004-09-07, 15:39:00
Vor allem finde ich es sehr interessant das EPIC anscheinend 4x soviel Instruction als Datencache braucht :|
Schlagt mich, wenn ich falsch liege, aber das hängt sicherlich mit dem Ausrollen der Schleifen durch Predication zusammen. Da braucht man nunmal ne Menge Cache um das ganze nicht aus dem RAM nachladen zu müssen.

CrazyIvan
2004-09-07, 15:44:08
@ M-s-d-K
Wenn Du ein vergleichbares Bild vom Madison anzubieten hättest, würde das die Suche nach den Unterschieden erheblich vereinfachen. Hab grad keine Lust, mir die Finger wund zu googeln.

Muh-sagt-die-Kuh
2004-09-07, 19:44:21
@ M-s-d-K
Wenn Du ein vergleichbares Bild vom Madison anzubieten hättest, würde das die Suche nach den Unterschieden erheblich vereinfachen. Hab grad keine Lust, mir die Finger wund zu googeln.Ich kanns auch einfacher machen ;)

Warper hat es schon richtig erkannt, der geteilte L2 ist die Hauptsache, dazu ist noch die Hardware-x86 Emulation weggefallen.

stav0815
2004-09-07, 20:14:02
mal ne kleine Frage: könnte man an die beiden cores nicht praktisch noch nen x86 Core dazubauen der einigermaßen was leistet? so z.B. irgendnen Pentium M Abkömmlingscore oder so.

damit wäre die x86 Kompatiblität geblieben und das bei annehmbarer geschwindigkeit und EPIC könnte sich ohne Probleme durchsetzen.

kadder
2004-09-07, 20:24:54
triple core on die? die sind ja schon froh, wenn dual-core vernünftig läuft... außerdem: nochmal caches usw... der nackte wahnsinn imho..

robbitop
2004-09-07, 20:32:28
mal ne kleine Frage: könnte man an die beiden cores nicht praktisch noch nen x86 Core dazubauen der einigermaßen was leistet? so z.B. irgendnen Pentium M Abkömmlingscore oder so.

damit wäre die x86 Kompatiblität geblieben und das bei annehmbarer geschwindigkeit und EPIC könnte sich ohne Probleme durchsetzen.

warum sollte man?
x86 spielt im IA64 Segment nur eine geringe Rolle.
Für diejenigen Programme, die es nur für x86 gibt, hat Intel jetzt einen x86->IA64 Software Layer.
Damit erreicht ein 1.5GHz Madison ungefähr die Performance eines 1.5GHz P4. Das sollte mehrheitlich reichen.

Wozu also eine teure x86 Einheit, oder gar ein extra Core dafür?

Aqualon
2004-09-07, 21:45:06
Warum wird eigentlich bei FPU-Berechnungen direkt auf den L2-Cache zugegriffen, während bei Integer-Sachen noch der L1-Cache dazwischen ist?

Aqua

mrdigital
2004-09-07, 22:13:27
Hmm das finde ich auch merkwürdig, würd mir das aber so erklären: man geht davon aus, dass FPU Berechnungen auf grossen Datenmengen durchgeführt werden (grösser als der L1 Cache). Daher wärs dann ja nicht sinnvoll, den L1 Cache mit FPU Zeug zu "verschmutzen" und holt sich die Daten dann gleich aus dem L2.

Aqualon
2004-09-07, 22:31:40
Sowas in der Richtung habe ich mir auch gedacht, aber wirklich sinnvoll wäre das doch nur, wenn der L1-Cache schneller wäre als der L2-Cache. Wenn beide mit voller CPU-Taktung laufen würden, könnte man sich den L1-Cache ja gleich sparen. Oder könnte durch unterschiedliche Assoziativität bzw. Größe der Cache Line eine bessere Performance bei Integerberechnungen mit Daten aus dem L1-Cache erreicht werden?

Aqua

Coda
2004-09-07, 23:20:15
Schlagt mich, wenn ich falsch liege, aber das hängt sicherlich mit dem Ausrollen der Schleifen durch Predication zusammen. Da braucht man nunmal ne Menge Cache um das ganze nicht aus dem RAM nachladen zu müssen.
Was meinst du? Itanium hat keinen Trace Cache.

Muh-sagt-die-Kuh
2004-09-08, 01:21:42
Hmm das finde ich auch merkwürdig, würd mir das aber so erklären: man geht davon aus, dass FPU Berechnungen auf grossen Datenmengen durchgeführt werden (grösser als der L1 Cache). Daher wärs dann ja nicht sinnvoll, den L1 Cache mit FPU Zeug zu "verschmutzen" und holt sich die Daten dann gleich aus dem L2.Ich hab zur Cache-Architektur des Itanium 2 ein nettes PDF gefunden, bin im Moment allerdings zu müde um es zu lesen und zu verstehen....das hol ich morgen nach ;)

itanium2_data_cache.pdf (http://users.ece.gatech.edu/~mvelev/fall02/ece6100/html/itanium2_data_cache.pdf)

P.S.: Auch der P4 lädt bei FP-Code seine Daten direkt aus dem L2. Eine Erklärung inwiefern sich FP- von INT-Code unterscheidet gibt es hier (http://www.aceshardware.com/Spades/read.php?article_id=25000192).

CrazyIvan
2004-09-08, 02:34:07
Was meinst du? Itanium hat keinen Trace Cache.
Ich rede auch nicht von dekodierten µOps, wie sie im Trace Cache vorhanden sind. Der Itanium hat da so ein tolles Feature namens Predication. Es sorgt dafür, das im voraus alle Alternativen unbedingter Sprünge berechnet beziehungsweise berücksichtigt werden. Und ich kann mir durchaus vorstellen, dass man allein auf Grund dieser Tatsache einen großen Instruction Cache bräuchte. Selbst bei kleinen Programmen mit einer überschaubaren Anzahl an Alternativen kann eine relativ große Zahl an Kombinationen entstehen - schließlich wächst selbst bei if-then-else die Anzahl der Kombinationen mit 2^n zur Anzahl der Anweisungen.

CrazyIvan
2004-09-08, 02:38:40
Ich kanns auch einfacher machen ;)

Warper hat es schon richtig erkannt, der geteilte L2 ist die Hauptsache, dazu ist noch die Hardware-x86 Emulation weggefallen.

Was meinst Du, worin der Vorteil eines geteilten L2-Caches liegt? Buffer Overflows ließen sich schließlich nur bei geteilten Speicherbereichen verhindern, also kann die Sicherheit kein Aspekt bei der Entscheidung gewesen sein.

saaya
2004-09-08, 09:06:25
redet ihr nur ueber die cpu an sich oder auch ueber die dual core architektur?

sorry falls es offtopic is, dann bitte splitten.

mich interessiert ob der arbiter und das haupt-system interface jetzt wirklich beide on die sind oder ob die beiden da sie von den cores abgetrennt sind eventuell auf dem cpu package sind, so wie die agp-pcie bridge bei den nvidia karten.

gibt es irgendwo bilder vom tatsaechlichen package?
und wenn ich falsch liege, wofuer stehen die kaestchen dann?

Aqualon
2004-09-08, 11:02:29
itanium2_data_cache.pdf (http://users.ece.gatech.edu/~mvelev/fall02/ece6100/html/itanium2_data_cache.pdf)

Hab folgendes in dem PDF gefunden:


The Itanium 2 microprocessor has implemented a 16
KB store write-through L1 cache that is closely integrated
with the integer register file, and is used to supply integer
load data in 1 cycle (0 load use). The L2 cache handles
all other memory instructions—integer stores and
floating-point loads and stores since they are less sensitive
to latency and require larger caches. The 256KB L2
provides fast access times: 5 cycles for integer and 6
cycles for floating-point loads.
Anscheinend wird der L1-Cache wirklich nur für bessere Integer-Performance (d.h. schnelleres Laden der benötigten Daten aus dem Cache in die Integer Register) verwendet. Falls ich mit der Interpretation falsch liege, kann mich einer der Experten gerne verbessern.

Ein paar mehr Infos warum der L1-Cache so konstruiert wurde, stehen unter 3. Results im PDF.

Aqua

incurable
2004-09-08, 11:08:46
Sowas in der Richtung habe ich mir auch gedacht, aber wirklich sinnvoll wäre das doch nur, wenn der L1-Cache schneller wäre als der L2-Cache. Wenn beide mit voller CPU-Taktung laufen würden, könnte man sich den L1-Cache ja gleich sparen. Oder könnte durch unterschiedliche Assoziativität bzw. Größe der Cache Line eine bessere Performance bei Integerberechnungen mit Daten aus dem L1-Cache erreicht werden?
Die on-die Caches sind nicht durch Frequenzunterschiede in der Leistung gestaffelt, sondern durch ihre Latenzzeiten, also die Zyklen, die vom Aufruf der Information bis zur Verfügbarkeit am Rechenwerk vergehen.

PS: Sehe gerade: Du hast es ja schon gefunden. Vielleicht sollte ich schneller tippen üben. ;)

Asmodeus
2004-09-08, 11:19:57
Hab ich das richtig gelesen, der Prozessor besteht aus 1.72 Milliarden Transistoren und somit 10 mal so viel wie ein Prescott? Auch wenn für den enorm großen Cache sicher ne ganze Menge draufgeht find ich die Anzahl schon sehr beachtlich.

Gruss, Carsten.

LOCHFRASS
2004-09-08, 11:29:04
Wie siehts eigentlich mit der Leistungsaufnahme aus? Die 200W muesste damit doch geknackt sein?

Sitzen die beiden Cores inkl. L3-Cache auf einem Die oder nur wie bei IBMs Quad-Power5 auf dem selben Package?

warum sollte man?
x86 spielt im IA64 Segment nur eine geringe Rolle.
Für diejenigen Programme, die es nur für x86 gibt, hat Intel jetzt einen x86->IA64 Software Layer.
Damit erreicht ein 1.5GHz Madison ungefähr die Performance eines 1.5GHz P4. Das sollte mehrheitlich reichen.

Wozu also eine teure x86 Einheit, oder gar ein extra Core dafür?

Gibts das mittlerweile schon fuer andere OS? Ich glaube kaum, dass irgendwer mit halbwegs gesundem Verstand, den M$-Schrott auf so ein System packt.

robbitop
2004-09-08, 11:31:23
Linux/Unix? ;)

saaya
2004-09-08, 12:32:14
[QUOTE=LOCHFRASS]Wie siehts eigentlich mit der Leistungsaufnahme aus? Die 200W muesste damit doch geknackt sein?

Sitzen die beiden Cores inkl. L3-Cache auf einem Die oder nur wie bei IBMs Quad-Power5 auf dem selben Package?QUOTE]

200W? davon traeumen die bestimmt ;)

und ja, genau das hab ich mich auch gefragt!

aber wenn man der zeichnung glauben darf und auf die kaestchen achtet scheint intel den l3 cache direkt an die cores gehauen zu haben, was sie auch sonst immer getan haben so weit ich weiss.

nach der skizze siehts aber so aus als ob es zwei cores sind die gemeinsame mit dem arbitor und einem neuen system interface auf einem package liegen.

sieht fuer mich nach 3 silicium stuecken auf einem keramik package aus...

aber das waere dann doch nicht wirklich dual core, oder?

das hat ja mehr von smp-on-a-package :D

robbitop
2004-09-08, 13:17:08
sieht fuer mich nach 3 silicium stuecken auf einem keramik package aus...

aber das waere dann doch nicht wirklich dual core, oder?

das hat ja mehr von smp-on-a-package :D

Das ist auch nur ein Blockschaldbild, und keine genaue Wiedergabe des tatsächlichen Designs.
Montecito wird als ein DIE gefertigt. Das stimmt schon so.

incurable
2004-09-08, 15:34:07
... und wo wie grad beim verbessern sind, Intel benutzt keine keramischen Substrate für Flip-Chip-Prozessoren. (bzw. ich kann mich an kein solches Design erinnern)

Gandharva
2004-09-08, 15:37:20
http://www.zdnet.de/i/et/client/cpu/montecito.jpg

http://www.zdnet.de/news/hardware/0,39023109,39125761,00.htm

Asmodeus
2004-09-08, 16:51:50
Wie siehts eigentlich mit der Leistungsaufnahme aus? Die 200W muesste damit doch geknackt sein?


Bei Heise stand dazu folgendes:


Mit nur rund 100 Watt maximalem Energieverbrauch liegt Intels Dual-Core-Itanium-Prozessor übrigens deutlich unter den 130 Watt seines Single-Core-Vorläufers. Neben dem neuen 90-nm-Herstellungsprozess hilft hierbei dem Mitte nächsten Jahres erwarteten Prozessor eine Technik namens Foxton,die den Strombedarf von Applikationen überprüft und Takt und Spannung entsprechend dem Bedarf dynamisch ändert (demand base switching).


Gruss, Carsten.

justanick
2004-09-08, 17:09:39
Hab ich das richtig gelesen, der Prozessor besteht aus 1.72 Milliarden Transistoren und somit 10 mal so viel wie ein Prescott? Auch wenn für den enorm großen Cache sicher ne ganze Menge draufgeht find ich die Anzahl schon sehr beachtlich.

Gruss, Carsten.
1720000000Transistoren?:O
Da muss die Protransistorleistung doch gleich null sein, insgesamt jedoch wohl kaum 10 mal so schnell:crazy:

mrdigital
2004-09-08, 17:22:38
Der Löwenanteil der Transitoren geht für die über 26Mb Cache drauf (2*1MB L2 + 2 * 12MB L3). Cache braucht nicht viel strom, denn pro Takt sind da nicht viele Transistoren aktiv und der Ruhestrom von so einem Transistor ist nahe null.

Muh-sagt-die-Kuh
2004-09-08, 22:17:14
Das ist auch nur ein Blockschaldbild, und keine genaue Wiedergabe des tatsächlichen Designs.
Montecito wird als ein DIE gefertigt. Das stimmt schon so.Korrekt.

Die Yields dürften übrigens trotz einer Größe von ~ 600 mm² ganz ordentlich sein: Produktionsfehler im Cache lassen sich durch redundante Elemente abfangen.

CrazyIvan
2004-09-08, 23:02:07
Korrekt.

Die Yields dürften übrigens trotz einer Größe von ~ 600 mm² ganz ordentlich sein: Produktionsfehler im Cache lassen sich durch redundante Elemente abfangen.
Immer wenn ich das Argument lese, frage ich mich, wieviel Redundanz die Hersteller wohl einkalkulieren. Sicherlich wird aufgrund irgendwelcher Prognosen ein statistisches Mittel errechnet, sodass die Yield vernünftig ist. Aber kennt hier wer wenigstens ne Hausnummer?

Hintergedanke:
Bei 26 MiByte und 600mm² muss es schon ganz schön viel Redundanz sein.

robbitop
2004-09-09, 00:38:00
Immer wenn ich das Argument lese, frage ich mich, wieviel Redundanz die Hersteller wohl einkalkulieren. Sicherlich wird aufgrund irgendwelcher Prognosen ein statistisches Mittel errechnet, sodass die Yield vernünftig ist. Aber kennt hier wer wenigstens ne Hausnummer?

Hintergedanke:
Bei 26 MiByte und 600mm² muss es schon ganz schön viel Redundanz sein.

geh mal von einer redundanten SRAM Gruppe pro SubArray aus.
Das wären beim Itanium2 6MB dann maximal 3 Fehler die ausgebessert werden könnten. (I think)
Wie genau das bei Monteciro aussieht? k.a bisher.

Coda
2004-09-09, 01:02:13
Vier Dual-Core-Itanium-2-Prozessoren (Montecito) mit Hyperthreading sorgen im Windows-Taskmanager für die Anzeige von 16 CPUs.
Seit wann hat Montecito SMT?

robbitop
2004-09-09, 10:04:22
Seit wann hat Montecito SMT?

kein SMT, VMT
Das hat gar nichts mit Hyperthreading zu tun.
Aber so unaufgeklärt wie die Massen nunmal sind, muss das natürlich HTt sein.

Gandharva
2004-09-09, 12:43:11
kein SMT, VMT
Das hat gar nichts mit Hyperthreading zu tun.
Aber so unaufgeklärt wie die Massen nunmal sind, muss das natürlich HTt sein.

könntest du mir mal bitte den unterschied erklären? dachte eigendlich das es sich dabei um SMT handelt. was ist VMT? virtuelles multithreading? besser, schlechter? finde im netz nämlich gar nichts dazu. danke.

saaya
2004-09-09, 13:25:31
Das ist auch nur ein Blockschaldbild, und keine genaue Wiedergabe des tatsächlichen Designs.
Montecito wird als ein DIE gefertigt. Das stimmt schon so.

dass es nur ein blockschaldbild ist weiss ich auch, aber wofuer stehen die kaesten? hmmmmmm

und 100W... kann ich mir garnicht vorstellen... vieleicht laufen die nie beide auf full speed um die hitzeproduktion unter 100W zu halten?

CrazyIvan
2004-09-09, 13:44:00
dass es nur ein blockschaldbild ist weiss ich auch, aber wofuer stehen die kaesten? hmmmmmm
Vielleicht der Übersicht halber o_O

und 100W... kann ich mir garnicht vorstellen... vieleicht laufen die nie beide auf full speed um die hitzeproduktion unter 100W zu halten?
Mag ich auch noch net dran glauben, allerdings sollte der Cache net so viel Wärme verursachen.
IIRC wird Foxton zum dynamischen Übertakten bei Last genutzt, nicht zum runtertakten. Kann allerdings sein, dass intel das jetzt inzwischen in beide Richtungen nutzt - ökonomisch und ökologisch sinnvoll wärs auf jeden Fall.

robbitop
2004-09-09, 13:48:15
dass es nur ein blockschaldbild ist weiss ich auch, aber wofuer stehen die kaesten? hmmmmmm

und 100W... kann ich mir garnicht vorstellen... vieleicht laufen die nie beide auf full speed um die hitzeproduktion unter 100W zu halten?

denk nach...
die Kästen stehen für eine Abgrenzung von einem Element zum Anderen.
FUs, Cache, etc.
Die ganz großen Kästen sind dann die ABgrenzung der beiden Cores voneinander, und dem Abiter.

Das mit den 100W kommt schon hin.
Ein Montecito Core mit 1.25MB L2 belegt die Fläche eines Dothan mit 2MB L2.
Der eigentliche Logikanteil ist also nicht so groß wie bei Prescott.
Ca 20 Mio Transistoren auf vielleicht ~58mm² Fläche.
Dazu der 90nm Prozess mit ausgewählten Designkniffen für niedrigen Verbrauch.
Das kann schon hinkommen.
Zusätzlich gibt es Intels neue Technologie, die Takt und Spannung dynamisch anpasst, so dass man nur kurzzeitig über 100W kommt, bevor sich die Verlustleistung wieder bei <= 100W einpendelt.
Kann und schon passieren, dass in Zukunft CPUs dynamische Leistung bringen, mit der Verlustleistung als entscheidender Fator.
P4 war ein Anfang, Monecito setzt das noch penetranter um.

@Striper:
Veticales Multithreading.
Ich weiss noch nicht genau, wie das im Detail bei Montecito aussehen wird.
Aber die Idee dahinter ist folgende:
SMT speist mehrere Threads gleichzeitig in die Pipe ein.
Du hast also z.B Befehle von 2 Threads die gleichzeitig die Stufen durchlaufen.
Montecito ist eine IA64 CPU, basierend auf EPIC. Der Compiler übernimmt bereits den Großteil der Arbeit. Die Befehle die die CPU dann bekommt, sind bereits so angeordnet, dass sie nahezu optimale Paralellität erreichen.
SMT bringt hier nicht viel. Zumal die IA64 mit "inOrder Exectuion" arbeiten. Die CPU rechnet nur, sie legt sich den Code nicht selbst zurecht.

Was aber selbst bei EPIC ein Problem ist: Ein Cache-Miss z.B verhindert das weitere Ausführen des Threads. Es gibt einen Stall, die CPU läuft für viele Takte leer.
Montecito kann nun zu diesem Zeitpunkt einen zweiten Thread einschieben, der diese Zeit teilweise überbrücken kann. So wechselt Montecito dauern zwischen den Threads. Das sieht nach aussen ebenfalls wie 2 logische CPU aus.

Statt die Pipe also in die Breite auszufüllen, wird sie in der Tiefe besser ausgelastet.

saaya
2004-09-09, 16:25:35
danke fuer die erklaerung!

sehr interessant... wenn irgendwo nicht weitergearbeitet werden kann weil ne neue info gesucht werden muss bleibt also so lange dieser thread stehen bis die info aus dem cache geladen wurde und es geht weiter, und waehrend dieser zeit arbeitet die cpu schon wieder an nem neuen thread, richtig?

das hab ja sogar ich als n00b verstanden :D gute erklaerung!

naja server cpus havben ja auch termal throttling und takten sich deswegen schon immer runter, nur jetzt kommt dazu dass sie sich wenn es kuehl genug ist auch hoch takten, also eher umgekehrt wuerde ich sagen, runtergetaktet haben die sich schon vorher =P

und montecino is mit 65nm und nich 90, also machts schon sinn... aber vorstelen kann ichs mir immernoch nicht :D

saaya
2004-09-09, 18:24:25
tja der heise news ticker scheint nich recht zu haben.

laut herstellern von cpu kuehlern produzieren die dual core montecinos zwischen 150 und 200 Watt.

http://www.theinquirer.net/?article=18348

robbitop
2004-09-09, 18:40:37
das hab ja sogar ich als n00b verstanden :D gute erklaerung!

naja server cpus havben ja auch termal throttling und takten sich deswegen schon immer runter, nur jetzt kommt dazu dass sie sich wenn es kuehl genug ist auch hoch takten, also eher umgekehrt wuerde ich sagen, runtergetaktet haben die sich schon vorher =P

und montecino is mit 65nm und nich 90, also machts schon sinn... aber vorstelen kann ichs mir immernoch nicht :D

kein Problem, immer doch.
Ansonst: war Montecito nicht 90nm? ich war mir da ziemlich sicher??!!

Und was die 150+ Watt angeht. Kurzzeitig kommt Montecito schon über 100W. Bis eben die Spannung wieder urückgenommen wurde.
Das muss man natürlich abfangen.
EVentuell sind bei diesen 150+W auch schon die nächsten Speedgrades mit dabei

ilPatrino
2004-09-09, 18:45:41
tja der heise news ticker scheint nich recht zu haben.

laut herstellern von cpu kuehlern produzieren die dual core montecinos zwischen 150 und 200 Watt.

http://www.theinquirer.net/?article=18348


das klingt für mich wesentlich plausibler als die 100w, was letztendlich eine reduzierung auf effektiv etwa 1/3 des vorgängers bedeuten würde. maybe 200w@full speed (selbe kategorie wie p4, durchschnittliche verlustleistung?), die 100w durch thermal throttling, wenn die kühlung nicht groß genug ist?

Muh-sagt-die-Kuh
2004-09-09, 20:32:38
und montecino is mit 65nm und nich 90, also machts schon sinn... aber vorstelen kann ichs mir immernoch nicht :DNein, Montecito wird in 90 nm gefertigt.....einen produktionstauglichen 65 nm Prozess hat noch kein Hersteller.

Gandharva
2004-09-09, 21:03:14
tja der heise news ticker scheint nich recht zu haben.

laut herstellern von cpu kuehlern produzieren die dual core montecinos zwischen 150 und 200 Watt.

http://www.theinquirer.net/?article=18348

naja, bei der quelle traue ich im moment eher heise.

@robbitop

danke! VMT ist also ein gutes mittel, um lange pipes effektiver nutzen zu können. damit erschlägt man ja dann quasi DEN großen nachteil langer pipes.

Muh-sagt-die-Kuh
2004-09-09, 21:59:27
danke! VMT ist also ein gutes mittel, um lange pipes effektiver nutzen zu können. damit erschlägt man ja dann quasi DEN großen nachteil langer pipes.Der große Nachteil langer Pipes ist eine hohe Branch-Misprediction Penalty....die wirst du mit VMT aber nicht los.

Coda
2004-09-09, 22:12:00
http://www.theinquirer.net/?article=18350

Das sind doch Peltier-Elemente oder? Geht's noch?

Gandharva
2004-09-09, 22:30:54
Der große Nachteil langer Pipes ist eine hohe Branch-Misprediction Penalty....die wirst du mit VMT aber nicht los.

mhmm... scheinbar doch nicht richtig verstanden. dachte, das bei einer falschen sprungvorhersage dann der 2. thread sozusagen in die bresche springt, weil die daten dann ja verworfen werden müssen.

Muh-sagt-die-Kuh
2004-09-09, 23:21:38
mhmm... scheinbar doch nicht richtig verstanden. dachte, das bei einer falschen sprungvorhersage dann der 2. thread sozusagen in die bresche springt, weil die daten dann ja verworfen werden müssen.Der zweite Thread müsste ja auch bei 0 in der Pipe anfangen.

robbitop
2004-09-09, 23:22:54
@Muh-sagt-die-Kuh
wir sollten mal die Anglizismen abstellen :)

saaya
2004-09-10, 01:26:00
ilPatrino
ja so hab ichs mir auch vorgestellt, aber 200W max... ich glaub eher 160 max oder so... denn wie gesagt, sie muessen ja noch luft spielraum fuer neue dual core itaniums haben die noch hoeher getaktet sind.

"As expected, world’s leading chipmaker Intel Corp. has showcased its first dual-core chip for notebooks during the Intel Developer Forum Fall 2004 show in San Francisco, California."

also ist yonah in 65nm aber montecino in 90nm? ich bn ganz sicher gelesen zu haben dass der dual core montecino in 65nm gefertig wird. :confused:

EDIT: es stand ganz sicher so auf xbitlabs! vieleicht haben die sich vertippt und es dann geaendert?

da stand das alle zukuenftigen intel cpus in 65nm kommen und nicht 90 wie erwartet.

ilPatrino
2004-09-10, 02:00:35
ilPatrino
ja so hab ichs mir auch vorgestellt, aber 200W max... ich glaub eher 160 max oder so... denn wie gesagt, sie muessen ja noch luft spielraum fuer neue dual core itaniums haben die noch hoeher getaktet sind.

ich denke, daß intel hofft, später durch bessere fertigung die leistung drücken zu können. beim jetzigen sind sie auch recht schnell ans limit gefahren, gegen ende hat die sich fertigung allerdings nicht mehr so gesteigert wie erwartet - der letzte speedupgrade (1.5ghz? keine ahnung) hat lange auf sich warten lassen. die interessante frage wäre: tdp wie bei p4 oder tdp wie bei amd? (oder liegen die beim itanicum so nah zusammen, daß es egal ist?)


"As expected, world?s leading chipmaker Intel Corp. has showcased its first dual-core chip for notebooks during the Intel Developer Forum Fall 2004 show in San Francisco, California."

also ist yonah in 65nm aber montecino in 90nm? ich bn ganz sicher gelesen zu haben dass der dual core montecino in 65nm gefertig wird. :confused:


65nm in naher zukunft? glaube ich ehrlich gesagt nicht. yonah sollte ein doppelter dothan sein, also mit wahrscheinlichkeit 90nm. 65nm für die next generation oder als shrink gegen ende der takt-/heizspirale

edit: hab grade gesehen, daß intels dual-core-cpus nicht vor ende 2005 kommen soll. damit relativiert sich das nahe vor zukunft natürlich wieder :cool: für mitte/ende 2005 plant intel tatsächlich mit 65nm...

saaya
2004-09-10, 13:00:02
und da intel bereits cache (sram) in 65nm herstellt dachte ich dass sie auch schon 65nm dual core cpus gezeigt haben.

a0 silikon halt, noch mit bugs und ungetweaked, und yield is bestimmt auch mist, aber es ist doch nicht so unwahrscheinlich anzunehmen dass sie jetzt schon a0 silikon in 65nm haben wenn sie schon in 4-7 monaten 65nm cpus on masse verkaufen werden, oder?

und kann mal jemand ausrechnen wie gross die dual core montecinos in 90nm und 65nmm sind? ich weiss noch dass ich 90nm single core montecinos mit 24mb L3 cache oder so gesehen hab, und DIE waren schon VERDAMMT gross!

kann mir garnicht vorstellen dass sie die dan nochmal verdoppelt haben... auf was fuer ein package soll den dass passen? so wie ibms power5 oder wie? ;D

http://www.xtremesystems.org/forums/attachment.php?s=&postid=494257

mrdigital
2004-09-10, 13:03:00
beim Wechel von 90nm auf 65nm halbiert sich die Fläche

CrazyIvan
2004-09-10, 13:29:36
und da intel bereits cache (sram) in 65nm herstellt dachte ich dass sie auch schon 65nm dual core cpus gezeigt haben.


Zwischen ein paar SRAM Zellen und nem hunderte Millionen Transistoren schweren Prozessor gibts ja wohl noch nen kleinen Unterschied. intel pflegt, mit solchen SRAM Zellen zu demonstrieren, dass man in der Lage ist so kleine Strukturen herzustellen. Machen die AFAIK bei jedem neuen Herstellungsprozess so. Zwischen dieser Art von Tech Demo und der Massentauglichkeit des Prozesses liegen für gewöhnlich noch Jahre.

GloomY
2004-09-10, 14:59:44
@Striper:
Veticales Multithreading.Nennen wir es doch liebner so, wie es schon seid Jahren in der Literatur gängig ist: Course-grained Multithreading.

Vertikal oder Horizontal hängt immer davon ab, wie rum man es zeichnet... ;)

Muh-sagt-die-Kuh
2004-09-10, 17:24:57
Nennen wir es doch liebner so, wie es schon seid Jahren in der Literatur gängig ist: Course-grained Multithreading.

Vertikal oder Horizontal hängt immer davon ab, wie rum man es zeichnet... ;)Coarse-grained bitte, Kurse bietet Multithreading nun wirklich nicht an ;)

GloomY
2004-09-10, 17:33:56
Coarse-grained bitte, Kurse bietet Multithreading nun wirklich nicht an ;)Ähm ja natürlich ;)

Also übersetzt: Grob-körniges Multithreading, was im Gegensatz zum FMT = Fine Grained Multithreading steht (wechselt in jedem Takt den Thread).

Der Montecito wird also höchstwahrscheinlich insbesonders bei Cache-Misses den Thread wechseln, was seine In-Order Ausführung damit wohl deutlich effizienter werden lässt. Der Montecito wird eine ganz interessante CPU =)

saaya
2004-09-10, 17:39:35
wieso halbiert sich von 90 zu 65nm die flaeche? :confused:

und ja, das mit den sram zellen ist ja alles richtig, aber wieso seit ihr nicht auf den yonah engegangen? dort steht das bereits dual core yonah cpus gezeigt wurden, und die sind angeblich in 65nm hergestellt.

UND, in nur 3-7 monaten sollen die ersten cpus in 65nm auf dem markt sein, also in massen! da intel eigentlich immer erst cpus auf den markt schmeisst wenn sie schon gut aufgestockt haben, muessen sie schon ein paar monate vorher mit der produktion von dem fertigem getweakten und ge-bugfixedten (wie nennt man das auf deutsch :D) silikon. also sagen wir mal 2 monate dafuer, dann sind wir bei 1-5 monaten in denen die produktion anlaeuft, dann ist es doch ueberhauptnicht mehr so unvorstellbar und unwahrscheinlich das es jetzt schon a0 silikon gobt, oder?

und wie kommst du darauf das es noch JAHRE dauert bis cpus in einerm herstellungsverfahren produziert werden koennen mit dem bereits erfolgreich kleinere strukturen produziert werden? wie kommst du auf ein paar jahre?

oder hat intel schon vor ein paar jahren sram in 90nm hergestellt? ;)

StefanV
2004-09-10, 17:41:05
wieso halbiert sich von 90 zu 65nm die flaeche? :confused:


(65/90)²

saaya
2004-09-10, 17:44:42
(65/90)²
danke fuer die.... "erklaerung" :rolleyes:

ilPatrino
2004-09-10, 19:28:30
UND, in nur 3-7 monaten sollen die ersten cpus in 65nm auf dem markt sein, also in massen!

65nm sind nicht vor h2/2005 geplant, also wird die massenverfügbarkeit recht nah an weihnachten nächstes jahr liegen. die gezeigten prototypen werden mit sicherheit auf die schnelle zusammengezimmerte 90nm-cores sein...es war ja nicht mal genau bekannt, was für cores da liefen (kein htt, kein emt64), wenn ich nichts übersehen hab...

saaya
2004-09-11, 01:29:16
doch ht schon, in dem 8way system wurden doch 16 logische cpus erkannt.

http://images.anandtech.com/reviews/shows/2004/idf/fall/dscn4140.jpg

hmmm ich kann jetzt auch nur noch q2 2005 auf vr-zone finden, anandtech hat ihre roadmap einfach editiert, die mobile roadmap ist komplett weg und sie haben nichtmal darauf hingewiesen dass der artikel editiert wurde... das gleiche bei xbitlabs... man echt nervig. :mad:

saaya
2004-09-11, 02:28:44
http://www.bit-tech.net/feature/57/

so hier ist nochmal 65nm chace ,schoenes bild btw

http://www.bit-tech.net/images/feature/57/65nm.jpg

BlackBirdSR
2004-09-11, 10:18:28
doch ht schon, in dem 8way system wurden doch 16 logische cpus erkannt.

:

Das ist kein Hyperhtreading. Das ist Intels Name für SMT.
Wir haben es hier wohl mit Switch on Even Multithreading zu tun. (Coarse Grained MT).

Das kannst du nicht HT nennen.
Nenn es einfach MT, oder SoEMT.

Jesus
2004-09-11, 10:49:21
tja der heise news ticker scheint nich recht zu haben.

laut herstellern von cpu kuehlern produzieren die dual core montecinos zwischen 150 und 200 Watt.

http://www.theinquirer.net/?article=18348

also wenn die fertige CPU so aussieht wie das Monster da dann glaub ich irgendwie nicht dass die alles auf eine DIE packen :eek:

BlackBirdSR
2004-09-11, 16:18:43
also wenn die fertige CPU so aussieht wie das Monster da dann glaub ich irgendwie nicht dass die alles auf eine DIE packen :eek:

Tja wir haben die DIE Fotos ja gesehen.
Scheint echt zu sein :)

saaya
2004-09-11, 18:26:59
ok, MT =)

in 65nm hergestellter sram, kleine unkomplexe strukturen sind es aber nicht wirklich wie man da nachlesen kann und auch klar sehen kann, ist aber halt nicht so komplex wie ne cpu.

also ich glaub schon das die dual core montecinos in 65nm hergestellt sind. gleich nachdem intel so grosse problem mit 90nm hatte wurde doch gemunkelt es lohne sich nicht mehr jezt ewig an 90nm rumzubasteln, sonder intel springt lieber schnell weiter zu 65nm da sie damit in der testphase sehr gut zurecht gekommen sind.

Tja wir haben die DIE Fotos ja gesehen.
Scheint echt zu sein :)
link! link! link! :D

*DEFENDER (GER)*
2004-09-11, 19:54:25
jemand webspace ?

NDA :P

na ja, der power5 multichip ist wesentlich fetter (pic wollen?) :biggrin:


AdiT:

:whisper: geht ja auch so...

saaya
2004-09-12, 03:03:29
=P das bild ist doch monate alt... :D

das is zwar nur der single core montecino, aber besser als nix :D

Muh-sagt-die-Kuh
2004-09-12, 18:44:22
=P das bild ist doch monate alt... :D

das is zwar nur der single core montecino, aber besser als nix :DEs gibt keinen single-core Montecito......Montecito ist eine dual-core CPU in 0,09 µ.

Mehr gibt es dazu nicht zu sagen, spammen könnt ihr auch woanders, denn die letzten beiden Beiträge eigentlich nichts anderes.

BlackBirdSR
2004-09-12, 23:43:54
http://www.aceshardware.com/files/news/images/Montecito_9-10-2004.jpg

saaya
2004-09-13, 00:16:53
Es gibt keinen single-core Montecito......Montecito ist eine dual-core CPU in 0,09 µ.

Mehr gibt es dazu nicht zu sagen, spammen könnt ihr auch woanders, denn die letzten beiden Beiträge eigentlich nichts anderes.

wieso? ich meinte gehoert zu haben dass die schon in 65nm hergestellt werden, und wurde netterweise darueber aufgeklaert dass die doch in 90nm hergestellt werden.

komisch ich hatte das bild damals schon gesehen als es rauskam und dachte es waere ein single core itanium.

meint ihr das intel den gleicher arbiter bei allen neuen dual core cpus verwednet? das wuerde doch sinn machen , oder? ausserdem hat intel schon angedeutet dass sie eine gemeinsame plattform fuer itanium und desktop chips planen, und es ermoeglicht ihnen pentium m basierende cpus ohne neue plattform direkt in den desktop markt zu bringen sobald sie meinen dass es noetig ist.

die yonah cpus werden aber tatsaechlich in 65nm hergestellt, oder hab ich dass auch falsch verstanden? von einem jonah hab ich naehmlich schon mehrere shots gesehen auf dem man den arbiter sehr gut in hoeherer aufloesung erkennen kann.

weiss jemand ob der arbiter auch ermoeglicht das die cpus aus dem L2 cache des jeweils anderen prozessors lesen koennen?

BlackBirdSR
2004-09-13, 00:34:35
komisch ich hatte das bild damals schon gesehen als es rauskam und dachte es waere ein single core itanium.



liegt daran, dass bei Server CPUs die Enticklungs und evaluierungszeiten enorm sind.
Designentscheidungen liegen schon Jahre zurück, und Wafer mit Montes ;) gibts schon seit letztem Jahr.
Deshalb hast du vielleicht schon welche gesehen.

Ob Es 65nm CPU Die Shots gibt bezweifle ich aber voerst mal.
Du hast nicht zufällig einen Link?

saaya
2004-09-13, 07:46:57
na nochmal passiert mir nich das gleiche ^^
diesesmal hab ich die seiten gebookmarked :D

http://www.xbitlabs.com/news/mobile/display/20040908141343.html
http://www.anandtech.com/tradeshows/showdoc.aspx?i=2203&p=2
http://www.vr-zone.com/?i=1265&s=1

sehr viel besser als auf dem montecino shot sieht man den arbiter hier nicht, aber schon besser

http://www.aceshardware.com/ hat interessante news, angeblich hat intel bestaetigt das der desktop dual core chip definitiv auf der netburst architektur basiert und nicht auf p6+. kann es dann sein dass der dual core P4 ohne ht lief, also nur mit zwei tatsaechlichen und logischen cpus, an der plattform lag? braucht man fuer mehr als 2 logische cpus plattform hardware unterstuetzung?

und hier noch ne MENGE interessante infos zum montecino! sind auch interessante sachen dabei die ich bis jetzt noch nirgends gelesen hab. auch details zu multithreading werden erlaeutert :)

http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=ja_en&trurl=http%3a%2f%2fpc.watch.impress.co.jp%2fdocs%2f2004%2f0906%2fkaigai116.htm