PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Benchmarks sind Käse


zeckensack
2002-03-20, 17:01:22
Watt?
Oder genauer gesagt, halt ich Mittelwerte für totalen Käse, wenn's um fps geht.
Man sollte echt mehr auf Basis von Minimalwerten benchen, oder diese zumindest messen und mitbewerten.

Wie?
Unreal kann's (UT nicht mehr), Q1/2/3 können's nicht, 3dMark2k1 kann's bedingt mittels High-Detail-Szenen, aber da's für die 'empfundene' Performance eine viel größere Rolle spielt als Durchschnitts-fps, sollte das zum Standard gehören, wenn man schon Benchmarkfunktionen in jedes zweite Spiel einbaut, dann auch bitte richtig.

Beispiel?
Bin jetzt vor kurzem von Athlon Classic 700/KX133/192MB CL3-PC100 auf Duron1000(@1200, 9*133)/KT266A/256MB CL2-PC2100 umgestiegen. Ansonsten sind alle Komponenten gleich geblieben. Graka ist eine Radeon32DDR@166/166.
Hab natürlich erstmal nachgemessen und verglichen, um zu sehen, ob alles richtig funzt.

Referenzgrössen:
Taktverhältnis +70%
Bandbreite +160% (oder mehr wg allgemeiner Ineffizienz des KX133)
Latenzverbesserung durch höheren Bustakt, Prefetch und CL2

Ergebnisse:
Quake2 640x480x32 (Q3A 1.31 kommt mit den alten Demos nich klar :( ) +50%
3dMark2k1 1024x768x32 +35% (hart am fill-limit)
Unreal average 640x480x32 +75% (Glide-Wrapper, D3D/OpenGL nicht vermessen)

Soweit ja noch alles im Rahmen, auch der Unreal-Wert, wenn man bedenkt daß meine Speicherperformance hier der Hauptflaschenhals war.

Wenn ich mir jetzt aber die Worstcase-Situationen anschaue, wird's richtig interessant:
3dMark2k1 Car chase, high, 1024x768x32:
Vorher 12.0 fps, jetzt 27.2 fps, +125% !!
Unreal minimum 640x480x32:
Vorher 14.5 fps, jetzt 28.2 fps +95% !!

Und, in Q3TA Overdose gibt's eine Position hinter dem Sniper-Turm, wo's definitiv richtig runter geht, man kann von da 3/4 der Karte überblicken. Bei 800x600x32:
Vorher 23 fps, jetzt 60 fps +160% !!

Na und?
Da die Minimalwerte viel wichtiger für die Spielbarkeit sind, diese aber in keinem Vergleichstest mehr auftauchen, seh ich jetzt sämtliche Benchmarkpublikationen in einem völlig neuen Licht. Ich wollte einfach nur möglichst günstig meine alte Plattform abstoßen und hatte mir so um die 50% Zuwachs vorgestellt, aber hätte nie damit gerechnet, daß die Spielbarkeit von hardwarehungrigen Titeln so immens ansteigen würde. War ja auch aus keinem Review zu ersehen.

Für mich sind jetzt erst mal alle K7/P4, SDR/DDR, KT333/KT266A und sonstige Vergleiche hinfällig geworden. Die basieren ja mittlerweile fast ausschließlich auf Durchschnitts-fps. Und btw, Office-Benchmarks und so Zeugs ist mir eh egal.

Was sacht ihr denn dazu? Bin ich jetzt wahnsinnig geworden?
VA interessant fänd ich die Meinung der Crew, und inwieweit die aktuelle Bench-Methologie noch haltbar/vertretbar ist.

Indiana Jones
2002-03-20, 18:26:13
Deine Betrachtung ist zu einseitig.
Du schreibst in deinem Beitrag nur von Benchmarks für und von Spielen.
Kann ja sein, daß dies für dich das einzig Wichtige ist aber es gibt noch andere Dinge. (z.B. Videos, usw)
Den PCmark halte ich auch nicht für das nonplusultra aber besser als der beschissene 3dmark ist er allemal
auch wenn kein Max Payne durch die Gegend hüpft.
Leider geht es manchen nur darum.

IJ

zeckensack
2002-03-20, 19:29:28
Originally posted by Indiana Jones
Deine Betrachtung ist zu einseitig.
Du schreibst in deinem Beitrag nur von Benchmarks für und von Spielen.
Kann ja sein, daß dies für dich das einzig Wichtige ist aber es gibt noch andere Dinge. (z.B. Videos, usw)
Hatte ja im ersten Satz gesagt, daß ich mich auf fps beziehe, hätte vielleicht noch hinzufügen sollen, daß ich fps bei Spielen meine. ;)

Genau darum ging's mir. Und wenn in Vergleichstests unter anderem auch Spiele vermessen werden, dann halt ich die Überlegung doch für interessant. Zumindest der Anteil, der auf Spieleperformance verwendet wird, wird IMHO ziemlich abgewertet wenn man nur Durchschnittszeugs liest, und das dann auch in die Gesamtbewertung einfließt.

Und eigentlich verbring ich weniger als 1/4 meiner Rechnerzeit mit Spielen, aber jetzt mal im Ernst, für's Internet und für glorifizierte Texteditoren würd ich nie mehr als 300MHz brauchen. Es gibt sicher auch 'richtige' Anwendungen, die von mehr Leistung profitieren, aber Spiele sind halt Leistungsfresser Nummer eins für den Heimanwender.

geforce
2002-03-20, 20:54:08
ich denke aber das es bei benchmarks nicht darum geht die schwanzlänge zu vergleichen - dafür werden sie nur missbraucht :)

nein, vielmehr geht es doch darum zu sehen ob sein system bei belastung noch einwandfrei läuft und nicht abschmiert - und dazu benutzten en einfach sehr viele - oder?

Unregistered
2002-03-20, 21:18:43
Originally posted by geForce
ich denke aber das es bei benchmarks nicht darum geht die schwanzlänge zu vergleichen - dafür werden sie nur missbraucht :)

nein, vielmehr geht es doch darum zu sehen ob sein system bei belastung noch einwandfrei läuft und nicht abschmiert - und dazu benutzten en einfach sehr viele - oder?

Hä? Benchmarks sind dazu gedacht, Systeme vergleichen zu können. Ob das jetzt immer sinnvoll ist, wage ich auch zu bezweifeln. Zumindest isses nützlich für Leute, die wissen wollen, was sie nach einem Upgrade erwartet, oder für Leute, die mal schaun wollen, ob sie ihr Maschinchen richtig konfiguriert haben. Das funktioniert natürlich nur im Vergleich mit Werten von anderen, aber was bitte hat das mit Schwänzen ( :nono: ) zu tun ? ???

Wenn man aber in Spielen eingebaute Benchmarks benutzt, um mit verschiedenen Auflösungen/Detailstufen usw zu experimentieren, und sich dann das rausfischt, was man für akzeptabel hält, dann geht es um Spielbarkeit. Und die kann man halt mit der Mittelwert-Masche nicht bestimmen. Siehe mein Beispiel mit Q3TA, der eingebaute Bench war schlicht unbrauchbar, trotzdem wird er von allen Publikation zur Leistungs- und damit Qualitätsbestimmung eines Systems benutzt. So um die 80 fps hatt ich im 'four' demo. Bringt dir aber alles nix, wenn du aufm Sniper-Turm nur 23 fps hast und nichts mehr triffst.

Verstehste? ;)

zeckensack
2002-03-20, 21:28:00
Originally posted by Unregistered
Verstehste? ;)

:bonk: :bonk: Heute ist mein Einloggen-vergessen-Tag :bonk: :bonk:

Micron
2002-03-20, 22:41:30
Vor allem Teste ich persönlich nicht um mir oder anderen was zu beweisen sondern es macht mir spaß. Ich weiss es ist einfach nur :bonk:

Liszca
2002-03-21, 00:40:39
yeah stone cold crazy!

geforce
2002-03-21, 15:41:22
Originally posted by Unregistered


Hä? Benchmarks sind dazu gedacht, Systeme vergleichen zu können. Ob das jetzt immer sinnvoll ist, wage ich auch zu bezweifeln. Zumindest isses nützlich für Leute, die wissen wollen, was sie nach einem Upgrade erwartet, oder für Leute, die mal schaun wollen, ob sie ihr Maschinchen richtig konfiguriert haben. Das funktioniert natürlich nur im Vergleich mit Werten von anderen, aber was bitte hat das mit Schwänzen ( :nono: ) zu tun ? ???

Wenn man aber in Spielen eingebaute Benchmarks benutzt, um mit verschiedenen Auflösungen/Detailstufen usw zu experimentieren, und sich dann das rausfischt, was man für akzeptabel hält, dann geht es um Spielbarkeit. Und die kann man halt mit der Mittelwert-Masche nicht bestimmen. Siehe mein Beispiel mit Q3TA, der eingebaute Bench war schlicht unbrauchbar, trotzdem wird er von allen Publikation zur Leistungs- und damit Qualitätsbestimmung eines Systems benutzt. So um die 80 fps hatt ich im 'four' demo. Bringt dir aber alles nix, wenn du aufm Sniper-Turm nur 23 fps hast und nichts mehr triffst.

Verstehste? ;)

hast schon recht, nur die meisten benutzen es eben nicht dafür ... und ich kenne ne menge leute die derselben meinung sind ... ;)

dslfreak
2002-03-21, 17:07:16
wenn man dasselne sys wie ein anderer hat und mehr fps dann muss man doch auch was anderes eingestellt haben. aber auf sowas kommt man nur mit benchmarks ich finde sie sehr nützlich...

[dzp]Viper
2002-03-21, 18:33:28
also eigentlich isses ja so das die benchmarks wirklich zum vergleichen da sind

aber es gibt einen unterschied zwischen VERGLEICHEN und Performance testen

Ich Finde das 3dmurks nur da ist im 2 systeme miteinander zu vergleichen - nicht um die gesamtperformance eines rechners zu ermitteln - ganz einfach weil es ein unrealtischer benchmark ist - nicht so wie ein seriuos sam 2 benchmark

zeckensack
2002-03-29, 15:50:34
Ok, bin immer noch nicht zufrieden :D
Kommen wir mal zu einem konkreteren Beispiel:

Der KT333 (A/CE/kein Ahnung) ist ja im Moment etwas unter Feuer, weil Review-Sites immer wieder betonen, daß man tonnenweise Geld für schnellen Speicher ausgeben muß und bestenfalls so um die 5% Performancegewinn erwarten kann.

Daß der 133MHz FSB von den Athlons/Durons 'nur' 2.1GB/s absorbieren kann, ist mir auch klar. Zumindest hätte man noch 528MB/s über, um die sich nun die AGP/PCI-Master kloppen. 528MB/s, das sind zB potenziell 16.5Mio Vertices/s, die sich die AGP-Karte ausm Speicher zusätzlich saugen kann. (in diesem Beispiel 3d Koordinaten/Normale für Licht/2 Sätze Texturkoordinaten)

Jetzt frag ich mich, was soll ich mit den Mittelwerten aus diesen ganzen Reviews anfangen? Der KT333 ist ein Chipsatz für den 'Enthusiast market', also Spieler, wurde mit Spielen getestet, und es wurden ausschließlich Mittelwerte gemessen.

Was bringt mir die Info, daß Demo001 im Schnitt 5% schneller ist? Ich will wissen, wie's an den Performance-Engpässen ausschaut! Nur so machen Plattformvergleiche Sinn!

ow
2002-03-29, 18:59:34
Deine Rechnung geht nicht auf.

Es hat immer nur EIN Gerät 'gleichzeitig' die Kontrolle über den Speicherbus.

Also entweder die CPU ODER ein Busmaster.

zeckensack
2002-03-29, 20:46:25
Originally posted by ow
Deine Rechnung geht nicht auf.

Es hat immer nur EIN Gerät 'gleichzeitig' die Kontrolle über den Speicherbus.

Also entweder die CPU ODER ein Busmaster.

Gleichzeitig geb ich dir Recht. Wenn sie sich jedoch in kleineren Bursts abwechseln, was ja durchaus der Fall ist (sonst könnten wir alle keine Soundkarten oä benutzen), dann kommts halt auf die Arbitrierungslogik im Chipsatz und die Tiefe der einzelnen Puffer und Queues an. Das will der potenzielle Kunde doch auch wissen! Wenn der KT333 in kritischen Szenarien nicht über 2.1GB/s Gesamtbandbreite hinauskommt, dann ist die Arbitrierungslogik eben Schrott. Aber schlüssig nachgemessen hat das eben noch keiner.

harkpabst_meliantrop
2002-04-02, 14:35:39
Originally posted by zeckensack

Wenn ich mir jetzt aber die Worstcase-Situationen anschaue, wird's richtig interessant:
3dMark2k1 Car chase, high, 1024x768x32:
Vorher 12.0 fps, jetzt 27.2 fps, +125% !!
Unreal minimum 640x480x32:
Vorher 14.5 fps, jetzt 28.2 fps +95% !!

Grundsätzlich stimme ich dir voll zu. Natürlich ist ein Absacken der Framerate in bestimmten Situationen üblicherweise erheblich störender, als eine geringe durchschnittliche Framerate. Ich würde sogar soweit gehen zu behaupten, dass eine möglichst konstante Framerate für den optischen Eindruck besser ist, als eine stark schwankende (im Deathmatch mag das noch etwas anders sein).

Aber einen Punkt möchte ich doch anmerken.

Wie hast du die minimale Framerate z.B. in 3DMark 2001 ermittelt? Mit irgendeinem Werkzeug oder durch den scharfen Blick auf den Framecounter? Ich tippe mal auf letzteres (mach ich auch oft so). Wir wissen aber überhaupt nicht, wie dieser Framecounter wirklich funktioniert. Eine Framerate ist zwangsläufig immer ein gemittelter Wert, da hier keine messbare kontinuierliche Größe vorliegt. Wenn man zum Vergleich etwa die Geschwindigkeit eines Objekts nimmt, dann kann man natürlich außer der Durchschnittsgeschwindigkeit über eine bestimmte Wegstrecke jederzeit eine Momentangeschwindigkeit angeben, definiert als Delta s durch Delta t mit Delta t gegen Null. Das Objekt besitzt wirklich in jedem Augenblick eine bestimmte Geschwindigkeit. Als "Momentanframerate" könnte man im günstigsten Fall den Kehrwert des zeitlichen Abstands zwischen zwei Frames ansehen. Bei ausgeschaltetem Wait_for_VSync (wie im 3DMark gegeben) hätte man also keine feste Zeitbasis, in jedem Frame könnte der Abstand der beiden vorangegangenen Frames zueinander angezeigt werden (bzw. eben der Kehrwert). Dann müsste der Framecounter aber erheblich mehr flackern, als er das in 3Dm2k1 tut. Entweder wird der Counter also nicht so oft aktualisiert (es werden also Momentanwerte ausgelassen) oder es wird doch über mehrere Frames gemittelt. Was beide Szenarien gemeinsam haben, ist, dass du dir nie sicher sein kannst, ob du das tatsächliche Minimum überhaupt gesehen hast, oder ob es nicht entweder weggelassen oder (mal günstig, mal ungünstig) in eine Mittelung einbezogen wurde.

Ich sage nicht, dass du nicht grundsätzlich recht hast, ich möchte nur zur Vorsicht bei der Interpretation der Zuwächse warnen. +125% klingt zunächst mal ganz offensichtlich danach, dass hier nicht die CPU allein für den Zugewinn verantwortlich sein kann (ist sie bestimmt auch nicht!), aber ob dieser scheinbare Zugewinn wirklich das ist, was er zu sein scheint, ist für mich zumindest nicht selbstverständlich. Fraps ist ja schon ganz schön, aber ideal wäre ein Tool, dass einem neben den absoluten Minimalwerten wirklich eine statistische Verteilung der zeitlichen Frameabstände ausrechnen würde. Ohne dabei selbst Rechenzeit zu verbrauchen... :D

Ich vermute, dass man so einfach nicht eindeutig belegen kann, wie groß der Einfluss der schnelleren CPU (für die sich die Radeon gerade in T&L-Benchmarks wohl bedanken dürfte) und wie groß der Einfluss des Speichers ist.

Vielleicht kannst du deine Messungen ja nochmal mit künstlich limitiertem CPU-Takt bzw. beschnittener Speicherleistung (soweit möglich) wiederholen. Wenn die Ergebnisse dabei konsistent bleiben, bin ich ja vielleicht ratzfatz widerlegt...

zeckensack
2002-04-02, 16:33:49
@harkpabst_meliantrop:

Wie im ersten Posting beschrieben, hab ich bei 3DMark2k1 keine echten Minimalwerte vermessen. Vielmehr habe ich mir einfach den gemessenen Durchschnittswert von 'Car Chase High Detail' gegriffen. Ich möchte das mal so begründen, daß ich die komplette Szene als worst-case Situation sehe. Viele Polygone, viele Lichter, hohe CPU-Last durch die nebenher laufende Physiksimulation.

Und wie man deutlich sieht, trotz dieser 'unechten' worst-case-Messung liegt der Performancegewinn ja deutlich über der Taktsteigerung und auch deutlich über dem Zuwachs an '3DMarks'.

Das mit dem Direktvergleich bei gedrosseltem Takt halte ich für schwierig. Mein neuer Duron hat
1)SSE
2)Prefetch
3)Völlig andere L2-Cache-Architektur. Alter Athlon hatte 512k externen SRAM-Cache mit halbem Takt, inklusiv. Duron hat 64k On-Die mit vollem Takt, exklusiv.

Ich will aber mal nicht so sein, und werd ihn jetzt mal auf 7x100MHz runterfahren und nochmal ein bisserl benchen.

harkpabst_meliantrop
2002-04-02, 16:51:57
Originally posted by zeckensack
Und wie man deutlich sieht, trotz dieser 'unechten' worst-case-Messung liegt der Performancegewinn ja deutlich über der Taktsteigerung und auch deutlich über dem Zuwachs an '3DMarks'.
O.K., dass du tatsächlich die Durchschnittswerte in High Detail genommen hast, war im ersten Posting nicht so deutlich rausgekommen.

Das mit dem Direktvergleich bei gedrosseltem Takt halte ich für schwierig.
...
Ich will aber mal nicht so sein, und werd ihn jetzt mal auf 7x100MHz runterfahren und nochmal ein bisserl benchen.
Alles einsichtig. Gerade die SSE-Optimierung von 3DMarx könnte uns hier schon einen ziemlichen Strich durch die Rechnung machen (kann man das nicht sogar in manchen BIOSen ausschalten?).

Interessant wird's trotzdem.

zeckensack
2002-04-02, 17:21:07
So, jetzt noch mal der Vergleich zwischen Classic-Athlon 7x100MHz auf KX133/PC100-CL3 und Morgan-Duron 700x100MHz auf KT266A/PC1600-CL2.

Zum Aufwärmen:
Unreal flyby average 45,6 / 45,9 fps - 0,6% schneller
Quake2 demo1 135 / 153 fps - 13% schneller
3DMark2001SE 2390 /2830 Punkte - 18% schneller

Worst-Case:
Unreal flyby minimum 14,5/16,7fps - 15% schneller
3DMark2001SE Car Chase High Detail 12,0/16,1fps - 34% schneller
Q3TA 'Overdose' (siehe oben) 23/36 fps - 55% schneller

Die Unreal-Werte bitte mit Vorsicht geniessen, der verwendete Glide-Wrapper ist meine eigene Kreation und ich hab seit der ersten Messung noch weiter daran gearbeitet. Immerhin unterstützt weder der Wrapper noch das Spiel SSE. Und auch hier unterscheiden sich die min-Werte deutlich von den Durchschnitts-Werten.

QED

aths
2002-04-03, 10:55:14
zeckensack,

ich stimme dir voll zu.

harkpabst_meliantrop
2002-04-03, 16:02:07
Und jetzt würde mich nur noch interessieren, wie das bei einer 64 MB Graka aussehen würde ... könntet du bitte nochmal kurz 32 MB dazulöten ?

:D

zeckensack
2002-04-03, 17:07:35
Originally posted by harkpabst_meliantrop
Und jetzt würde mich nur noch interessieren, wie das bei einer 64 MB Graka aussehen würde ... könntet du bitte nochmal kurz 32 MB dazulöten ?

:D

Ich bin Arzt, kein Ingenieur :D

Quasar
2002-04-03, 19:53:32
Dann sagen Sie's weiter in den Maschinenraum Bones!

harkpabst_meliantrop
2002-04-03, 22:42:57
Originally posted by zeckensack
Ich bin Arzt, kein Ingenieur :D
Ärzten die Glide-Wrapper basteln traut man eben auch zu, dass sie RAM auf Kühlschränke oder Grafikkarten löten ... ;)

zeckensack
2002-04-04, 01:54:11
Originally posted by harkpabst_meliantrop

Ärzten die Glide-Wrapper basteln traut man eben auch zu, dass sie RAM auf Kühlschränke oder Grafikkarten löten ... ;)

Also können kann ich das schon, Material und Werkzeug ist vorhanden, Chips kann ich von meiner Savage2k abreißen, also kein Problem :D

Ich glaub nur, daß die Karte dann mit 98,761%iger Wahrscheinlichkeit höchstens noch 0fps schafft und im Zweifelsfall bei der Explosion eine Blumenvase oä umfällt. Und das möcht ich nun wirklich nicht ;)

chicki
2002-04-23, 14:40:59
Originally posted by Indiana Jones
Deine Betrachtung ist zu einseitig.
Du schreibst in deinem Beitrag nur von Benchmarks für und von Spielen.
Kann ja sein, daß dies für dich das einzig Wichtige ist aber es gibt noch andere Dinge. (z.B. Videos, usw)
Den PCmark halte ich auch nicht für das nonplusultra aber besser als der beschissene 3dmark ist er allemal
auch wenn kein Max Payne durch die Gegend hüpft.
Leider geht es manchen nur darum.

IJ
mal im ernst... das hängt doch immer davon ab, was man mit dem PC machen will... Ich persönlich will einfach wenn ich aufrüste das Tribes 2 flüssig läuft ;). Andere wollen, das ihr Bild 20sec schneller gerendert wird. Jeder sollte sich einfach vor einem Hardware kauft bei Benchmarks informieren die seinem Interesse nahe kommen, odr bei besitzern eines ähnlihen Systems wie dem angestrebten.
3D mark ist dabei nur eine spielerei, da es wohl kein spiel gibt das diesem Benchmark ähnlich ist, verglichen wird mit ihm doch nur immer da jeder ihn bedienen kann und es Database gibt (und professionelle Reviewer benutzen ihn weil er so weit verbreitet ist)

Unregistered
2002-04-23, 21:14:15
Originally posted by zeckensack
Watt?
Oder genauer gesagt, halt ich Mittelwerte für totalen Käse, wenn's um fps geht.
Man sollte echt mehr auf Basis von Minimalwerten benchen, oder diese zumindest messen und mitbewerten.

Wie?
Unreal kann's (UT nicht mehr), Q1/2/3 können's nichtUT zeigt ebenfalls den Minimalwert an, außerdem Maximal- und Durchschnittswert.
Das ist ein immer wieder mal lamentiertes Problem, dass nur oft ausschließlich Durchschnittswerte bei Tests berücksichtigt werden.
Vulpine GLMark hat auch Minimalwert, samt ausführlicher bebildeter Protokolldatei. Ich weiß nicht, wie es mit Logfiles bei den Q-Engines (oder auch anderen Spielen) aussieht, vielleicht kann man solche anlegen und daraus den Minimalwert ablesen.
MadOnion wurde mal nach Veröffentlichung des 3DM2K darauf angesprochen, dass kein Minfps-Wert angegeben wird, hat dieses Manko aber auch im 3DM2K1 behoben. Solange sich fast alle mit dem Mittelwert zufrieden geben, besteht ja kein Handlungsbedarf für MadOnion.
Vorbildlich ist die Benchmarkroutine von Serious Sam: Außer den absoluten Peak-Werten (Max / Min) auch noch "konstante" Höchst- / Tiefstwerte (also über mehrere kontinuierliche frames).

[BlizZarD]
2002-04-23, 23:34:24
genau UT zeigt den min wert an
du Hutblume GG

benchmark.dem

me min 109,1 max 250 avg 169,4

hehe

zeckensack
2002-04-23, 23:47:37
Originally posted by °KøR°TiGGer
genau UT zeigt den min wert an
du Hutblume GG

benchmark.dem

me min 109,1 max 250 avg 169,4

hehe Angeber :P
;)

[BlizZarD]
2002-04-26, 01:56:00
oh stimmt ja gar nicht mehr

min 110 max 270 avg 178

hehe
ein wenig oc und alles ist ok = lol

TePierro
2002-04-26, 11:37:11
Grundsätzlich bin ich der selben Meinung.Man kann halt nur die Benchs zur eigenen Auswertung benutzen, um feststellen zu können,ob sich nach einem Treiberwechsel o.ä. das System noch stabil verhält und vieleicht auch etwas an Performance gewonnen hat. Sonst sind diese Dinger einfach nur schön anzusehen. Ich selber halte das für proletenhaft dafür auch noch Charts ins Netz zu setzen.

MfG

P.S. Sicher hatte ich auch mal das Verlangen, in solchen Charts drinzustehen, aber für wen ???

zeckensack
2002-04-27, 17:24:46
Originally posted by TePierro
Grundsätzlich bin ich der selben Meinung.Man kann halt nur die Benchs zur eigenen Auswertung benutzen, um feststellen zu können,ob sich nach einem Treiberwechsel o.ä. das System noch stabil verhält und vieleicht auch etwas an Performance gewonnen hat. Sonst sind diese Dinger einfach nur schön anzusehen. Ich selber halte das für proletenhaft dafür auch noch Charts ins Netz zu setzen.

MfG

P.S. Sicher hatte ich auch mal das Verlangen, in solchen Charts drinzustehen, aber für wen ??? Ich lese immer noch tonnenweise Web-Publikationen, um mich über die Leistungsunterschiede von Grakas zu informieren, meine muß nämlich möglichst bald weg ;)

Ich denke auch, daß das viele andere genauso machen. Siehe zB das Pro&Contra-Forum, da müssen THG, Anand und andere des öfteren herhalten, wenn man sich nicht einig ist, welche Karte denn nun die schnellste ist.

Leider finde ich diese publizierten Benchmarks jetzt teilweise als überflüssig. Das einzige was ich mir noch guten Gewissens geben kann, ist der Serious Sam-Benchmark aus dem 3D Digest auf digit-life.com. Alles andere ist einfach (IMHO) nutzloser Schrott, Verschwendung von Webspace und Bandbreite.

Wenn ich hier alles selber nachmessen muß, um zu brauchbaren Ergebnissen zu kommen, wozu brauch ich dann Hardware-Seiten?

aths
2002-04-28, 05:16:20
zeckensack,

wenn ich mit ansehe, wie Leute aus ihrer GF3 z.B. 8000 oder 9000 3DMarks quetschen (und ich "nur" 10500 bekomme) steht für mich die Frage, warum der 3DMark2001 nicht schon vollkommen diskreditiert ist. (Game-Benchmarks zeigen bekanntlich einen deutlichen Mehrgewinn von GF4 ggü. GF3.) Da Radeon und GF unterschiedliche Verfahren beim FSAA und beim AF verwenden, benchen viele halt roh. Was auch Quatsch ist, da man so kaum spielen möchte... insofern kann ich der Meinung "Benchmarks sind Käse" nur zustimmen.

Unregistered
2002-04-28, 11:22:30
Ich kann da die GF4-Review von Tommti-Systems (http://www.tommti-systems.com/main-Dateien/reviews/gf4ti4600/gf4ti46001.html) empfehlen. Das ist ein Schritt in die richtige Richtung, wie Reviews aussehen sollten.
Außer dem umfangreicheren Benchmark-Material (nicht nur Q3A und 3DMurks) und ausgiebiger Berücksichtigung von FSAA und AF hinsichtlich Qualität und Performance gibt es auch zahlreiche Verlaufsdiagramme zu fps und Polygondurchsatz, so von GLM, C4 und SS2.
Wenn Reviews so aufgebaut sind, halte ich sie für wirklich informativ. Benchmarks sind dann nicht Käse.

aths
2002-04-28, 14:31:20
Naja. Auch hier wird MSAA vs SSAA gebencht, und ATIs AF vs. nVidias AF... das erzeugt keine gleichen (oder sehr ähnlichen) Bilder und macht in meinen Augen daher wenig Sinn.

Unregistered
2002-04-28, 16:17:17
Originally posted by aths
Naja. Auch hier wird MSAA vs SSAA gebencht, und ATIs AF vs. nVidias AF... das erzeugt keine gleichen (oder sehr ähnlichen) Bilder und macht in meinen Augen daher wenig Sinn. Naja.
Immerhin weiß man: Ati und Nvidia bringen unterschiedliche Qualität und Geschwindigkeit. Mit der und der Bildqualität erreiche ich bei dem und dem Spiel diese und diese Werte. Das kann schon bei der Entscheidungsfindung helfen. Und die Minimum-Werte anzugeben, sollte sowieso Pflicht sein, ist aber nicht bei allen Reviews der Fall.

zeckensack
2002-04-28, 17:03:10
Originally posted by Unregistered
Ich kann da die GF4-Review von Tommti-Systems (http://www.tommti-systems.com/main-Dateien/reviews/gf4ti4600/gf4ti46001.html) empfehlen. Das ist ein Schritt in die richtige Richtung, wie Reviews aussehen sollten.
Außer dem umfangreicheren Benchmark-Material (nicht nur Q3A und 3DMurks) und ausgiebiger Berücksichtigung von FSAA und AF hinsichtlich Qualität und Performance gibt es auch zahlreiche Verlaufsdiagramme zu fps und Polygondurchsatz, so von GLM, C4 und SS2.
Wenn Reviews so aufgebaut sind, halte ich sie für wirklich informativ. Benchmarks sind dann nicht Käse. Gesehen und gelacht.
Oh
mein
Gott.

Kritikpunkte - jetzt wird's richtig übel:
1)Vulpine GL Mark wurde eingesetzt. Und das gleich zweimal!? War's so schön?
2)Kaffesatzleserei aus unterschiedlich skalierten Graphen.
3)Serious Sam wurde im D3D-Modus gebencht *kopfschüttel*
4)Gf4Ti darf keine Disziplin verlieren, siehe Ghost Recon *andenkopffass*
5)Die Bildqualitätsvergleiche sind völlig unbrauchbar, ebenso die Schlüsse daraus
6)Inkonsistentes Gehopse zwischen der 1024er und der 1600er Auflösung, na was denn nun? Soll ich hier von Gewinnsituationoptimierung (sprich: Schummeln) ausgehen!?
7)Graphen mal mit, mal ohne FSAA!? Gibt's hier was zu verstecken?
8)Das Fazit unter den MoHAA-Balken hat mit diesen ja nun wirklich überhaupt nichts zu tun, oder? Leserverarsche?
9)Was ist denn jetzt der zweite Serious Sam-Bench? OpenGL? Sollte man sowas nicht dazuschreiben?
10)Struktur mangelhaft. Zumindest Seitenüberschriften hätten es getan. Damit hätte man uU sogar Punkt 9 lösen können. Die Graphen für die Polycounts sind wertlos, machen den Test lediglich unübersichtlicher.
11)Aths-anschließ. Quincunx auf 'ner R200. Aha.

Pluspunkt:
1)Für beide Karten wurden neueste Beta-Treiber verwendet.

Was bleibt:
Nette frische Zahlen für 1024x768 (BTW: Farbtiefe steht wo?) ohne AF/AA. Alles andere für die Tonne.
*edit*
Hab's gefunden, Farbtiefe überall 32bit. Hab noch was anderes gefunden:
die Radeon 8500 verwendet stets den Quality FSAA Mode mit max. aniso. Filter
Stets ist immer gut, oder was!?
*aufreg*

zeckensack
2002-04-28, 17:09:12
Originally posted by zeckensack
4)Gf4Ti darf keine Disziplin verlieren, siehe Ghost Recon *andenkopffass*
6)Inkonsistentes Gehopse zwischen der 1024er und der 1600er Auflösung, na was denn nun? Soll ich hier von Gewinnsituationoptimierung (sprich: Schummeln) ausgehen!?
7)Graphen mal mit, mal ohne FSAA!? Gibt's hier was zu verstecken?
Na wenigstens kann man aus diesen Fällen ersehen, wo die R200 gewonnen hätte, wenn man bei einer Einstellung geblieben wäre. Daß die Gf4Ti bei extremen Auflösungen und/oder mit FSAA unantastbar ist, war mir vorher schon klar.

[DH]Avenger
2002-04-28, 18:33:30
Also ich kann dir (Zeckensack) nur auf ganzer Linie zustimmen, als ich den Link auf der 3DCenter-HP gesehen habe, freute ich mich schon auf ein qualitativ hochwertiges Review, aber die verwendeten "Benchmarks" trieben mir die Tränen in die Augen:

1.Vulpine GLMark...nutzt laut Vulpine spezifische NV Kommandos (glaub nv_gl_ini oder wie das heißt), der Bench soll nur innerhalb der NVidia Familie zum Vergleich genutzt werden, dass Ergebnis bei nicht-NV-Karten sagt NICHTS über die Leistungsfähigkeit aus, da diese nur den Standard OGL Mode nutzen, künstlich gebremst werden (wers net glaubt kann gerne ne Mail an Vulpine schreiben).

2. Codecreatures....soll man zu nem "Bench" noch was sagen der den GF4 Karten beiliegt?

3. D3D bei SS:SE zum Benchen genommen.....*umfall*

4. Comanche 4.....die Demo/Benchmark Version läuft komischerweise in der gleichen Szene auf der R200 nur halb so schnell wie im Finalen Game....könnte natürlich auch daran liegen dass die C4 Demo/Benchmark nicht auf dem finalen Code basiert...

Wirklich positiv ist nur die Verwendung der jeweils aktuell "beschaffbaren" Treiber für beide Karten.

Quasar
2002-04-28, 19:36:14
zu 1) Es gibt da aber durchaus Optionen, die nV-Extensions abzuschalten...

[DH]Avenger
2002-04-28, 19:39:22
Was dennoch nicht viel daran ändert dass der Bench nicht zum Vergleich von NV und Nicht-NV-Karten geeignet ist :)

ow
2002-04-28, 20:12:07
Originally posted by [DH]Avenger
Was dennoch nicht viel daran ändert dass der Bench nicht zum Vergleich von NV und Nicht-NV-Karten geeignet ist :)


Doch, nämlich genau dann kann man alle Karten bestens mit dem Bench vergleichen.

Quasar
2002-04-28, 20:15:38
Da dann nur Standard OpenGL extensions aktiviert sind. TnL in Hardware ist, wie bei OpenGL seit Jahren üblich, natürlich von Vorteil.

[BlizZarD]
2002-04-28, 22:54:37
also ich benche nur mit UT
und das auch nur wenn ich was verändert habe

um zu sehe wie schnell und stabiel das sys läuft
3dmark ist zwar nett aber nicht der renner
mich interessieren eigendlich nur reale spiele benchs

zb quake= CPU+VGA; naja hier sind die neuen detos goil
und UT =CPU lastig; deto 11.00 rult oder 6.49 noch geiler

naja und der rest egal spiele ich eh nicht

aths
2002-04-29, 17:28:16
Quasar,

wenn die Engine in OpenGL nicht so ausgelegt ist, HW T&L zu nutzen, sondern HW T&L einfach so verwendet wird (weil die API das eben kann) bringt das in der Praxis (fast) keine Vorteile.

ow
2002-04-30, 11:04:24
aths

Könntest du das mal erklären?
Ist IMO nämlich falsc. Kein OGL Progger braucht sich drum kümmern, ob die T&L in HW oder SW erfolgt.

aths
2002-05-18, 18:24:39
Eben das ist der Grund, ow.

Nutzt ein für SW T&L ausgelegtes Programm automatisch HW T&L, ergeben sich nicht automatisch Vorteile. Erst wenn das Programm die Besonderheiten von HW T&L kennt nun darauf achtet (so dass z.B. nicht ständig die Transformations-Matrix neu berechnet wird) kann die HW T&L Einheit seinen Vorteil ausspielen.

Eine Engine sollte so programmiert sein, dass Graka und CPU möglichst parallel was zu tun haben, so dass sie nicht aufeinander warten müssen. Hier unterscheidet sich der Ansatz, je nach dem, ob SW oder HW T&L verwendet wird.

Bokill
2003-06-15, 20:14:08
Mir scheint es bei den üblichen Spielen wirklich sinnvoll auch ein MINIMUM f/ps anzugeben.
An meinem System ist die Leistung deutlich nach oben begrenzt, aber nach unten hin scheine ich doch einen gewissen Puffer zu haben.
Jedenfalls laufen die moderneren Spiele so glatt wie ich es gewünscht hatte.-
Und ob der Penis 18 cm oder 20 cm lang ist ist mir so ziemlich egal.;D

BUGFIX
2004-04-30, 10:36:20
Hi!
auch auf die Gefahr hin wieder mal ein "geflame" loszubrechen...
Beim Betrachten von Benchmarks - egal ob Graka, CPU, Mainboard , RAM, Festplatte - fällt mir immer wieder auf wie "Realitätsfremd" manche Leute/Gruppen/Zeitschriften/Webseiten ihre Benchmark-Umgebung aufbauen.
Beispiel Grafikkarten:
Da wird bei jeder Karte bzw. jedem Treiber
1) Das System von grund auf neuinstalliert
2) nur die minimalste Softwareumgebung installiert
3) ausschließlich die zu benchende Anwendung laufen gelassen
4) interpolierte Werte ausgegeben
Aber wie verwertbar sind diese Ergebnisse ?
IMO - gar nicht - sie ignorieren eigentlich genau das, was sie aussagen wollen: realistische Werte.
Mir ist klar das Benchen immer mit einer gewissen Ungenauigkeit verbunden ist. Nur warum gesteht man diese Ungenauigkeit den Leser (bzw. beim Benchenden: sich selbst) gegenüber nicht ein?
Um die Einzelnen Punkte an einem Beispiel klar zu machen wird als Anwendung ein fiktives Spiel gewählt, es können aber fast alle beliebigen Anwendungen/Spiele/Benchmarks eingesetzt werden.

Zu 1)
Ich denke nicht, dass es üblich ist vor starten eines Spieles (nennen wir es "IM 3" mit völlig neuer 3d-Engine und Shader5.0 Effekten) sein system völlig Platt zu machen, ein jungfräuliches Windows zu installieren nur um dann 2-3 Stunden zu zocken. Anschließend selbige Prozedur für 2 andere Spiele/Anwendungen zu wiederholen.

Zu 2)
Wie realistisch ist es einen Computer (zumal mit entsprechender Hardware - sie muss ja Shader5.0 unterstützen) ausschließlich für dieses Spiel zu nutzen? Also: einschalten; einmal Spielen; ausschalten - kein Virenschutz und keine Firewall selbstverständlich - sie könnten die Ergebnisse verfälschen.

3)
Normalerweise findet man in der Vorgehensbeschreibung so oder ähnlich stehen:
"Alle nicht betriebsrelevanten Dienste wurden beendet , und alle Hintergrundanwendungen geschlossen."
Wenn sich der performance-hungrige Spieler diese Vorgehensweise zu eigen machen würde, hätte er nie die Möglichkeit im Internet (via DFÜ) zu spielen - eine DFÜ Verbindung setzt schließlich das Laufen von (eigentlich nicht kernelrelevanten) Diensten voraus.

4)
Um die so heiß begehrten "frames per second" kurz fps zu ermitteln wird meist eine Sequenz (feste Anzahl Bilder) im Grafikchip gerendert und die dafür benötigte Zeit gemessen.
Z.B.:
1503 frames in 60 sec => 1503/60 = 25,05 fps
Leider sind diese Arten von Ergebnissen bei weitem nicht so aussagekräftig wie von den meisten Erwartet.
Denkt man sich eine Sequenz, in der die ersten 100 Bildern in 20 sec gerendert werden, die weiteren 1403 Bilder in 40 sec (einfachere Geometrie; weniger Effekte) so kommt man dennoch auf ein "objektives" Ergebnis von 25,05 Fps, und das obwohl die ersten 100 Bilder in zäher Aufbaufolge über den Bildschirm flimmern. Je länger die Sequenz ist desto grober und unbrauchbarer ist das fps-Ergebnis.
Bei näherer Überlegung könnte man der Idee verfallen nicht eine Feste Anzahl von Bildern als Grundlage zu nutzten, sondern eine Feste Zeit zu wählen und Messen welche Anzahl von Frames in dieser gerendert wurden. Leider ändert dies weder das Problem der Interpolierten werte, noch ermöglicht es eine genauere Messung durch aufteilen in Zeitintervallen. In der Praxis erweist sich das Zählen von fertigen Frames (also der Bilder welche an den Monitor weitergegeben werden) als zu ungenau/unbrauchbar.

Wann werden uns die ersten wirklich aussagekräftigen Benchmark Ergebnise zu Verfügung stehen? [Frame-Verlauf als Liniendiagramm]
Wann werden zum messen der Werte Systeme eingesetzt wie sie in der Praxis bei "jedem" als Home-Pc zu Verfügung stehen?
[Windows mit "Gebrauchsspuren"; installiertem Office eventuell Brennprogramme und aktuellem Virenscanner/Firewall]


Einfach mal drüber nachdenken - wer nur meckern oder motzen will, suche sich bitte einen anderen Beitrag.
Danke

MfG

BUGFIX

PS:
Sollte den Moderatoren noch eine besserer Titel einfallen – nur zu (sollte aber irgendwie noch zum Thema passen)

Huhn
2004-04-30, 10:52:17
ja in gewisser hinsicht hast du da nicht ganz unrecht. trotzdem muss ich sagen ich habe auch schoin tests gesehen wie z.b von der neuen nvidia karte in der keine fps sondern eine fps linie angegeben wurde. imho ist es aber auch egal ob linie oder durchschnitsswert denn der fps wert verglichen ergibt eine art % vergleich. sprich wo die eine karte 20 fps liefert und die andere 25fps ergibt soundsoviel % leistungssteigerung. aussagekräftig ist dies auch nicht ganz. denn z.b. können sich die bildqualität etc auch noch unterscheiden oder es kommen neue techniken zum einsatz die andere effekt erlauben. siehe farcry undnvidia karten im bergleich zu ati karten mit dem neuesten pacth ;) als abschluss kann ich dazu nur eins sagen:
aus dem grund wird ja beim test einer neuen karte nicht nur ein test gemacht sondern mehrere. ;) alles zusammen ergibt dann sozusagen ein halbwegs aussagekräftiges ergebnis

mirp
2004-04-30, 11:04:09
Original geschrieben von BUGFIX

Sollte den Moderatoren noch eine besserer Titel einfallen – nur zu (sollte aber irgendwie noch zum Thema passen)
Das passt eigentlich ganz gut zu einer früheren Diskussion. Daher habe ich die beiden Threads mal zusammengelegt.

PCGH_Thilo
2004-04-30, 18:08:31
Original geschrieben von BUGFIX
Hi!
auch auf die Gefahr hin wieder mal ein "geflame" loszubrechen...
Beim Betrachten von Benchmarks - egal ob Graka, CPU, Mainboard , RAM, Festplatte - fällt mir immer wieder auf wie "Realitätsfremd" manche Leute/Gruppen/Zeitschriften/Webseiten ihre Benchmark-Umgebung aufbauen.
Beispiel Grafikkarten:
Da wird bei jeder Karte bzw. jedem Treiber
1) Das System von grund auf neuinstalliert
2) nur die minimalste Softwareumgebung installiert
3) ausschließlich die zu benchende Anwendung laufen gelassen
4) interpolierte Werte ausgegeben
Aber wie verwertbar sind diese Ergebnisse ?
IMO - gar nicht - sie ignorieren eigentlich genau das, was sie aussagen wollen: realistische Werte.
Mir ist klar das Benchen immer mit einer gewissen Ungenauigkeit verbunden ist. Nur warum gesteht man diese Ungenauigkeit den Leser (bzw. beim Benchenden: sich selbst) gegenüber nicht ein?
Um die Einzelnen Punkte an einem Beispiel klar zu machen wird als Anwendung ein fiktives Spiel gewählt, es können aber fast alle beliebigen Anwendungen/Spiele/Benchmarks eingesetzt werden.

Zu 1)
Ich denke nicht, dass es üblich ist vor starten eines Spieles (nennen wir es "IM 3" mit völlig neuer 3d-Engine und Shader5.0 Effekten) sein system völlig Platt zu machen, ein jungfräuliches Windows zu installieren nur um dann 2-3 Stunden zu zocken. Anschließend selbige Prozedur für 2 andere Spiele/Anwendungen zu wiederholen.

Zu 2)
Wie realistisch ist es einen Computer (zumal mit entsprechender Hardware - sie muss ja Shader5.0 unterstützen) ausschließlich für dieses Spiel zu nutzen? Also: einschalten; einmal Spielen; ausschalten - kein Virenschutz und keine Firewall selbstverständlich - sie könnten die Ergebnisse verfälschen.

3)
Normalerweise findet man in der Vorgehensbeschreibung so oder ähnlich stehen:
"Alle nicht betriebsrelevanten Dienste wurden beendet , und alle Hintergrundanwendungen geschlossen."
Wenn sich der performance-hungrige Spieler diese Vorgehensweise zu eigen machen würde, hätte er nie die Möglichkeit im Internet (via DFÜ) zu spielen - eine DFÜ Verbindung setzt schließlich das Laufen von (eigentlich nicht kernelrelevanten) Diensten voraus.

4)
Um die so heiß begehrten "frames per second" kurz fps zu ermitteln wird meist eine Sequenz (feste Anzahl Bilder) im Grafikchip gerendert und die dafür benötigte Zeit gemessen.
Z.B.:
1503 frames in 60 sec => 1503/60 = 25,05 fps
Leider sind diese Arten von Ergebnissen bei weitem nicht so aussagekräftig wie von den meisten Erwartet.
Denkt man sich eine Sequenz, in der die ersten 100 Bildern in 20 sec gerendert werden, die weiteren 1403 Bilder in 40 sec (einfachere Geometrie; weniger Effekte) so kommt man dennoch auf ein "objektives" Ergebnis von 25,05 Fps, und das obwohl die ersten 100 Bilder in zäher Aufbaufolge über den Bildschirm flimmern. Je länger die Sequenz ist desto grober und unbrauchbarer ist das fps-Ergebnis.
Bei näherer Überlegung könnte man der Idee verfallen nicht eine Feste Anzahl von Bildern als Grundlage zu nutzten, sondern eine Feste Zeit zu wählen und Messen welche Anzahl von Frames in dieser gerendert wurden. Leider ändert dies weder das Problem der Interpolierten werte, noch ermöglicht es eine genauere Messung durch aufteilen in Zeitintervallen. In der Praxis erweist sich das Zählen von fertigen Frames (also der Bilder welche an den Monitor weitergegeben werden) als zu ungenau/unbrauchbar.

Wann werden uns die ersten wirklich aussagekräftigen Benchmark Ergebnise zu Verfügung stehen? [Frame-Verlauf als Liniendiagramm]
Wann werden zum messen der Werte Systeme eingesetzt wie sie in der Praxis bei "jedem" als Home-Pc zu Verfügung stehen?
[Windows mit "Gebrauchsspuren"; installiertem Office eventuell Brennprogramme und aktuellem Virenscanner/Firewall]

frameverlauf mit liniendiagramm gab es z. B. in PCGH 05 (noch im Handel), S. 117 =)

1-3: ich seh schon das problem. allerdings hilft es nicht, wenn du es skizzierst, ohne eine lösung dafür anzubieten. man nimmt ja deshalb "cleane" systeme, um eine reproduzierbarkeit zu gewährleisten. das geht nur, wenn man möglichst wenig störfaktoren hat. ein vor dir beschriebener rechner lässt sich nicht so ohne weiteres reproduzieren. für ein special ist das sicherlich sinnvoll, aber nicht für standardwerte, die eine möglichst lange "lebensdauer" haben sollten.

"Je länger die Sequenz ist desto grober und unbrauchbarer ist das fps-Ergebnis."
=> auch nicht wirklich richtig. je kürzer eine szene, desto höher die gefahr von systembedingten rucklern. ein statistiker würde außerdem niemals einzelne ausreißer nach unten oder oben als signifikant ansehen. da müsste man schon die oberen und unteren 1-3% weglassen.

wir haben hier im übrigen schon einige demoverläufe durchgebencht. es ergeben sich keine wirklichen unterschiede im eigentlichen verlauf, nur im generellen niveau.

BUGFIX
2004-04-30, 18:27:53
Nur bringt es keider garnix , wenn auf einem idealisierten (praxisfernen) System der Treiber z.b. 5% schneller ist.

Huhn
2004-04-30, 18:57:33
Original geschrieben von BUGFIX
Nur bringt es keider garnix , wenn auf einem idealisierten (praxisfernen) System der Treiber z.b. 5% schneller ist.
wieso sollte eine praxisnahes system nicht durch den anderen treiber schneller sein ???

BUGFIX
2004-04-30, 21:44:55
Aber genau darum geht es doch - praxisnahe System bei denen die Software miteinader wechselwirkt verhalten sich eben ganz anders als ein cleanes system mit nur Windows + treiber.
Ein potentieller Käufer der (neuen) Hardware sieht den Test - und schließt messerscharf daraus dass diese also 30% schneller ist als die bei ihm vorhandene Hardware.
Er kauft sich dann die neue Hardware und muss dann aber feststellen, dass bei seinem Computer von den 30% nur etwa 5% übrig bleiben weil die Software eben mit anderen Bestandteilen des Systems wechselwirkt.
Leider wird so etwas nie getestet.
einfaches Beispiel:
Test einer ATI 9800 All in Wounder
erst wird die 3d leistung getestet - dann die MPG qualität und der daraus resultierende Leistungsverlust gemessen.
Aber keiner kommt auf die Idee beides gleichzeitig zu testen.

Zum Thema reproduzierbarkeit:
Was nützt es Dir wenn du die Werte zwar einwandfrei reproduzieren kannst - das system aber so einmalig ausgefallen ist, dass die Eckdaten keinerlei Relevanz haben?
Möglicherweise wäre bei dieser Art des Benchens auch potentielle Schwachstellen der Software leichter zu erkennen.
Die aussage:
" Der Treiber XZy.45vvv hat mit dem Antiviren Komplettpaket von "Dukommschhiernetrein" massive probleme und verursacht zusammen mit 'IM 3' darstellungsfehler ..."
bringt der Allgemeinheit mehr als festzustellen das Treiber XZy.45vvv zusammen mit 'IM 3' prima schnell ist -aber nur wenn nix anderes installiert ist.

MfG

BUGFIX

CrazyIvan
2004-05-01, 03:51:18
@ BUGFIX

Du magst ja schon recht haben, aber wie stellst Du Dir die Alternative vor? Sollen Heerscharen von Redakteuren über jeden neuen Treiber herfallen und diesen auf 100 Systemen mit 10^9 Softwarekombinationen testen? Und das ganze dann am besten auf 5673 Seiten Testbericht zusammenfassen?

Jeglicher Test bleibt nunmal mehr oder weniger ein Fingerzeig. DAUs nehmen das für bare Münze und der Rest weiß, wie man das einzuschätzen hat.

Gast
2004-05-01, 20:16:13
Original geschrieben von CrazyIvan
@ BUGFIX

Du magst ja schon recht haben, aber wie stellst Du Dir die Alternative vor? Sollen Heerscharen von Redakteuren über jeden neuen Treiber herfallen und diesen auf 100 Systemen mit 10^9 Softwarekombinationen testen? Und das ganze dann am besten auf 5673 Seiten Testbericht zusammenfassen?
...


Nein - brauchen sie nicht.

Man könnte eine Umfrage starten:
Was installiert Ihr standartmäßig mit Windows?

Erstellt daraus eine Liste und eine Referenz-Installation
und nimmt die Werte.

Klar ist das Mehr aufwand - aber es Zeigt doch dass Benchen eben kein Spaziergang mit dem Rechner, sondern harte uns sehr zeitaufwändige Arbeit ist (bzw sein sollte).
Die Realität sieht leider etwas anders aus.

MfG

BUGFIX

GloomY
2004-05-03, 11:19:46
Bugfix,

Überlege mal, was eigentlich geschieht, wenn du benchst. Es gibt prinzipiell zwei Möglichkeiten:

1.) konstante "Arbeit" (=Rechenleistung) und dann die Zeit messen

2.) feste Zeit vorgeben, dann messen wie viel "Arbeit" in dieser Zeit verrichtet wird.

Wenn du nun ein System hast, welches noch andere Dinge tut (Virenscanner o.ä.), dann ist bei 1) deiner Rechenleistung nicht konstant. Bei 2) misst du nicht die Arbeit, die dein Benchmarkprogramm erledigt sondern die Arbeit von Benchmarkprogramm und Hintergrundanwendung zusammen.

In beiden Fällen kannst du das Ergebnis vergessen. Noch viel schlimmer ist hierbei, dass die Hintergrundaktivität nicht immer die gleiche ist. Damit ist das Ergebnis auch nicht reproduzierbar. Und du willst allen Ernstes diese Ergebnisse miteinander vergleichen? :???:

Weisst du wie viel Rechenzeit der Prozess des DFÜ-Netzwerks benötigt und wie viele Threads es in einem Betriebssystem gibt, welche quasie die ganze Zeit schlafen und kein bisschen Rechenleistung benötigen? Der Anteil dieser Hintergrundprozesse an der Gesamtrechenleistung ist so gering, dass dieser wahrscheinlich schon innerhalb der Messtoleranz untergeht. Zumal der Benchmark - wenn er gescheit programmiert wurde - natürlich aller höchste Priorität beim Scheduler besitzt und somit alle andere Threads, die keine Real-Time Priorität besitzen - gar keine Chance haben, viel Rechenleistung der CPU zu bekommen. Und alle Threads, welche Real-Time Priorität besitzen, können gar nicht viel Rechenleistung besitzen, da diese sonst bei der Ausführung von Programmen mit normaler Priorität diese ungemein bremsen würden.

Der Virenscanner ist hier eine Ausnahme, da dieser immer mal wieder auf die Platte zugreift und somit eine größere Verzögerung verursacht. Gerade deswegen würde ich sowas auch nie in Verbindung mit einem Benchmark im Hintergrund laufen lassen.