Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Timedemos - Das Maß aller Dinge?
Leonidas
2006-01-22, 22:47:21
Link:
http://www.3dcenter.org/artikel/timedemos/
Bin mal gespannt, wer diese vielen Zahlen bis zum Ende durchhält. Bin auch drauf gespannt, ob sich zu diesem Artikel eine angeregte Diskussion ergibt, eigentlich schreit das Thema und vor allem das Fazit nach weiterer Betrachtung.
Nebenbei noch eine Widmung an die Proofing-Tools von Office2003, welche folgendermaßen "korrigierten": Beim Rindern der Quake IV Timedemo zeigt sich starke CDU-Abhängigkeit bei allen Grafik-Pettings. ;)
deekey777
2006-01-22, 23:04:13
Einleitung:
Es gibt Tatsachen, an denen rüttelt man nicht ... einigen Lesern wird dieser Spruch aus einem früheren Artikel bekannt vorkommen. Das letzte Mal haben wir damit an der Bastion der "average fps" gerüttelt.
http://www.3dcenter.org/artikel/timedemos/index9.php, erste quake 4 Tabelle:
Wie man sehen kann, ist Quake 4 selbst mit einer Radeon X800 XT-PE noch extrem Grafikkarten-limitiert.
GT: Legends
Den average fps aus der Timedemo zufolge war der Unterschied zwischen den CPUs nur sehr gering bei 1280x960 und 4-fachem Anti-Aliasing. Der Frameverlauf zeigt aber für die minimalen Werte einen Unterschied auf, der schon viel höher liegt. Aber erst das Savegame mit der gleichen Szene zeigt auf, wie CPU-abhängig das Spiel wirklich ist. Zusätzlich konnte ja noch ermittelt werden, inwiefern sich ein hier aufgenommenes Timedemo von derselben Szene unterscheidet, wenn diese auch gespielt wird: Die Werte der aufgenommenen Timedemo waren mit einer Radeon X800 XL und dem Athlon 64 3800+ um 27% höher und mit einem Athlon 64 3000+ sogar um 48% höher als die Szene, die auch wirklich gespielt wurde. Da sich die Werte zwischen dem Timedemo und dem Savegame unter 1600x1200 mit 6xAA und 16xAF nur noch um 8% unterschieden haben, kann wohl davon ausgegangen werden, dass durch das Timedemo bei GT: Legends hauptsächlich CPU-Last wegfällt.
Na was denn jetzt: Timedemo weiblich oder neutral? :)
Ein sehr interessanter Artikel.
anddill
2006-01-22, 23:06:51
1. Seite: Catalyst 4.12? Glaub ich nicht.
3. Seite: F.E.A.R. gibt ziemlich Grafikkarten-limitiert... sollte wohl "gilt" heißen
5. Seite: Das Interessante an den Benchmarks mit GT: Legends ist, dass Savegame und Timdemo die... Timdemo? Timedemo! (Fehler kommt mehrmals vor)
mapel110
2006-01-22, 23:14:26
1. Seite: Catalyst 4.12? Glaub ich nicht.
Ich schon. Ist ja nur eine X800er getestet worden. Und da soll der Treiber sehr flink sein.
Das Fazit ist ein wenig überspitzt.
Eine überwältigend große Anzahl an Benutzern verlässt sich schließlich darauf, ihren Hardwarekauf anhand von (bisher überwiegend mittels Timedemos getätigten) Benchmarks zu tätigen.
Schon richtig, aber zum Vergleichen von Grafikkarten (also wo sich nur eine Komponente im Rechner ändert), sind Timedemos immernoch gut genug.
Man sollte nur möglichst eigene Timedemos aufnehmen, damit die Hersteller nicht soviel optimieren können.
Für den Unterschied in der AA-Performance fällt mir auch keine Erklärung ein. Ist aber wirklich interessant. Werd das mal bei Fear gegentesten.
Bereits letzteres Jahr hatten wir in einem ähnlich gelagerten Artikel die derzeitige Benchmark-Praxis kritisch beäugt,
Bereits letztes Jahr ...
Madkiller
2006-01-22, 23:20:19
1. Seite: Catalyst 4.12? Glaub ich nicht.
Jap, war 5.12, sry.
Kinman
2006-01-22, 23:24:11
Wirklich guter Artikel, aber schade das ihr UT2003 (orig. Timedemos) nicht mitgebencht habt. Das Spiel ist zwar schon älter, aber angeblich wird die KI bei den Botmatches im Hintergrund mitberechnet.
mfg Kinman
Omega2
2006-01-22, 23:24:35
Wow ein sehr interessanter Artikel.
ich fasse das nochmal zusammen, damit man mich korrigieren kann, falls ich es nicht richtig verstanden habe:
Durch die Tatsache, daß bei einem Timedemo keine Benutzereingaben erfolgen und damit die CPU kaum etwas in Richtung KI und Physik berechnen muß, sind die Timedemos grundsätzlich zu optimistisch in ihren FPS-Werten.
Richtig so?
Wenn ja dann ist also bei vielen Spielen eine CPU Limitierung da, die aber im Timedemo nicht spürbar ist.
Immer noch richtig?
Was ich aber nicht verstehe, ist der niedrige Einfluß des AA auf die FPS im Timedemo. Kann es sein, daß da die Treiber bereits so optimiert sind, daß die speziell bei einem Timedemo das AA gar nicht nutzen, obwohl es eingeschaltet ist? Also quasi mal wieder ein Treibercheat vorliegt?
Habt ihr mal die Qualität der Bilder untersucht? Kann man da Unterschiede zwischen Timedemo und selbst gespielter Scene feststellen?
Gruß
Omega
Mhhh...
Also, ein sehr interessanter Artikel, ich brauchte ein paar Minuten um zu kapieren, was genau ihr mir sagen wollt :)
Allerdings falle ich dann wohl aus der Gruppe der Timedemo-Leute raus, da ich noch nie eine Timedemo gemacht habe oder habe durchlaufen lassen. Seit ich 3dcenter.de ansurfe, kaufe ich meine Hardware nach technischen Aspekten und Erfahrungsberichten von Leuten, die sagen können: "Also, bei Spiel XYZ habe ich unter 1280*1024 meist so 63fps, wenns übel wird 40..."
Das sagt mir mehr als solche Timedemos oder Benchmarks (nicht das 3D Mark und Co. genrell unnütz wären, sie sehen ja schön aus :))
Falls es aber wirklich so ist, dass viele Leute ihre GraKa nach Timedemo-Werten kaufen (wenn ich recht erinnere, macht u.a. die PCGH das doch in ihren Tests?), sollte denen die Lektüe dieses Artikels empfohlen werden.
ODER man fragt sich, warum Timedemos so aufgebaut sind, wie sie es sind. Ob es nicht Möglichkeiten gibt, die Szenendaten so aufzubauen, das die fps realistischer sind und mit realem Gameplay vergleichbar sind.
Interessant fand ich den Abschnitt zu Fear.
Verzicht auf 4xAA bringt also knapp 100% mehr Performance, kostet im Umkehrschluss also die Hälfte im Spiel.
Schade, dass ihr nicht auch eine Geforce mitverglichen habt. Die verliert nämlich im Timedemo bereits 50% Leistung durch 4xAA. Es wäre interessant gewesen zu sehen, wie die im Spiel reagiert hätte.
@Gast über mir:
Die PCGH benutzt Timedemos und echte in-Game Szenen im Mix.
Q
Zum Begriff "Performance" im Artikel wie im Forum: "Performance" meint vom Begriff nicht nur die Geschwindigkeit, also die fps. Performance ist die Leistung, darunter zählt auch Qualität (Leistung gleich Arbeit pro Zeit.) Mit AA wird die Karte langsamer, aber man verliert nicht unbedingt "Leistung" oder "Performance". Ein Bild mit AA zu rendern ist ja ne bessere Leistung/Performance (bei gleicher Geschwindigkeit) als ohne.
Stellt man die Auflösung hoch, verliert man ja auch keine Grafikleistung. (Im Gegenteil, sofern die CPU noch limitiert, gewinnt man insgesamt Grafikleistung.)
StefanV
2006-01-22, 23:43:36
Schade, dass ihr nicht auch eine Geforce mitverglichen habt. Die verliert nämlich im Timedemo bereits 50% Leistung durch 4xAA. Es wäre interessant gewesen zu sehen, wie die im Spiel reagiert hätte.
Hätte man sicher gemacht, wenn man eine zur Verfügung gehabt hätte :)
Ansonsten:
Netter Artikel, der IMO doch in die Richtung geht, darzulegen, das Timedemos nicht des Weißheits letzter Schuss sind, da anscheinend einige Berechnungen nicht ausgeführt werden werden (siehe differenz 3000+ -> 3800+).
Ansonsten netter Artikel, den ich bisher nur überflogen hab...
Hätte man sicher gemacht, wenn man eine zur Verfügung gehabt hätte :)
Eine so große und bedeutende Webseite wie 3DCenter hätte da sicherlich die Möglichkeit zu gehabt, da bin ich mir sicher.
Q
Onkeltom421
2006-01-22, 23:48:28
Nur eine ATI und sonst nix. Was soll daran besonders aussagekräfitig sein?
Genau 0!
Schade drum, der Ansatz war super aber der Rest enntäuschend -.-
Du willst also behaupten, dass bei einer NVIDIA-Karte etwas gänzlich anderes herausgekommen wäre?
anddill
2006-01-23, 00:30:55
Der Knackpunkt ist doch die stark unterschiedliche CPU-Last bei Timedemo und Savegame. Ob da eine ATI, eine nVidia, eine S3 oder sonst eine Grafikkarte im Einsatz ist, ändert höchstens was an der Quantität, aber nicht an der Qualität der Aussage.
OBrian
2006-01-23, 00:32:34
Es geht doch gar nicht darum, wie Ati- oder nVidia-Karten sich verhalten, also ist die verwendete Karte ziemlich egal (mit einer Voodoo 5 6000 zu testen, wär aber auch zu realitätsfremd gewesen^^). Und wenn jetzt alles nochmal mit zwei GeForces gemacht wird, kommt der nächste an und sagt "das sind aber viel zu wenig Spiele" :rolleyes:
Zwei Fragen:
1. Warum haben die Textabsätze einen Mouseovereffekt in schweinchenrosa?
2.Als Krönung stellt sich zudem die überraschende Unstimmigkeit beim Einsatz von Anti-Aliasing heraus: Einige Timedemos erzeugen dort weitaus geringere Last für den Grafikchip, was sich in unverhältnismäßig hohen Werten widerspiegelt. Gibt es dafür eine sinnvolle Erklärung? Verschobene CPU-Limitierung kann man sich mit wegfallenden KI-, Physikberechnungen usw. erklären, aber der Geschwindigkeitseinbruch durch Antialiasing sollte doch eigentlich gleich bleiben (wenn man sich auch ohne AA bei beiden Testarten schon im grafiklimitierten Bereich bewegt natürlich, aber das ist ja z.B. bei Q4 gegeben)?
StefanV
2006-01-23, 01:07:19
Zwei Fragen:
1. Warum haben die Textabsätze einen Mouseovereffekt in schweinchenrosa?
Naja, egal obs ein Bug ist oder whatever, dieses Feature find ich eigentlich recht nett und nützlich, als Lesezeichen.
rokko
2006-01-23, 01:18:37
Naja ich find den Bericht ganz gut. Zeigt er doch das die ganzes Timedemos/Benches eigentlich garnix aussagen.
Interessant ist für mich als Nutzer doch nur inwieweit sich ein Spiel mit akzeptabler Qualität eigentlich wirklich spielen lässt. Denn nur genau das will ich wissen.
Von daher ist eine Querschnitt von Meinungen der Nutzer wesentlich aussakräfitger als irgendwelche vorgefertigten Timedemos. :wink:
Simon Moon
2006-01-23, 02:55:20
Naja, es gibt eben zwei Verwendungszwecke für Grafikkarten, für die auch die Unterschiedliche Nutzung der Benchmarks sinnvoll ist. Kommt drauf an ob man die Grafikkarte( n) oder die Spiele als Fokus nimmt. Will man vergleichen, wie die unterschiedlichen Grafikkarten im Vergleich zueinander perfomen, nimmt man einen statischen benchmark. Dadurch hat man die theoretische Leistungsfähigkeit der Grafikkarte im Vergleich zu einer anderen imo am besten belegt. Legt man jedoch den Fokus auf Spiele, ist es nützlicher reale, dynamische Benchmarks zu benutzen. So kann man in Erfahrung bringen, welches Feature wieviel Performance auf der Grafikkarte bringt. Die Vergleichbarkeit verschiedener Karten schwindet so aber imo, da wesentlich mehr Faktoren renspielen.
bloodflash
2006-01-23, 03:38:34
Du willst also behaupten, dass bei einer NVIDIA-Karte etwas gänzlich anderes herausgekommen wäre?
Ohne einen ähnlichen Test mit einer nV-Karte kann man dazu keine Aussage machen. Theoretisch könnte es ja sein, dass ATI bei den Timedemos massic cheatet und bei nv deshalb keine so hohen Einbrüche zu verzeichnen sind ;)
zeckensack
2006-01-23, 03:57:37
Sehr gut! :up:
*MadKillerknuddel*
*BlackBirdSRknuddel*
dilated
2006-01-23, 06:17:52
ich versteh den sinn nicht ganz?
wenn doch jemand mit nem 3,6+ghz p4 oder fx57+
5 verschiedene grakas(im gleichen system) durch timedemos jagt
kommt am ende doch auf jedefall was raus
(auch wenns mit dem spiel ansich viell. nix zu tun hat?)
ich will ja nicht genau wissen welche karte bei spiel:x so und so schnell ist
ich will nur wissen welche besser/die beste im mom ist??
das ich dabei nich auf tests kuck die mit 1,2ghz
oder 3000+ gemacht wurden kuck is klar.
aber ich hab eh keine ahnung
habe ich das jetzt richtig verstanden das nur die ersen 5 sekunden aufgezeichnet wurden?
ich würde mal sagen, auch wenn man wieder und wieder das gleiche savegame lädt, dürfte man da auf die nachladeruckler stoßen die sich am anfang ergeben und größer sind wenn die physik & co noch berechnet werden muss.
zudem sind aufzeichnungen mit fraps auch nicht wirklich gut gewählt, obwohl hier die frage wäre wie man das sonst nachmessen will, aber fraps belastet das system zusätzlich (und nicht unbedingt wenig) so das es besonders bei cpu-limitierten spielen auffallen dürfte.
außerdem will man mit den timedemos bzw allgemein benchmarks ja festhalten wie sich das system verbessert hat und nicht ob ein spiel spielbar ist (zumindest meistens) dies erfährt man ansich nur durch cpu- und gpu- limitierte applikationen, je nachdem welchen wert man erfahren will.
PS:
bin nur als gast drin weil ich mich hier leider nicht einloggen kann
cya
][immy
BlackBirdSR
2006-01-23, 08:49:28
außerdem will man mit den timedemos bzw allgemein benchmarks ja festhalten wie sich das system verbessert hat und nicht ob ein spiel spielbar ist (zumindest meistens) dies erfährt man ansich nur durch cpu- und gpu- limitierte applikationen, je nachdem welchen wert man erfahren will.
PS:
bin nur als gast drin weil ich mich hier leider nicht einloggen kann
cya
][immy
Gegenfrage:
Hat sich dein Spielempfinden verbessert, wenn du aufrüstest, und deine Werte im Timedemo von 30 auf 45 angestiegen sind, du aber weiterhin! ca 40% der Zeit bei Werten mit 20fps verbringst?
Um das geht es uns.
Natürlich zeigt ein Anstieg der bisherigen average-fps im timedemo an, wie viel die Grafikkarte schneller ist. Die Frage ist nur, wieviel dieser zusätzlichen Performance kommt auch beim Spieler an.
Im Gegensatz kann ein Aufrüsten der CPU sehr viel bringen, was im Timedemo aber nur sehr gering auffällt.
30% mehr Performance im Benchmark können auch 0% im Spiel sein.
Das wollten wir näher untersuchen.
Danke für die Info mit FRAPS, werden wir mal nachprüfen.
Demirug
2006-01-23, 09:12:35
Mit nVidia Karten hätte man den PerfHud oder noch besser den entsprechenden Diagnose Treiber nehmen können. Die hätten jeweils angezeigt wo (GPU oder CPU) es hängt.
Pinoccio
2006-01-23, 10:05:50
OT:
Zum Begriff "Performance" im Artikel wie im Forum: "Performance" meint vom Begriff nicht nur die Geschwindigkeit, also die fps. Performance ist die Leistung, darunter zählt auch Qualität (Leistung gleich Arbeit pro Zeit.) Mit AA wird die Karte langsamer, aber man verliert nicht unbedingt "Leistung" oder "Performance". Ein Bild mit AA zu rendern ist ja ne bessere Leistung/Performance (bei gleicher Geschwindigkeit) als ohne.Wenn ich dazu mal Wikipedia (http://de.wikipedia.org/wiki/Performance_%28Informatik%29) zitieren dürfte: "Speziell auf Computerspiele bezogen bezeichnet man mit Performance die erreichte Bildfrequenz, also die Anzahl von Bildern, die pro Sekunde gerendert werden." Ebenso wird im Forum und auch in den Artikeln, wie du ja bemerkst, Performance synonym für fps verwendet.
Deine Behauptung, Performance meine Leistung und damit auch solche Aspekte wie Bildqualität, ist meiner Ansicht nach falsch.
Sprache lebt, und solange in gewissen Bereichen Sprache auch und zum Teil sogar wesentlich durch Personen entwickelt, die weder ihre Muttersprache gut beherrschen noch die Fremdsprachen, derer Wörter sie sich bedienen, wird es auch immer wieder Streit um Wortbedeutungen geben.
Zum Artikel:
Die Zahlenwüste erinnert mich etwas diesen (http://www.witze-fun.de/witz/21-6483/Telefonbuch.html) Witz.
Das Fazit ist bemerkenswert. Wenn nun noch ein Artikel über Reproduzierbarkeit und Messgenauigkeit von fraps in echten Spiel-Szenen kommt ... ;-)
Ich glaube, es gab mal eine kurze Aussage in den News vor langer Zeit, daß Intel(?) sowas auch schonmal getestet hätte mit ähnlichem Fazit. Leider ist die Suchfunktion sehr unflexibel.
1. Warum haben die Textabsätze einen Mouseovereffekt in schweinchenrosa?Du auch? Ich hielt das für einen Fehler durch irgendeine Extension. Naja, ich finde es im Gegensatz zu Stefan sehr unpraktisch.
mfg Sebastian
PS "ne" mit Apostroph! ;-)
Ich würde hier gerne auf duden.de verlinken, aber die halten sich nicht an den RFC 2396 :-(
Monger
2006-01-23, 10:24:36
Toller Artikel - und bestätigt wiedermal mein Gefühl, dass aktuelle Benchmarks meistens an der Realität vorbei laufen.
Die Frage ist ja letztendlich: Was bringt mir eine Grafikkarte für ein Spiel subjektiv?
Mir hilft es nicht, wenn meine Grafikkarte in der Theorie die schönsten, schnellsten Bilder erzeugt, wenn ich das in der Praxis nicht spüre. Die allgemein höhere CPU Last leuchtet mir ein, aber was die Änderungen beim FSAA sollen, ist mir auch schleierhaft. Sitzt da vielleicht irgendwo ein Bandbreitenproblem?
Wie auch immer, was könnte denn eine brauchbare Alternative zu Timedemos sein? Spontan könnte ich mir so eine Art Langzeittest vorstellen:
Einfach über lange Zeiträume die Ergebnisse von realen Spielen sammeln. Über lange Zeiträume betrachtet macht jeder Spieler fast das selbe, und der Fehler müsste sich relativieren.
Riesenproblem: Nicht nur dass man so kaum auf genau dem selben System die selben Tests fahren kann, der Zeitaufwand dafür würde auch explodieren. Die Idee kann man also getrost vergessen...
Trotzdem glaube ich, dass IM PRINZIP der Fehler der durch unterschiedliche Benutzereingaben gemacht wird kleiner ist als der, den man durch quasi-synthetische Benchmarks macht.
Es käme wohl mal auf einen Versuch an: zwei identische Rechner, an beiden wird der selbe Level gespielt und gleichzeitig gemessen. Mich würde wirklich interessieren, wie groß die Abweichung da wirklich ist. Systembedingte Unterschiede müssten konstant sein, und sollten sich statistisch rausrechnen lassen.
Edit: wenn man Grundaussagen über die Komplexität der jeweiligen Szene machen könnte, wären Timedemos imho überflüssig. Man kann einfach ganz normal spielen, und im nachhinein analysieren in welchem Verhältnis die fps zu der dargestellten Komplexität steht.
UT2004 bietet im Debugmodus eine Möglichkeit, sich die Rechenlast für Geometrie, Physik, KI usw. anzeigen zu lassen. Wenn man da detaillierte Infos getrennt nach Grafikkarte und CPU kriegen würde, könnte man Spielszenen miteinander vergleichbar machen, die auf den ersten Blick absolut nichts miteinander zu tun haben.
Wolfram
2006-01-23, 10:36:19
Prima Artikel! Bestätigt mal in Zahlen, was man im Grunde schon immer ahnte.
Bemerkenswert finde ich auch, daß die fps auch schon ohne AA in Quake4 und FEAR im Savegame merklich niedriger sind als in der Timedemo, mag der Unterschied mit AA auch nochmal deutlich heftiger sein.
Für Kaufentscheidungen finde ich die Ergebnisse Eurer Messungen schon extrem interessant. Die allermeisten Artikel kümmern sich nur um die Frage: Welche Karte ist schneller? Das ist aber meist gar nicht die Frage des Käufers.
Ich will schließlich erstens wissen, welche Karte ich mindestens brauche, um ein bestimmtes Spiel mit bestimmten Settings spielen zu können. Schon da versagen die Timedemos, Euren Messungen zufolge.
Zweitens will ich wissen, ob ich auch meine CPU aufrüsten muß.
Und da widerspricht die Erfahrung der meisten nur-Graka-Aufrüster doch dem, was man zuvor an Benchmarks gelesen hat: Komischerweise reicht die alte CPU eben doch nicht mehr. Jetzt wissen wir auch, warum.
Armaq
2006-01-23, 11:59:19
Schöner Artikel. Leider viel zu viele Zahlen. Ihr bringt sie als Beweis für eure Erläuterungen - viele Leser werden den Zahlenberg aber links liegen lassen.
Generell ist wohl anzuraten eure Artikel nicht im Niveau sinken zu lassen, aber für einen Gelegenheitsbesucher zugänglicher zu gestalten.
Computerbase ist sicher nicht ganz so kritisch und vll. auch nicht so kompetent wie ihr, aber sie setzen ihre Artikel optisch ansprechender um.
Vor allem die Graphen für die fps im Zeitverlauf schrecken ab. Viele fanden sowas schon in der Schule grausam. In einem Testbericht werden sie häufig komplett übersehen/übergangen.
Eine weitere Frage wäre: bleibt der Performance-Sieger bei Timedemo-Tests auch der Sieger, wenn ich Savegames benche? Falls dem so ist kann man nur Tombman zitieren:
Die Performance-Krone ist die Performance-Krone ist die ...
Auch wenn viele sagen, juchee ich bin erleuchtet - endlich ein Test der mir zeigt, dass geltende Kriterien nicht gelten.
Tun sie doch. Die Kaufentscheidung zieht sich über die Budgetfrage hinzu dem Artikel selbst. Da die teuren Modelle einer Fabrikationsreihe meist auch auf die Preiswerteren abfärben, bleibt der Eindruck, dass ich mit all diesen Modellen gut fahre. Wenn ich mir nun einen Vergleich anschaue, um mich vorzuinformieren, werde ich generell mit dem Performance-Sieger in meiner Preisklasse auch das Maximum an Performance haben.
Daran ändert eure Feststellung nichts.
Leonidas
2006-01-23, 12:04:23
Na was denn jetzt: Timedemo weiblich oder neutral? :)
.
Neutral. Habe es vereinheitlicht.
PS: Alle bis hierher gemeldeten Schreibfehler gefixt.
Leonidas
2006-01-23, 12:07:02
1. Warum haben die Textabsätze einen Mouseovereffekt in schweinchenrosa?
Mmh? Dessen bin ich mir nicht bewusst.
Leonidas
2006-01-23, 12:09:31
zudem sind aufzeichnungen mit fraps auch nicht wirklich gut gewählt, obwohl hier die frage wäre wie man das sonst nachmessen will, aber fraps belastet das system zusätzlich (und nicht unbedingt wenig) so das es besonders bei cpu-limitierten spielen auffallen dürfte.
Also laut meinen letzten Messungen nur noch im Rahmen von 1-2%. Früher war das anders, mit den Versionen 1.4 etc. konnte man teilweise Unterschiede im Bereich von 20-30% haben.
PS: Ich hab immer noch alle alten Fraps-Versionen rumliegen und könnte das notfalls wohl sogar heute noch nachweisen, wo die alten Versionen ihre Probleme hatten und wo die neuen sauber funktionieren.
(del)
2006-01-23, 12:15:20
Ohne einen ähnlichen Test mit einer nV-Karte kann man dazu keine Aussage machen. Theoretisch könnte es ja sein, dass ATI bei den Timedemos massic cheatet und bei nv deshalb keine so hohen Einbrüche zu verzeichnen sind ;)
Bitte kein Spam.
Leonidas
2006-01-23, 12:18:03
Bitte kein Spam.
Naja, ich sehe diese Anmerkung nicht wirklich als Spam. Sicherlich wäre der Artikel mit einer NV-Karte noch sicherer in seiner Aussage geworden. Allerdings wären es wohl noch mehr Zahlen geworden - und für meinen Geschmack sind es jetzt schon mehr als genug davon.
crusader4
2006-01-23, 12:52:58
Hallo,
die Ergebnisse des Artikels sind wirklich interessant, auch wenn der Lesestoff eher trocken war. Aus diesem Grund habe ich ihn auch nur überflogen.
Folgende Anmerkungen:
Diese selbstständig ablaufenden Szenen sollen das Messen der Performance erleichtern. Der Hersteller oder User nimmt eine Szene in Spielgrafik auf und lässt diese dann abspielen.Das müßte selbständig lauten.
Es entsteht ein durchschnittlicher Wert für die Performance, welcher "frames pro second" oder auch "Bilder pro Sekunde" genannt wird.Es heißt "frames per second". Wenn schon Englisch, dann doch bitte komplett.
Eine überwältigend große Anzahl an Benutzern verlässt sich schließlich darauf, ihren Hardwarekauf anhand von (bisher überwiegend mittels Timedemos getätigten) Benchmarks zu tätigen.Die Wortwiederholung auf so engem Raum ist unglücklich, zumal ich das Wort tätigen nicht so prall finde.
Alternative:
Eine überwältigend große Anzahl an Benutzern verlässt sich schließlich beim Hardwarekauf auf mittels Timedemos getätigte Benchmarks.
Außerdem würde ich die extrem negative Bewertung der Timedemos nicht so stehen lassen. Wenn man diese zum Geschwindigkeitsvergleich mehrer Grafikkarten auf einem System benutzt, liefern sie doch verwertbare Ergebnisse. Auch das kann ja ein Kriterium sein - nicht ob eine Grafikkarte für ein bestimmtes Spiel ausreicht, sondern welche Grafikkarte in einem bestimmten Spiel am schnellsten ist.
Grüße, Crusader
Naja, ich sehe diese Anmerkung nicht wirklich als Spam. Sicherlich wäre der Artikel mit einer NV-Karte noch sicherer in seiner Aussage geworden. Allerdings wären es wohl noch mehr Zahlen geworden - und für meinen Geschmack sind es jetzt schon mehr als genug davon.
Es hätte ja EIN Quercheck bei EINEM GAME mit einer NV gereicht um zu beweisen, das NV-Karten sich vom Prinzip her ähnlich verhalten...
MasterElwood
Wolfram
2006-01-23, 13:04:30
Vor allem die Graphen für die fps im Zeitverlauf schrecken ab. Viele fanden sowas schon in der Schule grausam. In einem Testbericht werden sie häufig komplett übersehen/übergangen.
Die Diagramme finde ich gerade gut. In der Diskussion um die Relevanz von Minimum-fps-Werten geht es auch darum, ob es sich um einzelne oder häufigere Ausreißer nach unten handelt. Mit einem Diagramm kann ich mir schnelle ein Bild machen. Noch plastischer wäre IMO allerdings eine Darstellung der fps-Verteilung a la FEAR-Performance-Test oder wie im jüngsten THG-Artikel über die Frage des Speicherausbaus.
Auch wenn viele sagen, juchee ich bin erleuchtet - endlich ein Test der mir zeigt, dass geltende Kriterien nicht gelten.
Tun sie doch. Die Kaufentscheidung zieht sich über die Budgetfrage hinzu dem Artikel selbst. Da die teuren Modelle einer Fabrikationsreihe meist auch auf die Preiswerteren abfärben, bleibt der Eindruck, dass ich mit all diesen Modellen gut fahre. Wenn ich mir nun einen Vergleich anschaue, um mich vorzuinformieren, werde ich generell mit dem Performance-Sieger in meiner Preisklasse auch das Maximum an Performance haben.
Daran ändert eure Feststellung nichts.
Doch. Zum Beispiel, wenn es gar keinen Performance-Sieger gibt, weil bei den gewählten Grafikkarten, Spielen und Settings in den kritischen Szenen die CPU limitiert. Was habe ich von 100 statt 60 fps Maximum, wenn ich in allen kritischen Szenen mit beiden Grakas nur 15 fps habe? Dann ist der "Performance-Sieg" ein rein theoretischer.
Und daß die teuren Modelle auf die preiswerteren Modelle abfärben, möchten die Hersteller gerne suggerieren, sonst würde nicht so um die absolute "Performance-Krone" gekämpft. Für den Vergleich der viel verkauften Einsteiger- und Mainstreamkarten gibt der Vergleich der Spitzenmodelle aber tatsächlich so gut wie gar nichts her.
Folgende Anmerkungen:
Das müßte selbständig lauten.Nach neuer Rechtschreibung ist es tatsächlich selbst-ständig.
ezzemm
2006-01-23, 13:19:42
Am Ende des Artikels wurde die Frage aufgeworfen, wie denn realitätsnäheres Benchmarken aussehen könnte.
Dazu möchte ich einen Beitrag einbringen:
Ich spiele das Spiel Battlefield 2 sehr oft und intensiv, sowohl public als auch in Clanwars. Von daher war ich bestebt, daß das Spiel immer flüssig läuft, aber ich trotzdem das Maximum an Grafik rausholen kann.
Daher wollte ich mich nicht auf das subjektive Empfinden verlassen, sondern das Ganze auf "harten Fakten" einstellen.
Dazu habe ich das Programm "moreBenchLX" verwendet, welches nach Bekunden des Herstellers weniger als 1% Performance verbraucht.
Das Programm stellt während dem Zocken einen FPS-Graphen dar, außerdem wird laufend Min-, Avg- und Max-FPS dargestellt und aktualisiert.
Ich habe dann die Grafiksettings im Spiel eingestellt, bin auf einem Server gegangen, habe moreBench resettet und habe losgezockt.
Relativ früh hat sich ein Avg-FPS-Wert eingestellt, der sich bis zum Ende der Runde kaum verändert hat. Mit einem Blick auf den Graphen konnte man die Menge an "minimum-FPS" einschätzen.
Mein Fazit: Egal ob ich mit dem Panzer rumgeheizt bin, oder mit Jet geflogen; nach 5 Minuten hatte man einen Avg-FPS-Wert, der sich bis zum Ende der Runde kaum noch geändert hat.
Mit dieser Methode hat man sicherlich eine Meßungenauigkeit ±5%, aber sie ist extrem realitätsbezogen.
Real-Life-Benchmark Battlefield 2 (32er Maps / 32 Slots):
Settings:
AA&AF im ControlPanel auf Application Controled, VSync off
Ingame: 1280x960, High Details (Ausnahme: Schatten aus), AA auf 4x; Sound auf High + EAX on
System:
CPU: Athlon64 3200+ @ 2400MHz (1,36V)
RAM: MDT 2x1024 MB DDR400 (3-3-3-7-1T), Teiler 8/10
Mainboard: DFI nForce 4 SLI-DR
Grafikkarte: Connect3D ATi X850XT (Standard-Takt)
Soundkarte: Creative Audigy 2 Value
Benches:
Strike at Karkand - ~60fps
Dalian Plant - ~65fps
Gulf of Oman - ~80fps
Sharqi Peninsula - ~45pfs
BlackBirdSR
2006-01-23, 13:26:36
Am Ende des Artikels wurde die Frage aufgeworfen, wie denn realitätsnäheres Benchmarken aussehen könnte.
Dazu möchte ich einen Beitrag einbringen:
Danke :-)
Ziel des Artikels war es sicher nicht, die Frage an sich zu klären. Es werden auch Messungen mit Intel und Nvidia Hardware folgen. Diese ist nun verfügbar, was sie zuvor nicht war.
Der Artikel soll etwas wach rütteln und dann genau das erzeugen, was jetzt eigentlich zu sehen ist.
Eine Diskussion mit vielen verschiedenen Meinungen, Pro und Kontra Aspekten sowie neuen Ideen.
Also traut euch ruhig, jeder Post ist gerne gesehen. Das gilt auch für Kritik.
Ihr solltet bei Kritik nur beachten, dass wir hier nicht versucht haben einen festen Standpunkt zu vertreten, den man anzweifeln muss. Wir wollten eine Anregung schaffen.
Black-Scorpion
2006-01-23, 13:50:01
Mmh? Dessen bin ich mir nicht bewusst.
Ist aber so. ;)
Gaestle
2006-01-23, 14:08:18
Hallo,
war sicher 'n Haufen Arbeit, Respekt dafür, trotzdem zwei, drei Fragen meinerseits:
Ist es eventuell möglich, dass bis einschl. Seite 6 und dann wieder ab Seite 9 die Grafiken nicht zu den darunter stehenden Tabellen passen bzw. bei den Tabellen nicht savegame average fps , sondern savegame minimum fps angegeben wurden? Wenn ja, sollte man das nicht nur in den Tabellen ändern, sondern auch im Fliesstext klar voneinander abgrenzen. (BTW: Ich ziehe Verlaufsgraphen, so wie Ihr's gemacht habt, auch vor...)
Beherrscht eine Audigy2 überhaupt EAX5 bzw. EAX5.1? Dachte, das kann nur die X-Fi...
Wenn man davon ausgeht, dass Physik und KI zu Lasten der CPU gehen, und man genau diese Last zeigen möchte, warum nimmt man Auflösungen, die z.T. auch durch die GraKa limitieren dürften (z.B. AoEIII - Timedemo-average)?
Warum interpretiert Ihr Spalten- anstatt Zeilenweise, was der Intention des Artikels (so wie ich Ihn verstanden habe) viel eher entgegen kommt?
Oder liege ich falsch?
Grüße
Ohne einen ähnlichen Test mit einer nV-Karte kann man dazu keine Aussage machen. Theoretisch könnte es ja sein, dass ATI bei den Timedemos massic cheatet und bei nv deshalb keine so hohen Einbrüche zu verzeichnen sind ;)
Das wollte ich damit nicht sagen. Deswegen habe ich mich ja speziell auch auf Fear bezogen, weil der Einbruch dort so interessant ausschaut.
Q
Madkiller
2006-01-23, 15:11:27
Schon richtig, aber zum Vergleichen von Grafikkarten (also wo sich nur eine Komponente im Rechner ändert), sind Timedemos immernoch gut genug.
Man sollte nur möglichst eigene Timedemos aufnehmen, damit die Hersteller nicht soviel optimieren können.
Nur wenn alle GraKas auch in selbst gespielten Szenen bei FSAA verhältnissmäßig gleich einbrechen.
Wirklich guter Artikel, aber schade das ihr UT2003 (orig. Timedemos) nicht mitgebencht habt. Das Spiel ist zwar schon älter, aber angeblich wird die KI bei den Botmatches im Hintergrund mitberechnet.
mfg Kinman
Ich habe ein paar Wochen, bevor mit dem Artikel begonnen wurde eine Umfrage erstellt, welche Spiele gerade am meisten gespielt werden. Nach dem Ergebniss habe ich meine Spielewahl getroffen.
ich fasse das nochmal zusammen, damit man mich korrigieren kann, falls ich es nicht richtig verstanden habe:
Durch die Tatsache, daß bei einem Timedemo keine Benutzereingaben erfolgen und damit die CPU kaum etwas in Richtung KI und Physik berechnen muß, sind die Timedemos grundsätzlich zu optimistisch in ihren FPS-Werten.
Richtig so?
Wenn ja dann ist also bei vielen Spielen eine CPU Limitierung da, die aber im Timedemo nicht spürbar ist.
Immer noch richtig?
Jap.
Was ich aber nicht verstehe, ist der niedrige Einfluß des AA auf die FPS im Timedemo. Kann es sein, daß da die Treiber bereits so optimiert sind, daß die speziell bei einem Timedemo das AA gar nicht nutzen, obwohl es eingeschaltet ist? Also quasi mal wieder ein Treibercheat vorliegt?
Wäre möglich, glaube ich aber nicht.
Das Phänomen tritt nämlich tendenziell bei allen Spielen auf.
Bei GT:Legends wurde ja eine selber erstellte Aufzeichnung eines Rennens erstellt.
Ich schätze deswegen noch am ehesten, daß der geringe Einbruch bei Timedemos durch FSAA damit zusammen hängt, daß die Timedemos ja eigentlich nur abgespult werden.
Habt ihr mal die Qualität der Bilder untersucht? Kann man da Unterschiede zwischen Timedemo und selbst gespielter Scene feststellen?
Uns sind keine aufgefallen.
In der Industrie ist eine derartige (Performance)Analyse (beispielsweise) eines Rechnersystems, die Ermittlung von Ergebnissen, deren Auswertung und anschließend die Konzeption von (performanceverbessernden) Maßnahmen sehr viel Geld wert. Allen (minimalen) Kritikpunkten zum Trotz: alle Achtung, einen solchen Artikel frei zur Verfügung zu stellen.
bArToN
2006-01-23, 15:22:21
Zwei Fragen:
1. Warum haben die Textabsätze einen Mouseovereffekt in schweinchenrosa?
Jup, habe das gleiche Problem.
Falls es was hilft.
Das Problem tritt bei mir nur im Firefox Browser auf. Nicht aber im IE.
Madkiller
2006-01-23, 15:31:04
Nur eine ATI und sonst nix. Was soll daran besonders aussagekräfitig sein?
Er sagt ganz klar aus, daß die Ergebnisse/Unterschiede aus einer Timedemo nicht immer auf selbst gespielte Szenen anwendbar sein müssen und zumindest mit der getesteten Hardware auch oft abweichen.
Das und sagt der Artikel aus, und das kann er auch sehr wohl.
ich will nur wissen welche besser/die beste im mom ist??
Dich interessiert nicht, ob die neue CPU/GraKa jetzt 10% oder 50% schneller ist und ob es sich überhaupt rentiert aufzurüsten?
habe ich das jetzt richtig verstanden das nur die ersen 5 sekunden aufgezeichnet wurden?
ich würde mal sagen, auch wenn man wieder und wieder das gleiche savegame lädt, dürfte man da auf die nachladeruckler stoßen die sich am anfang ergeben und größer sind wenn die physik & co noch berechnet werden muss.
Ja.
Und Nein. Es gab keine Nachladeruckler in dieser Zeit.
aber fraps belastet das system zusätzlich (und nicht unbedingt wenig)
Nope. Kostet (zumindest bei mir) ca. 1,5% Performance.
Ist es eventuell möglich, dass bis einschl. Seite 6 und dann wieder ab Seite 9 die Grafiken nicht zu den darunter stehenden Tabellen passen bzw. bei den Tabellen nicht savegame average fps , sondern savegame minimum fps angegeben wurden?
Es wurden immer nur die Savegame average fps ermittelt.
Beherrscht eine Audigy2 überhaupt EAX5 bzw. EAX5.1? Dachte, das kann nur die X-Fi...
Mit 5.1 war nur gemeint, daß der Sound für 5.1 Boxen eingestellt war.
Wenn man davon ausgeht, dass Physik und KI zu Lasten der CPU gehen, und man genau diese Last zeigen möchte, warum nimmt man Auflösungen, die z.T. auch durch die GraKa limitieren dürften (z.B. AoEIII - Timedemo-average)?
Weil wir Auflösungen/Settings getestet haben, die auch eine gewisse Praxisnähe haben. Die wenigsten mit >X800XL werden unter 1280x960 spielen.
Auch wenn's vielleicht korinthig wirkt, hier das Best-of der Fehler:
Es entsteht ein durchschnittlicher Wert für die Performance, welcher "frames pro second" oder auch "Bilder pro Sekunde" genannt wird.
Per? Oder wollt ihr nun überall neue Standards einführen? :D
Dieser Artikel soll nicht nur bestätigen, dass dieser Durchschnittswert häufig eine weitaus verzerrte Darstellung der Performance liefert.
IMHO eher eine starke Verzerrung, oder eine weitaus verzerrtere als angenommen.
Catalyst 5.12 auf hohen Qualitätseinstellungen ohne optimiertes anisotropisches Filtern und A.I. auf low
Im Ati-Treiber steht Müll.
Hier wurde ein Rennen bei Nacht mit 16 Kontrahenten aufgezeichnet und die ersten 60 Sekunden aufgezeichnet (Klicken öffnet die Screenshots im Großformat).
Wie wäre es mit "Hier wurden die ersten 60 Sekunden eines Rennens bei Nacht mit 16 Kontrahenten aufgezeichnet"? :)
Hier wurde das Intro zum Spiel mit der Verfolgungsjagd durch die Stadt, das danach fließend in das erste Rennen übergeht, zum benchen genutzt.
Zum Benchen.
Aus der Introsquenz als Timedemo abgespielt, ergibt sich jedoch ein ganz anderer Anblick
Ansonsten durchaus interessant. Dass Timedemos oft nur leicht CPU-lastigere "Flybys" sind, fiel mir beim Benchen auch gelegentlich auf. Daher sind FRAPS-Benchmarks von reproduzierbaren Szenen, wie einem Rennen bei NFS, praxisnäher und IMHO auch im Kommen.
MfG,
Raff
ezzemm
2006-01-23, 16:14:57
Die FRAPS-Benchmarker sollten wirklich mal moreBenchLX ausprobieren! Es ist wirklich sinnvoller!
Der einzige Nachteil ist, daß man damit keine Screenshots machen kann, aber da gibts auch andere Lösungen.
http://www.more3d.de/german/morebench_d.htm
Gaestle
2006-01-23, 16:46:03
Es wurden immer nur die Savegame average fps ermittelt.
Mit Verlaub, ich glaube nicht.
Man beachte bitte folgende Grafik:
Ach nein, doch nicht.
In den Grafiken stehen ja nur die Timedemos. Finde ich nicht gut. Warum statt allen 4 Timedemos nicht zwei mal real-life und zwei mal Timedemo? Da hätte man den Unterschied zwischen Timedemo und Real-Life viel besser gesehen.
Naja, ist wohl zu spät jetzt zum ändern... ;(
Grüße
Leonidas
2006-01-23, 17:38:15
Ist aber so. ;)
Sehr lustig. HTML-technisch ist der Text absolut sauber, es existiert keinerlei Farbangabe, kein Script, absolut nix. Die Farbe *darf* nie und nimmer dort sein.
Update: Schweinchenrosa gefixt.
Leonidas
2006-01-23, 17:40:05
einschl. Seite 6 und dann wieder ab Seite 9 die Grafiken nicht zu den darunter stehenden Tabellen passen bzw. bei den Tabellen nicht savegame average fps , sondern savegame minimum fps angegeben wurden?
Savegame mini fps können es unmöglich sein, die wurden nicht ermittelt. Ob das andere stimmt, kann nur Madkiller wirklich beantworten.
Leonidas
2006-01-23, 17:41:33
In der Industrie ist eine derartige (Performance)Analyse (beispielsweise) eines Rechnersystems, die Ermittlung von Ergebnissen, deren Auswertung und anschließend die Konzeption von (performanceverbessernden) Maßnahmen sehr viel Geld wert. Allen (minimalen) Kritikpunkten zum Trotz: alle Achtung, einen solchen Artikel frei zur Verfügung zu stellen.
Vielleicht sollten wir so was zukünftig professionell für die Industrie machen ;)
PS: Alle bis hier hin gefundenen Schreibfehler wieder gefixt. Thx @ die Fehlersuchenden.
paul.muad.dib
2006-01-23, 17:54:37
Erstmal ein großes Lob für den Artikel. ich finde es gut, immer mal wieder zu hinterfragen, nach welchen Methoden Produkte im allgemeinen getestet werden sollten.
Sicherlich sind test nie objektiv und gerade solche, wo Produkte am Ende Zahlenwerte zugewiesen bekommen, sind problematisch. Erhält P1 eine 1,43 und P2 eine 2,06 dann ist noch nicht gesagt, welches Produkt für mich besser geeignet ist. Das könnte ich jetzt noch weiter ausführen, will aber nicht OT werden.
Also, euer Artikel zeigt die Grenzen von Hardwarebewertungen mittels Timedemos an. Insgesamt sehe ich hier eine sehr positive Entwicklung, wenn man grob vereinfacht diese Evolution unterstellt:
Test mit 3D-Mark und wenigen Spielen->Test nur Real-world Benchmarks und verschiedenen Spielen/Engines->Berücksichtigung von Minmum und Maximum frames und Spielbarkeitsratings wie in PCGH->Kritik an timedemos und die noch unbekannten Konsequenzen.
Die Aufmachung des Artikels halte ich leider für nicht so gut gelungen. Ich habe den "Zahlenteil" weitesgehend übersprungen und mich vor allem ans Fazit gehalten. Ich bin auch kein erfahrener Layouter, vlt. würde aber folgendes helfen:
- Trennung der Fragestellungen 3000+ vs. 3800+ und XT vs. XL bzw. AA vs. kein AA
- Eine genauere Erklärung, was in den Tabellen dargestellt wird. Die Legenden der Graphen sind extrem klein geraten und in der Einleitung vermisse ich eine Erklärung zu den Tabellen (oder habe ich sie nur überlesen?)
- Trennung von Daten und Auswertung. Hierüber kann man sich streiten, aber ich fände einen geschlossenen Datenteil und einen Auswertungsteil besser, als beides häpchenweise abzuwechseln. Die jetzige Form gibt wohl eher die Entstehung des Artikels wieder, dient aber imo nicht der Übersichtlichkeit.
- Eine Zusammenfassung der Daten ähnlich den "Ratings" der CB. Hierdurch wird jedem Leser die Möglichkeit gegeben, beliebig tief in die Materie einzusteigen.
Last but not least habe ich noch eine Frage zu den Tabellen: Wieso gibt es hier nicht 4 Spalten, nähmlich min/avg timedemo und min/avg Real?
//edit: "nicht" eingefügt
Leonidas
2006-01-23, 18:04:46
Last but not least habe ich noch eine Frage zu den Tabellen: Wieso gibt es hier nicht 4 Spalten, nähmlich min/avg timedemo und min/avg Real?
Zumindestens das kann ich beantworten: Weil Savegame min nicht ermittelt wurden. Dafür war das Datenmaterial (nur 5 Sek) zu gering.
Madkiller
2006-01-23, 18:11:41
Zumindestens das kann ich beantworten: Weil Savegame min nicht ermittelt wurden. Dafür war das Datenmaterial (nur 5 Sek) zu gering.
Jap, das Savegame sollte ja auch nur eine Szene darstellen, die sich in den 5 Sekunden auch nicht groß ändert.
@paul.muad.dib
Danke noch für deine Meinung. :)
Nur wenn alle GraKas auch in selbst gespielten Szenen bei FSAA verhältnissmäßig gleich einbrechen.
Eben aus diesem Grunde wäre halt eine andere Karte als eure verwendeten auch sehr wünschenswert gewesen. Eine X800 XT-PE und X800 XL unterscheiden sich ja nicht so gravierend voneinander.
Es wäre toll, wenn ihr das vielleicht für zukünftige Artikel im Hinterkopf behalten könntet. Momentan habt ihr ja lediglich die Situation bei ATi-Karten beleuchtet.
Q
Sehr lustig. HTML-technisch ist der Text absolut sauber, es existiert keinerlei Farbangabe, kein Script, absolut nix. Die Farbe *darf* nie und nimmer dort sein.
Update: Schweinchenrosa gefixt.
Das finde ich mal lustig. Keine Fehler, die dann aber gefixt. :)
Woran lag's denn?
Q
RavenTS
2006-01-24, 00:49:16
Guter Artikel, bin mal auf die allgemeine Resonanz gespannt und ob sich in dieser Richtung was ändern wird oder das altbekannte und einfache Timedemo-Prinzip überleben wird...
OT:
Wenn ich dazu mal Wikipedia (http://de.wikipedia.org/wiki/Performance_%28Informatik%29) zitieren dürfte: "Speziell auf Computerspiele bezogen bezeichnet man mit Performance die erreichte Bildfrequenz, also die Anzahl von Bildern, die pro Sekunde gerendert werden." Ebenso wird im Forum und auch in den Artikeln, wie du ja bemerkst, Performance synonym für fps verwendet.
Deine Behauptung, Performance meine Leistung und damit auch solche Aspekte wie Bildqualität, ist meiner Ansicht nach falsch.
Sprache lebt, und solange in gewissen Bereichen Sprache auch und zum Teil sogar wesentlich durch Personen entwickelt, die weder ihre Muttersprache gut beherrschen noch die Fremdsprachen, derer Wörter sie sich bedienen, wird es auch immer wieder Streit um Wortbedeutungen geben.Wikipedia erkenne ich da nicht als Autorität an.
Wenn man "Performance" mit "fps" gleichsetzt, dürfte keiner was gegen "Performance-Tuning" haben. Tatsächlich aber geht "Performance-Tuning" oft zulasten der Qualität. Dass sich die "Performance" einer Karte bessert, wenn man z. B. AA ab- oder die Auflösung runterschaltet, sehe ich nicht so. Dass die "Performance" steigt wenn nur noch bi- oder bri- statt trilinear gefiltert wird, genauso wenig.
Hallo,
die Ergebnisse des Artikels sind wirklich interessant, auch wenn der Lesestoff eher trocken war. Aus diesem Grund habe ich ihn auch nur überflogen.
Folgende Anmerkungen:
Das müßte selbständig lauten.Nö, selbstständig ist korrekt.
Madkiller
2006-01-24, 05:22:05
Es wäre toll, wenn ihr das vielleicht für zukünftige Artikel im Hinterkopf behalten könntet. Momentan habt ihr ja lediglich die Situation bei ATi-Karten beleuchtet.
Q
Zumindest das ist geplant. :)
dilated
2006-01-24, 05:35:03
Dich interessiert nicht, ob die neue CPU/GraKa jetzt 10% oder 50% schneller ist und ob es sich überhaupt rentiert aufzurüsten?
doch aber das seh ich auch in timedemos
(am besten seh ichs immer da dran wenn neue spiele nich mehr flüssig laufen :))
wenn da
karte a 100fps
karte b 150fps hat
nehm ich karte b
wenns im spiel dann halt bei
karte a doch nur 70fps sind
karte b dann nur 100fps
hab ich trotzdem die bessere, oder nicht?
und wenn ich aufrüste darf bei oben genanntem beispiel
meine aktuelle karte höchstens die hälfte haben
ich hätte auch meinen xp3200+(barton) noch am laufen
wenn das mainboard nicht kaputt gegangen wär
da es im mom einfach noch nicht mehr brauch
deswegen wollt ich auch 2800 erreichen
aber wie gesagt ich hab eh keine ahnung(werds auch nochmal genau lesen..)
ihr freaks :D
Gaestle
2006-01-24, 08:50:50
Jap, das Savegame sollte ja auch nur eine Szene darstellen, die sich in den 5 Sekunden auch nicht groß ändert.
Das soll nun unser roter Leitfaden im Artikel sein: Sind die Werte aus Timedemos mit denen vergleichbar, die ein Spieler beim wirklichen Spielen erlebt? Als Gegenprobe zu Timedemos benutzen wir deshalb ein Savegame aus dem jeweiligen Spiel. Wir haben mit diesen versucht, praxisnahe und öfters vorkommende Worstcase-Szenarien darzustellen.
Also so gesehen, sollte man die Savegame-Werte doch eher mir Timedemo-minimum vergleichen, weil beides Worst-Case darstellt.
Von daher halte ich den Vergleich savegame-"average" und timedemo-average für problematisch, weil savegame-"average" wohl eher real-life-minimum darstellt. Und dann werden auch die Unterschiede zwischen timedemo und real-life geringer.
Oder nicht?
Grüße
paul.muad.dib
2006-01-24, 11:31:02
Habt ihr in eurem Tests mal auf die fps-Entwicklung nach den 5 Sekunden geachtet? Nach meiner Erfahrung hat man nämlich nach dem Laden eines Spielstandes für ein paar Sekunden unrepräsentativ niedirge fps, selbst bei meinen 2 GB RAM.
Falls ihr das nicht schon so gemacht habt: Vlt. Laden, 10 Sek warten und dann benchen.
Monger
2006-01-24, 11:36:50
doch aber das seh ich auch in timedemos
(am besten seh ichs immer da dran wenn neue spiele nich mehr flüssig laufen :))
wenn da
karte a 100fps
karte b 150fps hat
nehm ich karte b
wenns im spiel dann halt bei
karte a doch nur 70fps sind
karte b dann nur 100fps
hab ich trotzdem die bessere, oder nicht?
Tja, eben nicht.
Wenn dir laut Timedemo eine neue Grafikkarte einen Leistungszuwachs für dein aktuelles System von 20% verspricht, und dieser Zuwachs dank CPU Limitierung in Wahrheit auf 0% schrumpft, hast du umsonst Geld ausgegeben. Da Grafikkarten teilweise auch unterschiedlich mit der CPU mitskalieren, hast du möglicherweise sogar zum falschen Hersteller gegriffen.
Die Frage war ja weniger: Für welchen Hersteller entscheide ich mich?
Sondern eher: was bringt mir eine neue Grafikkarte?
dilated
2006-01-24, 12:45:38
deswegen schau ich mir keine tests an wo 1,2 ghz oder 3000+
als cpus angegeben sind
(am besten kuck ich nach einem wo in etwa meine cpu genommen wird)
und ich mit meiner 9800pro hab egal welche ich kauf mehr als 20% leistungszuwachs (seis nur ne 6800gt, x850)
wer innerhalb einer generation aufrüstet ist selbst schuld
wer immer highend kauft hat auch zu viel geld
da mid range immer das bessere p/l haben oder nicht?
man bezahlt halt die schwanzlänge
kann bei meiner cpu eigtl nicht passieren
(das die limitiert...höchstens im jetzigen highend)
Madkiller
2006-01-24, 14:45:12
Also so gesehen, sollte man die Savegame-Werte doch eher mir Timedemo-minimum vergleichen, weil beides Worst-Case darstellt.
Von daher halte ich den Vergleich savegame-"average" und timedemo-average für problematisch, weil savegame-"average" wohl eher real-life-minimum darstellt.
Nach deiner Interpretation schon. :)
Dennoch wurden die fps des Savegames mit den avg fps ermittelt, und deswegen ist auch nur diese Bezeichnung richtig.
Man redet ja bei einer Timedemo, die speziell auf Worst-Case getrimmt wurde bei den avg fps ja auch nicht von den min fps.
Und dann werden auch die Unterschiede zwischen timedemo und real-life geringer.
Absolut gesehen, ja.
Es bleibt aber immernoch noch die unterschiedliche Skalierung der CPU und der GraKa (auf FSAA).
Habt ihr in eurem Tests mal auf die fps-Entwicklung nach den 5 Sekunden geachtet?
Jap, das wurde gemacht. Es wurden aber keine Unstimmigkeiten deutlich.
Und um das von dir beschriebene auch noch so weit wie möglich minimieren zu können, wurde ja nicht schon das erste Laden des Spielstandes aufgezeichnet, sondern erst ab dem zweitem Laden.
In welchen Spielen ist dir das denn aufgefallen?
Gaestle
2006-01-24, 17:14:01
Man redet ja bei einer Timedemo, die speziell auf Worst-Case getrimmt wurde bei den avg fps ja auch nicht von den min fps.
Also wurden nicht nur die savegames, sondern auch die timedemos auf "worst case" getrimmt?
Dann wär's ja wieder vergleichbar... also avg zu avg ...
*kopfkratz* :confused:
Grüße
][immy
2006-01-24, 17:40:18
Also wurden nicht nur die savegames, sondern auch die timedemos auf "worst case" getrimmt?
Dann wär's ja wieder vergleichbar... also avg zu avg ...
*kopfkratz* :confused:
Grüße
nicht ganz, denn bei einem savegame kommt es bei den meisten spielen zu erheblichen nachladerucklern innerhalb der ersten paar sekunden, welche dann natürlich den savegametest zunichte machen.
gerade die Performance die ihr bei AOE III nachgemessen habt per savegame kann ich nicht verstehen, denn selbst auf meinem system (Athlon 64 2,2 Ghz + Geforce 6800 GT + damals noch 1 GB speicher) gab es nie eine so unterirdische performance wie bei diesen savegame-tests.
der artikel ist zwar interessant, aber um ein objektives Bild zu erhalten sollte man doch schon mehr sekunden (z.B. 30 und die ersten 5-10 sekunden nicht) testen. Auch wenn durch die spielweise unterschiede auftreten sollte diese nicht allzu gravierend auffallen können, wenn man immer in etwa das gleiche macht.
das dumme an KI und physik ist, sie lassen sich nicht wirklich gut benchen. bei der physik geht das ja noch in etwa aber auch nur alleine aber bei der KI sollte es nicht so einfach gehen, da wohl auch ein kleines zufalls-konzept hinter so ziemlich jeder KI steckt, und wenn man fest scriptet dann isses auch keine KI mehr.
interessant wäre ein Programm (wird aber wohl nicht möglich sein) das alle befehle die ein Programm gibt aufzeichnet und wieder "abspielen" kann, so das auch alles neu berechnet werden muss, auf diese weise hätte man in etwa einen gut vergleichbaren benchmark. allerdings sehe ich da bei KI und physik wieder relativ schwarz
Madkiller
2006-01-24, 18:25:16
Also wurden nicht nur die savegames, sondern auch die timedemos auf "worst case" getrimmt?
Dann wär's ja wieder vergleichbar... also avg zu avg ...
*kopfkratz* :confused:
Grüße
Das habe ich mit meinem vorigem Post nicht ausgesagt.
Es wurde eigentlich nur das von GTL darauf getrimmt.
Die restlichen Timedemos stammten vom Spiel selber, außer bei Quake 4
[immy']
nicht ganz, denn bei einem savegame kommt es bei den meisten spielen zu erheblichen nachladerucklern innerhalb der ersten paar sekunden, welche dann natürlich den savegametest zunichte machen.
Wie schon gesagt...
Bei diesen Test gabs während den ersten Sekunden keine Ruckler.
[immy']
gerade die Performance die ihr bei AOE III nachgemessen habt per savegame kann ich nicht verstehen, denn selbst auf meinem system (Athlon 64 2,2 Ghz + Geforce 6800 GT + damals noch 1 GB speicher) gab es nie eine so unterirdische performance wie bei diesen savegame-tests.
Die Werte wurden sogar auf einem vergleichbarem System überprüft. Mit ähnlichen Werten.
Außerdem ändern die sich praktisch auch nicht nach 15Sek.
Sie werden zwar minimal höher, was aber auf den starken Rückgang der Einheiten (durch den Kampf) zurück zuführen ist.
[immy']
der artikel ist zwar interessant, aber um ein objektives Bild zu erhalten sollte man doch schon mehr sekunden (z.B. 30 und die ersten 5-10 sekunden nicht) testen. Auch wenn durch die spielweise unterschiede auftreten sollte diese nicht allzu gravierend auffallen können, wenn man immer in etwa das gleiche macht.
Für einen genaueren Vergleich sind aber die Abweichungen zu hoch wenn man selber an dem Ablauf noch mitwirkt.
Das ist natürlich nicht optimal, aber jede interaktion verfälscht die Werte.
Aber ich habe keine Probleme mit den ersten 5 Sekunden gehabt solange ich erst ab dem 2. Durchlauf die fps aufgezeichnet habe... Beim ersten Durchlauf waren sie aber des öfteren niedriger.
Dennoch - das muß ich zugeben - hat diese Methodik einen gewissen Nachteil. Die Meßungenauigkeit.
Während sie bei TDs - gerade mit den avg fps - nur bei ~0,5% liegen, liegt die bei den Savegames schon bei grob 2%.
Natürlich kann man damit immer noch verschiede Hardware vergleichen.
Wenn's aber um feinere Abstufungen geht, wie z.B.: "Wieviel Performance kostet es, statt 8xAF, 16xAF zu aktivieren", kann das schnell zu Problemen führen. Gerade bei einem Spiel wie F.E.A.R. wo sich der Ablauf sogar in den paar Sekunden manchmal stark ändert.
Ein sehr guter Artikel! Und da ich vor allem die Messungen mit FSAA recht beeindruckend finde, könnte ich mir gut vorstellen, dass eine englische Version des Artikels in vielen Teilen der Welt (sprich: hardware und Spiele-Seiten / Foren) auf großes Interesse stoßen würde...
Gruß, MrS
Razor
2006-01-25, 05:05:37
Tjo sorry... aber dem Artikel kann ich leider überhaupt nichts abgewinnen.
Da werden doch tatsächlich Intros mit InGame-Scenarien vergleichen (z.Bsp. AOE3 und NFS:MW) und das, wo doch JEDER wissen sollte, dass zumindest die Intros auf ALLEN Computern (halbwegs) flüssig laufen sollten, um den Spielern nicht schon vor Beginn des Games die Laune zu versauen.
Dann das "Demo1" bei Q4, welches ich bis heute nicht kenne. Benutze noch immer die Demos von Guru3D oder HWSpirit... das sind 'echte' (und zumindest existierende ;-) Timedemos, die solche Auffälligkeiten, wie ihr sie beschreibt merkwürdiger weise nicht zeigen.
Witziger weise scheint FEAR das einzige Game zu sein, bei dem ihr tatsächlich mal ein InGame-Performance-Test benutzt habt... uns schon kommt Eure Hypothese ins wanken.
GT Legends hab' ich nicht mehr auf der Platte (liegt nicht auf meiner 'Linie' ;-). Aber wie ihr ja selber heraus gefunden habt, ist es extrem CPU-limitiert. Und da machen Grafikkarten-Tests auch nicht wirklich Sinn. Was meint Ihr, warum bei meinem Parqour (derzeit meist nur noch 'intern' ;-) alle CPU-limitierten Benches hinaus geflogen sind? Ja... eine treiberseitige Performance-Betrachtung macht in solchen Scenenarien keinen Sinn. Noch viel schlimmer dürfte es mit "DualCore enabled" Treibern aussehen, die in solchen Scenarien getetstet werden... aber auch das schrieb ich schon des öfteren.
Und eines ist doch echt eine Binsenweisheit: Benchmarks sind für Cross-Plattform-Vergleiche NICHT geeignet!
Schreib' ich schon seit Jahren, aber schön, dass ihr es nun auch heraus gefunden habt...
(ein bischen Polemik ist schon dabei ;-)
Sorry, aber ich finde das Ganze (noch) komplett an den Haaren herbei gezogen und es ist im Prinzip nicht einmal etwas mit einbezogen worden, welches eigene Bench-Funktionen mit sich bringt (von FEAR mal abgesehen). Warum nicht auch TR:AoD, CSS: VST, SS2 oder D3? Das einzige, was gezeigt wurde, ist der Fakt, dass die CPU in RealWorld-Umgebeungen tatsächlich noch etwas anderes zu tun hat, als Polygone zu produzieren... welch' Erkenntnis.
Ja, ich stimme mit Leo überein, dass dies sicher noch nicht der Weishiet letzter Schluss war!
(und ich weiß, dass er es anders meinte ;-)
Razor
Madkiller
2006-01-25, 05:27:49
Da werden doch tatsächlich Intros mit InGame-Scenarien vergleichen (z.Bsp. AOE3 und NFS:MW) und das, wo doch JEDER wissen sollte, dass zumindest die Intros auf ALLEN Computern (halbwegs) flüssig laufen sollten, um den Spielern nicht schon vor Beginn des Games die Laune zu versauen.
...wenn es nicht gerade NFS MW ist...
Ändert aber dennoch nichts daran, daß viele Hardware Seiten sowas vergleichen.
Dann das "Demo1" bei Q4, welches ich bis heute nicht kenne. Benutze noch immer die Demos von Guru3D oder HWSpirit... das sind 'echte' (und zumindest existierende ;-) Timedemos, die solche Auffälligkeiten, wie ihr sie beschreibt merkwürdiger weise nicht zeigen.
Erklär mir doch bitte, was an der hier verwendeten TD nicht "echt" sein soll.
Außerdem kamen die Auffälligkeiten im selben Maße auch bei anderen TDs vor.
Witziger weise scheint FEAR das einzige Game zu sein, bei dem ihr tatsächlich mal ein InGame-Performance-Test benutzt habt... uns schon kommt Eure Hypothese ins wanken.
Inwiefern? FEAR schlägt voll in die selbe Kerbe.
GT Legends hab' ich nicht mehr auf der Platte (liegt nicht auf meiner 'Linie' ;-). Aber wie ihr ja selber heraus gefunden habt, ist es extrem CPU-limitiert. Und da machen Grafikkarten-Tests auch nicht wirklich Sinn.
Nur zur Info:
Es wurde hier jedes Spiel mit unterschiedlich schnellen GraKas und CPUs getestet.
Und wenn bei Spielen ne bessere CPU/GraKa (fast) nichts bringt, warum schadet diese Information?
Und eines ist doch echt eine Binsenweisheit: Benchmarks sind für Cross-Plattform-Vergleiche NICHT geeignet!
Schreib' ich schon seit Jahren, aber schön, dass ihr es nun auch heraus gefunden habt...
(ein bischen Polemik ist schon dabei ;-)
Schon klar.
Alles was manchen schon bekannt ist, darf man nicht mehr breit treten. ;)
Ja, ich stimme mit Leo überein, dass dies sicher noch nicht der Weishiet letzter Schluss war!
(und ich weiß, dass er es anders meinte ;-)
Ist es auch so wie du meintest sicher nicht. ;)
Da gibts noch viel zu optimieren, auch wenn da viel an den Spieleentwicklern hängt.
Gaestle
2006-01-25, 10:49:19
Das habe ich mit meinem vorigem Post nicht ausgesagt.
Es wurde eigentlich nur das von GTL darauf getrimmt.
Dennoch - das muß ich zugeben - hat diese Methodik einen gewissen Nachteil. Die Meßungenauigkeit.
Während sie bei TDs - gerade mit den avg fps - nur bei ~0,5% liegen, liegt die bei den Savegames schon bei grob 2%.
Sorry, dass ich Euch dann jetzt so auf die Füße trete, und bei allem Respekt für die Arbeit und den Aufwand, denn Ihr betrieben habt. Aber da werden ja dann Äpfel mit Birnen bzw. Bananen mit Melonen verglichen oder eben Punkrock mit Jazz.
Wie kann man denn einmal ein Durchschnitts-szenario (Timedemos) nehmen und ein ander mal speziell ausgesuchte Worst-Case-Szenarien und dann von beiden den Durchschnitt vergleichen wollen? Rein inhaltlich scheint mir doch, dass ein Vergleich des Worst-Case-Durchschnitts mit dem Durchschnitts-Timedemo-Minimum angebracht ist, weil dass Minimum im Durchschnitts-Timedemo ja ebenfalls eher einen Worst-Case demonstriert, als das gesamt Timedemo selbst.
Wenn man sich beim Punkrock nur Lieder aussucht, die wirklich nur drei Akkorde haben und dann einen Komplexitätsvergleich mit Mozart bringt (ist ja auch Mozart-Jahr ;) ), dann ist es doch kein Wunder, dass Mozart rein musikalisch komplexer ist. Wo ist dann der Erkenntnisgewinn? Dass Mozart mehr Akkorde/Grundtöne benutzt? Dazu bräuchte es nicht einen aufwändigen Vergleich.
Genauso reduziert sich dann Eure Aussage auf: "im Worst-Case sind die fps geringer, als im Durchschnitt". Was ist daran neu? Die Absicht, nämlich einen Unterschied zwischen Real-Life und Timedemo aufzuzeigen, wird nach meiner persönlichen Auffassung total verfehlt. Dies hätte man nur dann erreicht, wenn man die Worst-Case savegames mit den Worst-Cases im Temedemo vergleicht. Und dies sind IMHO die Timedemo-minima und nicht der Durchschnitt. Alternativ könnte man versuchen sich als savegame eine bestimmte Durchschnittssequenz suchen (und eben nicht den Worst-Case = Real-Life-Minima), und dann könnte man auch Savegame-avg mit Timedemo-avg vergleichen. Vorher sollte man aber noch versuchen, den Fraps-Effekt zu ermitteln und ggf. rauszurechnen (allerdings möglichst transparent und nachvollziehbar).
So würde man IMHO zu einem Vergleich zwischen Äpfeln kommen und nicht mittendrin die Obstsorte wechseln.
Bitte bitte, nicht persönlich nehmen, vielleicht verstehe ich's ja auch einfach nicht.
Grüße
Leonidas
2006-01-25, 11:42:19
Das finde ich mal lustig. Keine Fehler, die dann aber gefixt. :)
Woran lag's denn?
Q
Ein Link weiter vorn im Text, der nicht sauber geschlossen wurde.
ezzemm
2006-01-25, 12:23:47
Zitat:
Zitat von ][immy
der artikel ist zwar interessant, aber um ein objektives Bild zu erhalten sollte man doch schon mehr sekunden (z.B. 30 und die ersten 5-10 sekunden nicht) testen. Auch wenn durch die spielweise unterschiede auftreten sollte diese nicht allzu gravierend auffallen können, wenn man immer in etwa das gleiche macht.
Für einen genaueren Vergleich sind aber die Abweichungen zu hoch wenn man selber an dem Ablauf noch mitwirkt.
Das ist natürlich nicht optimal, aber jede interaktion verfälscht die Werte.
Der Autor sollte vor seiner nächsten Bench-Reihe mal folgendes Versuchen:
In dem Spiel (z.B. Quake4) aktiviert man den God-Mode und macht einen Save.
Dieses Save wird geladen und dann auf kürzestem Weg durch mehrere Räme gelaufen. Während dem Laufen wird ein Magazin der z.B. Plasmaknarre geleert. Die KI lässt man auf sich reagieren, beachtet sie aber nicht weiter.
Wenn du dann diese 1-2minütige Sequenz fünfmal wiederholst und dann die Avg-FPS miteinander vergleichst wirst du feststellen, die Standardabweichung gering genug ist, um dies als reproduzierenden Benchmark einzusetzen.
Madkiller
2006-01-25, 15:31:59
Sorry, dass ich Euch dann jetzt so auf die Füße trete, und bei allem Respekt für die Arbeit und den Aufwand, denn Ihr betrieben habt. Aber da werden ja dann Äpfel mit Birnen bzw. Bananen mit Melonen verglichen oder eben Punkrock mit Jazz.
Das ist IMO nur ein Mißverständniss.
Ich versuche es mal auszuräumen:
Wie kann man denn einmal ein Durchschnitts-szenario (Timedemos) nehmen und ein ander mal speziell ausgesuchte Worst-Case-Szenarien und dann von beiden den Durchschnitt vergleichen wollen?
Es wurden alle Werte miteinander verglichen.
Also TD-min, TD-avg und SG-avg.
Genauso reduziert sich dann Eure Aussage auf: "im Worst-Case sind die fps geringer, als im Durchschnitt". Was ist daran neu?
Warum das Fazit des Artikels ist, daß man Timedemos nicht bedingungslos vertrauen soll, hängt nicht damit zusammen, daß die absoluten fps höher sind.
Das ist ja absolut einleuchtend und auch nicht sonderlich überraschend, da ja viele Dinge (KI/Phsyik/etc) nicht berechnet werden müssen.
Auch was:
Wenn wir das hätten aussagen wollen, wäre es falsch gewesen, von dem Savegame und von der min fps Szene Screenshot in den Artikel einzufügen.
Dadurch das die drin sind, läßt sich ja ganz leicht sagen, daß ein (Groß)Teil der wenigeren fps darauf zurück zuführen ist, daß einfach mehr los ist.
Das neue ist etwas ganz anderes:
*Eine bessere CPU bringt in den Savegames verhältnissmäßig viel mehr, als in den Timedemos.
Beispiel: von 3000+ auf 3800+ 18% mehr min fps bei GTL und absoluter CPU-Limitierung. Trotzdem sind es im Savegame 33% - fast das Doppelte.
*Die fps steigen bei dem Verzicht von 4xFSAA praktisch in jedem Spiel in den Savegames stärker an, als in den Timedemos
Beispiel: Quake 4 wo man in dem SG 3x mehr fps beim Verzicht auf 4xFSAA gewinnt, als nach den min fps aus der Timedemo. Bei FEAR ist der Unterschied zwar "nur" noch weit über dem 2fachen aber immer noch sehr deutlich.
Wir sagen ja nicht einmal, daß das immer so sein muß...
Aber was für eine Aussagekraft haben Timdemos dann diesbezüglich, wenn man nur sagen kann: "Die Unterschiede der Wert können stimmen, sie können aber genauso gut um den Faktor 2 oder höher abweichen."?
][immy
2006-01-25, 15:45:55
Wir sagen ja nicht einmal, daß das immer so sein muß...
Aber was für eine Aussagekraft haben Timdemos dann diesbezüglich, wenn man nur sagen kann: "Die Unterschiede der Wert können stimmen, sie können aber genauso gut um den Faktor 2 oder höher abweichen."?
wirklich sinnvoll sind die savegame-tests die ihr durchgeführt habt aber auch nur dann, wenn man 2 unterschiedliche systeme testen will. In diesem fall sind sie wirklich gut zum vergleich geeignet, obwohl man das testing vielleicht noch ein wenig verbessern sollte
wenn es nur darum geht 2 prozessoren oder grafikkarten miteinander zu vergleichen reichen meines erachtens die Timedemos von den jeweils cpu- oder gpu-limitierten spielen völlig aus. wieviel die neuen komponenten dann im eigenen pc bringen sollte wohl jeder selbst einschätzen können.
Gaestle
2006-01-25, 16:09:40
Das ist IMO nur ein Mißverständniss.
I
Das neue ist etwas ganz anderes:
*Eine bessere CPU bringt in den Savegames verhältnissmäßig viel mehr, als in den Timedemos.
Beispiel: von 3000+ auf 3800+ 18% mehr min fps bei GTL und absoluter CPU-Limitierung. Trotzdem sind es im Savegame 33% - fast das Doppelte.
*Die fps steigen bei dem Verzicht von 4xFSAA praktisch in jedem Spiel in den Savegames stärker an, als in den Timedemos
Beispiel: Quake 4 wo man in dem SG 3x mehr fps beim Verzicht auf 4xFSAA gewinnt, als nach den min fps aus der Timedemo. Bei FEAR ist der Unterschied zwar "nur" noch weit über dem 2fachen aber immer noch sehr deutlich.
Wir sagen ja nicht einmal, daß das immer so sein muß...
Aber was für eine Aussagekraft haben Timdemos dann diesbezüglich, wenn man nur sagen kann: "Die Unterschiede der Wert können stimmen, sie können aber genauso gut um den Faktor 2 oder höher abweichen."?
Ich glaube, ich hab's begriffen. Danke.
Für mich sah' es danach aus, als wolltet Ihr eine Kritik an der Verwendung von Timedemos bringen und zwar in der Art, dass Timedemos die erreichbaren fps bei CPU-limitierten Games systematisch überschätzen.
Nun stimmt der kritische Ansatz wohl, allerdings geht's Euch nicht um den systematischen Schätzfehler, sondern um den relativen Zuwachs bei einer Steigerung der CPU-Leistung. Richtig?
Naja, kleines Zitat von Soziofuzzi:
Gut, dass wir drüber geredet haben...
Was mir aber noch schleierhaft ist, was die CPU-Last mit dem fps-Gewinn bei Verzicht auf FSAA zu tun haben soll. Dass sich das auf die CPU auswirkt, schließe ich daraus, dass die relative Veränderung durch die Steigerung der CPU-Leistung auch bei grafiklimitierten Sachen durch das Timedemo unterschätzt wird. Was verändert sich für die CPU?
Madkiller
2006-01-25, 16:30:14
Richtig?
Jap. :)
Was mir aber noch schleierhaft ist, was die CPU-Last mit dem fps-Gewinn bei Verzicht auf FSAA zu tun haben soll. Dass sich das auf die CPU auswirkt, schließe ich daraus, dass die relative Veränderung durch die Steigerung der CPU-Leistung auch bei grafiklimitierten Sachen durch das Timedemo unterschätzt wird. Was verändert sich für die CPU?
Die CPU hat damit garnichts zu tun.
Bei den Beispielen die ich oben genannt habe, haben zu 100% die GraKas limitiert. Ich kann aber auch nicht erklären, warum die fps-Einbrüche so unterschiedlich sind.
Hm - interessanter Vergleich, leider ein bischen wie Äpfel und Birnen ;)
Das die Performance von mitgelieferten Timedemos nicht immer den realen Framerate-Verlauf des Games wiederspiegelt, ist ja nix neues. Es gibt in vielen Games stellen, wo die Perfromance zusammenbricht.
Folgendes Szenario wäre doch mal interessant: Im Game eine Stelle aussuchen, an ders langsam wird und die saven. Das Savegame mit Fraps wieterspielen und dabei eine Demo aufnehmen. Dann könnte man die von Fraps aufgezeichneten Werte mit denen eines Timedemos der gleiche Szene vergleichen und hätte eine qualitative Aussage über den Nutzen von Timedemos...
Hoffe, keiner ist vor mir hier auf die Idee gekommen, wenn, dann SORRY fürs kopieren :)
Hi,
wie habt ihr denn Quake 4 getestet? Mit einer normalen Timedemo, oder mit einer Nettimedemo? Die normale Timedemo ist laut id nicht besonders gut für Benchmarking geeignet:
http://www.amdzone.com/modules.php?op=modload&name=News&file=article&sid=4745&mode=thread&order=0&thold=0
Folgendes Szenario wäre doch mal interessant: Im Game eine Stelle aussuchen, an ders langsam wird und die saven. Das Savegame mit Fraps wieterspielen und dabei eine Demo aufnehmen. Dann könnte man die von Fraps aufgezeichneten Werte mit denen eines Timedemos der gleiche Szene vergleichen und hätte eine qualitative Aussage über den Nutzen von Timedemos...Gute Idee, aber verursacht die Aufzeichnung eines Timedemo nicht zusätzliche CPU- Last?
RavenTS
2006-01-29, 11:59:48
Gute Idee, aber verursacht die Aufzeichnung eines Timedemo nicht zusätzliche CPU- Last?
Wie bereits geschrieben wurde in der neueren Version nur wenige Prozent, die Hauptlast tragen wohl eher die Festplatten, die da hinterherkommen müssen...
Zu letzten Frage: Das Problem eine Timedemo-Szene zu spielen, liegt wohl darin, dass man deren Bewegungen nicht einfach so nachmachen kann, da beispielsweise Gegner im "Weg" sind, da müsste man dann schon cheaten und wie die Gegner dann reagieren...
Jap. :)
Die CPU hat damit garnichts zu tun.
Bei den Beispielen die ich oben genannt habe, haben zu 100% die GraKas limitiert. Ich kann aber auch nicht erklären, warum die fps-Einbrüche so unterschiedlich sind.
FSAA braucht viel mehr VRAM. Ins VRAM gehören z.B. schon die Texturen angrenzender Räumlichkeiten, damit man beim Öffnen einer Tür nicht plötzlich glaubt, Resident Evil zu zocken. Im Timedemo ist hingegen bekannt, welche Türen geöffnet werden (bzw. welcher Weg gegangen/gefahren wird) und welche nicht, also auch, welche Texturen tatsächlich gebraucht werden. Mehr freies VRAM, weniger Nachgelade, mehr FPS. Mehr VRAM bringt beim Zocken also viel mehr als beim Timedemo-Schwanzvergleich. Was das vermeintlich bessere Preis-Leistungs-Verhältnis von Midrangegrakas übrigens auch aushebelt, obwohl die kaum zum Schwanzvergleich gebaut werden. Aber auch deswegen gekauft, was uns Späße wie "Pseudo16xAF mit Quasipointsamplingtexeln" eingebracht hat.
RavenTS
2006-01-30, 00:18:39
FSAA braucht viel mehr VRAM. Ins VRAM gehören z.B. schon die Texturen angrenzender Räumlichkeiten, damit man beim Öffnen einer Tür nicht plötzlich glaubt, Resident Evil zu zocken. Im Timedemo ist hingegen bekannt, welche Türen geöffnet werden (bzw. welcher Weg gegangen/gefahren wird) und welche nicht, also auch, welche Texturen tatsächlich gebraucht werden. Mehr freies VRAM, weniger Nachgelade, mehr FPS. Mehr VRAM bringt beim Zocken also viel mehr als beim Timedemo-Schwanzvergleich. Was das vermeintlich bessere Preis-Leistungs-Verhältnis von Midrangegrakas übrigens auch aushebelt, obwohl die kaum zum Schwanzvergleich gebaut werden. Aber auch deswegen gekauft, was uns Späße wie "Pseudo16xAF mit Quasipointsamplingtexeln" eingebracht hat.
Bist du dir da sicher? Bei nem Timedemo wird doch meistens nur die Kamera entlang einer bestimmten Route gefahren... :confused:
Bei selbsterstellten Timedemos kann allerdings alles mögliche passieren. Die "Schummelmöglichkeiten" hängen also ganz vom genutzten Timedemo ab.
Ach ja, spätestens beim zweiten Durchlauf kennt der Treiber im Zweifelsfall die Timedemo und somit auch benötigte Texturen. Der erste Durchlauf ist also entscheidend.
sloth9
2006-01-30, 01:47:52
FSAA braucht viel mehr VRAM. Ins VRAM gehören z.B. schon die Texturen angrenzender Räumlichkeiten, damit man beim Öffnen einer Tür nicht plötzlich glaubt, Resident Evil zu zocken. Im Timedemo ist hingegen bekannt, welche Türen geöffnet werden (bzw. welcher Weg gegangen/gefahren wird) und welche nicht, also auch, welche Texturen tatsächlich gebraucht werden. Mehr freies VRAM, weniger Nachgelade, mehr FPS. Mehr VRAM bringt beim Zocken also viel mehr als beim Timedemo-Schwanzvergleich. Was das vermeintlich bessere Preis-Leistungs-Verhältnis von Midrangegrakas übrigens auch aushebelt, obwohl die kaum zum Schwanzvergleich gebaut werden. Aber auch deswegen gekauft, was uns Späße wie "Pseudo16xAF mit Quasipointsamplingtexeln" eingebracht hat.
Lötzinn.
sloth9
2006-01-30, 01:51:55
Warum bencht eigentlich keiner Warcraft3? Dessen Timedemos enthalten nur die Maus- und Tastatureingaben der Spieler, d.h. KI der Einheiten, Wegfindung, Creeps (neutrale Monster) etc. werden in Echtzeit berechnet.
Die gemessene Performance ist also quasi "real life".
Warum speichern eigentlich nicht mehr Games Timedemos auf diese Weise?
Kannst du den "Lötzinn" auch argumentativ untermauern?
WC3 benchen hört sich gar nicht so schlecht an, braucht aber kräftig SSAA, um auf aktuellen Karten auch an deren Leistung zu hängen, sonst stresst man nur die CPU, und die auch nur bei kräftiger Untertaktung.
FSAA braucht viel mehr VRAM. Ins VRAM gehören z.B. schon die Texturen angrenzender Räumlichkeiten, damit man beim Öffnen einer Tür nicht plötzlich glaubt, Resident Evil zu zocken. Im Timedemo ist hingegen bekannt, welche Türen geöffnet werden (bzw. welcher Weg gegangen/gefahren wird) und welche nicht, also auch, welche Texturen tatsächlich gebraucht werden. Mehr freies VRAM, weniger Nachgelade, mehr FPS.Natürlich braucht Multisammpling in hohen Auflösungen einige zehn MB, das allein scheint mir aber für *diese* Differenz nicht ausreichend. Das kann man aber feststellen,. Wenn das stimmt, dürfte das Problem bei 512- MB- Karten sehr viel geringer ausfallen. Und bei Spielen, die mit deutlich weniger als 256 MB auskommen, müsste es auch auch auf 256- MB- Karten deutlich weniger dramatisch sein.
...über 120 MB. Das sind schon mehr als "einige zehn".
Q
Madkiller
2006-01-30, 16:35:13
Hi,
wie habt ihr denn Quake 4 getestet? Mit einer normalen Timedemo, oder mit einer Nettimedemo? Die normale Timedemo ist laut id nicht besonders gut für Benchmarking geeignet:
http://www.amdzone.com/modules.php?op=modload&name=News&file=article&sid=4745&mode=thread&order=0&thold=0
Normalen Timedemo....
Ah, interessant. :)
Warum bencht eigentlich keiner Warcraft3?
Weil der Großteil dieses Spiel nicht (mehr) spielt.
Kannst du den "Lötzinn" auch argumentativ untermauern?
Würde mich auch interessieren...
Die Erklärung würde nämlich halbwegs ins Bild passen.
Denn zumindest bei FEAR scheint in dem TD die Bandbreite des RAM weniger stark ausgenutzt zu werden, als im Spiel selbst:
Während bei dem Performance-Test eine X800XT-PE ggü ner X800XL bei 4xFSAA schon 17-19% bringt sind es im Savegame nur noch 12-14%.
Die XT-PE hat zwar 30% mehr GPU-Takt, aber nur 14% mehr RAM-Takt als die XL.
sloth9
2006-01-30, 18:43:54
Kannst du den "Lötzinn" auch argumentativ untermauern?
WC3 benchen hört sich gar nicht so schlecht an, braucht aber kräftig SSAA, um auf aktuellen Karten auch an deren Leistung zu hängen, sonst stresst man nur die CPU, und die auch nur bei kräftiger Untertaktung.
Ich kenne kein Spiel, welches Custom-Timdedemos auf diese Weise vorausberechnet.
Kann man ja nachmessen (VRAM-Verbrauch während der Demo/Spiel protokollieren).
...über 120 MB. Das sind schon mehr als "einige zehn".Wie kommst du auf 120?
Ich kenne kein Spiel, welches Custom-Timdedemos auf diese Weise vorausberechnet.
Kann man ja nachmessen (VRAM-Verbrauch während der Demo/Spiel protokollieren).
Wer redet vom Spiel? Vom Treiber wird geredet, und der wird bestimmt nicht herausschreien, wie er bescheißt.
sloth9
2006-01-30, 22:09:55
Wer redet vom Spiel? Vom Treiber wird geredet, und der wird bestimmt nicht herausschreien, wie er bescheißt.
Wenn die Timedemo den Programmieren der Treiber nicht zugänglich ist, sind derartige Optimierungen schwer möglich.
Build-In-Timedemos von bekannten Spielen (FEAR z.B.) sind genauso mit Vorsicht zu genießen wie 3Dmark.
sloth9
2006-01-30, 22:10:47
Wer redet vom Spiel? Vom Treiber wird geredet, und der wird bestimmt nicht herausschreien, wie er bescheißt.
... und wie gesagt, den VRAM-Verbrauch kann man protokollieren, der lügt nicht.
ersterdings:
Ach ja, spätestens beim zweiten Durchlauf kennt der Treiber im Zweifelsfall die Timedemo und somit auch benötigte Texturen. Der erste Durchlauf ist also entscheidend.
zweiterdings:
... und wie gesagt, den VRAM-Verbrauch kann man protokollieren, der lügt nicht.
Genau, Treiber lügen genausowenig wie Politiker. Sagt dir Brilineare "Optimierung" und coloured MipMaps irgendwas?
sloth9
2006-01-31, 01:25:53
ersterdings:
zweiterdings:
Genau, Treiber lügen genausowenig wie Politiker. Sagt dir Brilineare "Optimierung" und coloured MipMaps irgendwas?
Kann man auch messen!
Sagt dir das Vidmem-Plugin vom Rivatuner irgendwas?
Schau Dir das mal an und gib mir ein Beispiel für ne gefakede Anzeige. :D
Ich kann da leider persönlich nix nachmessen, da ich seit geraumer Zeit mangels zockfähigem Rechenknecht nur rein theoretisch mitdiskutiere.
Aaaber:
Das da nix anormales angezeigt wird, beweist nicht, daß ich unrecht habe, sondern nur, das die Cheater mit paranoiden, alles nachprüfenden Klugscheißern wie meinereiner rechnen und sich daher, wie bei den coloured MipMaps, alle Mühe geben, mit ihrer Bescheißerei nicht aufzufallen. Daß man paranoid ist heißt noch lange nicht, daß nicht doch einer hinter einem her ist...
Wie erklärt du die Leistungsunterschiede bei GPU-Limitierung denn, wenn nicht wie ich? Da bin ich jetzt wirklich gespannt!
Ich bin immer noch wirklich gespannt! Bekomme ich irgendwann auch eine Antwort oder muß ich das Ausbleiben selbiger als Antwort verstehen?
Ach ja, spätestens beim zweiten Durchlauf kennt der Treiber im Zweifelsfall die Timedemo und somit auch benötigte Texturen. Der erste Durchlauf ist also entscheidend.
Der Treiber "kennt" Timedemos nur wenn ihm von den Programmierern beigebracht wurde wie er denn ein bestimmtes Timedemo erkennen und was er daran optimieren soll.
Richtig. Bei dem ganzen "Optimierungs"-Wahnsinn der IHVs ist aber davon auszugehen, daß dafür mehr Resourcen verbrannt werden, als in tatsächliche Optimierungen investiert.
Denn alles was zählt, ist die Länge des Balkens, jedenfalls für Otto-Normal-DAU. Außer, jene mit funktionsfähiger Denkmasse zwischen den Ohren, wie ihr zum Bleistift, machen Otto-Normal-DAU klar, daß die Balkenlänge (bis zu einem Grenzwert, der da "vsync" bzw. "Hertz" heißt) ein Faktor ist, aber nicht der alleinglückseligmachende.
Madkiller
2006-03-03, 17:51:49
Eben aus diesem Grunde wäre halt eine andere Karte als eure verwendeten auch sehr wünschenswert gewesen. Eine X800 XT-PE und X800 XL unterscheiden sich ja nicht so gravierend voneinander.
Es wäre toll, wenn ihr das vielleicht für zukünftige Artikel im Hinterkopf behalten könntet. Momentan habt ihr ja lediglich die Situation bei ATi-Karten beleuchtet.
Q
Habe dich nicht vergessen. :)
Habe den Vergleich aber nur für Quake4 und mit der X800XT-PE und der 6800Ultra.
Es waren zwar mehrere Vergleiche geplant, aber aus Zeitmangel und widrigen Umständen ist leider nur das übrig geblieben:
Quake4
Die Prozentwerte in Klammern geben immer den Einbruch zu 1280x1024 1xFSAA/16xAF an.
1280x1024 1xFSAA/16xAF
WorstCase-Savegame "normaleres"-Savegame Timedemo
X800XT-PE 26,20 35,07 55,80
6800ultra 32,93 30,80 46,80
Differenz: 26% pro GeForce 14% pro Radeon 19% pro Radeon
1280x1024 4xFSAA/16xAF
WorstCase-Savegame "normaleres"-Savegame Timedemo
X800XT-PE 10,00 (-62%) 14,33 (-59%) 27,40 (-51%)
6800ultra 16,20 (-51%) 17,93 (-42%) 28,90 (-38%)
Differenz: 62% pro GeForce 25% pro GeForce 5% pro GeForce
1600x1200 1xFSAA/16xAF
WorstCase-Savegame "normaleres"-Savegame Timedemo
X800XT-PE 18,73 (-29%) 26,47 (-25%) 43,00 (-23%)
6800ultra 26,33 (-20%) 24,53 (-20%) 36,60 (-22%)
Differenz: 41% pro GeForce 8% pro Radeon 17% pro Radeon
Ich habe zwar ein anderes Timedemo verwendet, bei dem die Einbrüche bei z.B. 4xFSAA zwischen den SGs und dem TD deutlich kleiner - aber dennoch vorhanden - sind. Die Tendenz ist zumindest dahingehend, daß die Radeon anscheinend aufholen kann, wenn mehr fps erreicht werden können.
Richtig deutlich sind die Unterschiede zwischen X800XT-PE und 6800Ultra...
Während die 6800Ultra sich beim WorstCase-Savegame (WC-SG) noch sehr deutlich absetzen kann, wird der Vorsprung beim ""normaleres"-Savegame" schon deutlich kleiner, und bei dem Timedemo (TD) ist im Durchschnitt die X800XT-PE schneller. Die 6800Ultra verliert also ~60% zur X800XT-PE von WC-SG zu TD.
Eine Vermutung:
Ich glaube inzwischen nicht mehr, daß die unterschiedlichen Werte zwischen SG und TD nur damit zusammen hängen, daß beim TD etwas anders berechnet wird, sondern eher, daß sich die GraKas unterschiedlich verhalten, wenn die Szene ansich stressiger ist und die fps sinken.
Es ist inzwischen ein neuer Artikel von mir geplant, der genau darauf eingeht soll, wann welche GraKa schneller ist. Ich bin recht zuversichtlich, daß es dann auch (konkrete) Hinweise gibt, wie die unterschiedlichen Werte zustande kommen. Bis dahin wäre alles IMO nur Spekulation. :)
Ausgezeichnet, daß ihr euch an Ungereimtheiten festbeißt. Investigativen Journalismus liest man wesentlich lieber als Propaganda. Zusätzlich zu Standard-TDs wären für jeden weiteren Test neu erstellte TDs interessant, um herauszufinden, ob nur bekannte TDs "optimiert" werden oder gar schon bei manchem Spiel eine generische Erkennung jeglicher TDs und automatische "Optimierung" derjenigen ab dem zweiten Durchlauf stattfindet.
Bzw. vielmehr: War die neue TD nur eine andere Standard-TD, oder schon eine selbst erstellte? Bei enorm hoher Last könnte natürlich auch noch was anderes im Busch sein...
Wenngleich ich schon jetzt ungeduldig auf den nächsten Artikel warte - gut Ding will Weile haben. Wer weiß schon, wie viele "Optimierungs-"Mechanismen so ein Treiber kennt?
Madkiller
2006-03-03, 18:54:13
Bei Q4 gibt es AFAIK keine wirkliche "Standard-TD".
Es war eine selbst erstellte.
Aber wie man bei der bei diesem Artikel verwendeten TD sehen konnte, sind die Unterschiede zwischen diesen beiden TDs deutlich.
Ich werde dann für den nächsten Artikel auch mehrere TDs gleichzeitig nutzen.
Aber es kann ein paar Wochen dauern. Ich kann da noch nichts versprechen.
Madkiller
2006-03-06, 15:43:06
Ich bitte um rege Teilnahme: :)
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=4049277#post4049277
Eventuell habe ich eine mathematische Begründung dafür gefunden, warum Timedemo-Ergebnisse systematisch von Echtzeit-Messungen abweichen. Ich bin mir nicht ganz sicher, ob da nicht ein Denkfehler drin ist. Daher bin ich gespannt, was ihr davon haltet.
Heute habe ich mit einigen Half Life 2 Demos experimentiert. Das kann man im entsprechenden Thread nachlesen. Dabei lieferte die Timedemo-Funktion zu niedrige Werte. Da die Systeme auf denen die Demos aufgezeichnet wurden sehr unterschiedlich aufgebaut waren, wirkte sich das auch auf die Struktur der Demos aus.
Eine Demo enthält die Frames, so wie beim Aufzeichnen berechnet wurden. Die Timedemo-Funktion lässt dann genau diese Frames berechnen, ohne die Zeit dabei zu berücksichtigen. Jeder Frame wird dabei gleich behandelt, egal wie schwer es ist ihn zu berechnen. Die Frames werden einfach abgearbeitet und dann wird die Zeit gemessen, die dafür benötigt wurde.
Nun habe ich mir überlegt, ob nicht diese unterschiedlich schweren Frames zu Verschiebungen führen können. An einer Stelle mit niedriger Framerate werden wenige Frames aufgezeichnet, bei hoher Framerate viele. Und das obwohl womöglich die gleiche Zeit verstrichen ist. Aber für die Timedemo-Funktion sind die Frames gleichverteilt.
Um diese Idee zu testen, habe ich mir ein paar Zahlenbeispiele überlegt und dann einfach mal ausgerechnet, was denn dann passiert (siehe Tabelle).
Wir nehmen eine zwei Sekunden lange Spielsituation zweimal auf. System A berechnet in der ersten Sekunde 30 Frames und in der zweiten 90. System B nimmt das gleiche mit konstant 30 fps auf. Danach spielen wir die Demo auf drei anderen unterschiedlichen Systemen ab. Zunächst in Echtzeit und danach als Timedemo. Das heißt bei "Abspielen" ist der Vorgang zeitbasiert und bei "Timedemo" framebasiert.
Zum Beispiel schafft das System 1 in der ersten Sekunde des Szenarios 30 Frames und in der zweiten 45. Das bedeutet in der Spielsituation würde System 1 insgesamt 75 Frames in zwei Sekunden berechnen (37.5 fps). Aber wenn man das ganze als Timedemo von Demo 1 berechnen lässt, müssen alle 120 Frames abgearbeitet werden: 30 Frames + 45 Frames + 45 Frames. Dazu benötigt das System 1 drei Sekunden. Eine für die 1. Demo-Sekunde und zwei für die 2. Demo-Sekunde. Also 120 Frames in drei Sekunden (40 fps). Dieser Fall könnte eventuell auch erklären, warum die Timedemo Ergebnisse mit Anti-Aliasing besser werden. Hohe Frameraten sinken etwas, aber in der Demo sind die entsprechenden Frames noch gehäuft vertreten und werden dann in der Timedemo zu oft berechnet.
1. Demo-Sekunde 2. Demo-Sekunde Frames [f] / Zeit [s] = Framerate [fps]
----------------------------------------------------------------------------------------------------------
Demo 1 Aufnahme (System A): 30 frames 90 frames (30+90) f / 2 s = 60.0 fps
----------------------------------------------------------------------------------------------------------
Demo 1 Abspielen (System 1): 30 frames 45 frames (30+45) f / 2 s = 37.5 fps
Demo 1 Timedemo (System 1): 30 frames 2*45 frames (30+90) f / 3 s = 40.0 fps
----------------------------------------------------------------------------------------------------------
Demo 1 Abspielen (System 2): 30 frames 180 frames (30+180) f / 2 s = 105.0 fps
Demo 1 Timedemo (System 2): 30 frames 90 frames (30+90) f / 1.5 s = 80.0 fps
----------------------------------------------------------------------------------------------------------
Demo 1 Abspielen (System 3): 15 frames 30 frames (15+30) f / 2 s = 22.5 fps
Demo 1 Timedemo (System 3): 2*15 frames 3*30 frames (30+90) f / 5 s = 24.0 fps
----------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------
Demo 2 Aufnahme (System B): 30 frames 30 frames (30+30) f / 2 s = 30.0 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 1): 30 frames 45 frames (30+45) f / 2 s = 37.5 fps
Demo 2 Timedemo (System 1): 30 frames 30 frames (30+30) f / 1.66 s = 36.0 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 2): 30 frames 180 frames (30+180) f / 2 s = 105.0 fps
Demo 2 Timedemo (System 2): 30 frames 30 frames (30+30) f / 1.16 s = 51.4 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 3): 15 frames 30 frames (15+30) f / 2 s = 22.5 fps
Demo 2 Timedemo (System 3): 2*15 frames 30 frames (30+30) f / 3 s = 20.0 fps
----------------------------------------------------------------------------------------------------------
Heute nachmittag hatte ich noch gehofft, dass eine mit konstanter Framerate aufgezeichnete Demo dem Ungleichgewicht etwas entgegenwirken könnte. Aber dadurch wird es anscheinend nur noch schlimmer.
Piffan
2006-03-11, 00:24:27
Richtig. Bei dem ganzen "Optimierungs"-Wahnsinn der IHVs ist aber davon auszugehen, daß dafür mehr Resourcen verbrannt werden, als in tatsächliche Optimierungen investiert.
Denn alles was zählt, ist die Länge des Balkens, jedenfalls für Otto-Normal-DAU. Außer, jene mit funktionsfähiger Denkmasse zwischen den Ohren, wie ihr zum Bleistift, machen Otto-Normal-DAU klar, daß die Balkenlänge (bis zu einem Grenzwert, der da "vsync" bzw. "Hertz" heißt) ein Faktor ist, aber nicht der alleinglückseligmachende.
Was genau meinst Du mit dem Grenzwert?
Dass eine Graka nicht schneller rendern muss, als der Monitor synchronisiert ist? Oh, oh, schwerer Denkfehler..... :cool:
Wenn man Vsync aktiviert, dann ist zu wünschen, dass die Graka IMMER mehr FPS liefern kann als der Vsyn- Frequenz entspricht. Denn unterhalb der Vsync wird das Spielerlebnis doch recht holperig. Es sei denn, dass sich Triple- Buffer aktivieren läßt. Klappt dummerweise nicht immer.
Vor allem: Man kann nie genug Dampf unter der Haube haben. Es gibt Situationen, die überfordert selbst die schnellste Graka bei schöner Bildqualität, sprich hoher Auflösung (großer TFT), AA und AF......Daher haben die Balkenlängen an sich nix mit DAU- Fang zu tun, eher die Auswahl der Benches.......
Was genau meinst Du mit dem Grenzwert?
Dass eine Graka nicht schneller rendern muss, als der Monitor synchronisiert ist? Oh, oh, schwerer Denkfehler..... :cool: Je nach Monitorfrequenz kann es sehr wohl unsinnig sein. Auf einem 100Hz-Monitor wirken 50fps, auf die das System bei klugen Einstelllungen im schlimmsten Falle einbricht, immer noch absolut flüssig, viel mehr Rechenleistung als für 100fps braucht man dort nicht. Leicht über Vsync sollte das Leistungspotenzial schon sein, oft genug werden bei Tests aber den Lesern auch Balken weit jenseits der höchsten Vsyncs noch als Kaufentscheidungsmerkmal angeboten.
Wenn man Vsync aktiviert, dann ist zu wünschen, dass die Graka IMMER mehr FPS liefern kann als der Vsyn- Frequenz entspricht. Denn unterhalb der Vsync wird das Spielerlebnis doch recht holperig. Es sei denn, dass sich Triple- Buffer aktivieren läßt. Klappt dummerweise nicht immer.Triple-Buffering erzeugt erstens Mikroruckeln und läßt zweitens die Latenz wachsen. Man sollte die Einstellungen so wählen, daß man auch ohne TB konstante fps=Vsync erreicht, dann sind Latenzen(=Spielbarkeit) und Optik so konstant und flüssig als irgend möglich.
Vor allem: Man kann nie genug Dampf unter der Haube haben. Es gibt Situationen, die überfordert selbst die schnellste Graka bei schöner Bildqualität, sprich hoher Auflösung (großer TFT), AA und AF......Daher haben die Balkenlängen an sich nix mit DAU- Fang zu tun, eher die Auswahl der Benches.......Die Einstellungen sollte man stets am Worst-Case-Szenario ausrichten, dann bleibt es immer flüssig. Wie viele Leute kennst du, die ihren CRT bei unterirdischen Auflösungen mit wahnwitzigen Hz-Raten weit jenseits der 100 betreiben? Nur für die ist es nämlich interessant, ob 300fps oder "nur" 200fps erreicht werden. Außerdem werden NV-Karten bei Vsync=off-Tests mit aktivem MSAA unfair bevorteilt, da einiges an Belastung nur pro angezeigtem Frame anfällt, 300 Vsync=off-fps bedeuten also mitnichten, daß diese 300fps bei aktivem Vsync und 300Hz Monitorfrequenz auch erreicht werden können. Wobei ich es eh für hirntot halte, zuerst MSAA für ein besseres Bild zuzuschalten um das Bild anschließend durch Deaktivierung des Vsync komplett zu ruinieren.
Madkiller
2006-03-11, 09:06:23
Eventuell habe ich eine mathematische Begründung dafür gefunden, warum Timedemo-Ergebnisse systematisch von Echtzeit-Messungen abweichen. Ich bin mir nicht ganz sicher, ob da nicht ein Denkfehler drin ist. Daher bin ich gespannt, was ihr davon haltet.
Heute habe ich mit einigen Half Life 2 Demos experimentiert. Das kann man im entsprechenden Thread nachlesen. Dabei lieferte die Timedemo-Funktion zu niedrige Werte. Da die Systeme auf denen die Demos aufgezeichnet wurden sehr unterschiedlich aufgebaut waren, wirkte sich das auch auf die Struktur der Demos aus.
Eine Demo enthält die Frames, so wie beim Aufzeichnen berechnet wurden. Die Timedemo-Funktion lässt dann genau diese Frames berechnen, ohne die Zeit dabei zu berücksichtigen. Jeder Frame wird dabei gleich behandelt, egal wie schwer es ist ihn zu berechnen. Die Frames werden einfach abgearbeitet und dann wird die Zeit gemessen, die dafür benötigt wurde.
Nun habe ich mir überlegt, ob nicht diese unterschiedlich schweren Frames zu Verschiebungen führen können. An einer Stelle mit niedriger Framerate werden wenige Frames aufgezeichnet, bei hoher Framerate viele. Und das obwohl womöglich die gleiche Zeit verstrichen ist. Aber für die Timedemo-Funktion sind die Frames gleichverteilt.
Jap, das war mir auch schon aufgefallen. :)
Wie du schon sagtest:
Tendenziell werden bei einem framebasiertem Timedemo die niedrigen fps stärker gewichtet.
So wird z.B. ein Frame mit 1fps 100x stärker gewichtet, als ein Frame, das 100fps hat.
Aber bei diesem Artikel hatte ich das bei Quake 4 - zumindest bei den Frameverläufen - umgangen.
Ich habe dort nämlich mit Fraps nicht die "Frames per Seconds" sondern die "Frametimes" in ms aufgezeichnet. Dann habe ich immer aus dem Durchschnitt von 30 aufeinander folgenden Werten einen "Sekundenwert" errechnet.
Deswegen sind bei Quake4 die Frameverläufe auch immer gleich lang, da die langsamen Szenen nicht künstlich gestreckt, und die schnellen Szenen nicht künstlich gestaucht wurden.
Aber hier waren die Werte aus einer TD eigentlich immer zu hoch, und nicht zu niedrig - wie es ja Tendenziell bei einer TD sein müßte.
Um diese Idee zu testen, habe ich mir ein paar Zahlenbeispiele überlegt und dann einfach mal ausgerechnet, was denn dann passiert (siehe Tabelle).
Wir nehmen eine zwei Sekunden lange Spielsituation zweimal auf. System A berechnet in der ersten Sekunde 30 Frames und in der zweiten 90. System B nimmt das gleiche mit konstant 30 fps auf. Danach spielen wir die Demo auf drei anderen unterschiedlichen Systemen ab. Zunächst in Echtzeit und danach als Timedemo. Das heißt bei "Abspielen" ist der Vorgang zeitbasiert und bei "Timedemo" framebasiert.
Zum Beispiel schafft das System 1 in der ersten Sekunde des Szenarios 30 Frames und in der zweiten 45. Das bedeutet in der Spielsituation würde System 1 insgesamt 75 Frames in zwei Sekunden berechnen (37.5 fps). Aber wenn man das ganze als Timedemo von Demo 1 berechnen lässt, müssen alle 120 Frames abgearbeitet werden: 30 Frames + 45 Frames + 45 Frames. Dazu benötigt das System 1 drei Sekunden. Eine für die 1. Demo-Sekunde und zwei für die 2. Demo-Sekunde. Also 120 Frames in drei Sekunden (40 fps). Dieser Fall könnte eventuell auch erklären, warum die Timedemo Ergebnisse mit Anti-Aliasing besser werden. Hohe Frameraten sinken etwas, aber in der Demo sind die entsprechenden Frames noch gehäuft vertreten und werden dann in der Timedemo zu oft berechnet.
1. Demo-Sekunde 2. Demo-Sekunde Frames [f] / Zeit [s] = Framerate [fps]
----------------------------------------------------------------------------------------------------------
Demo 1 Aufnahme (System A): 30 frames 90 frames (30+90) f / 2 s = 60.0 fps
----------------------------------------------------------------------------------------------------------
Demo 1 Abspielen (System 1): 30 frames 45 frames (30+45) f / 2 s = 37.5 fps
Demo 1 Timedemo (System 1): 30 frames 2*45 frames (30+90) f / 3 s = 40.0 fps
----------------------------------------------------------------------------------------------------------
Demo 1 Abspielen (System 2): 30 frames 180 frames (30+180) f / 2 s = 105.0 fps
Demo 1 Timedemo (System 2): 30 frames 90 frames (30+90) f / 1.5 s = 80.0 fps
----------------------------------------------------------------------------------------------------------
Demo 1 Abspielen (System 3): 15 frames 30 frames (15+30) f / 2 s = 22.5 fps
Demo 1 Timedemo (System 3): 2*15 frames 3*30 frames (30+90) f / 5 s = 24.0 fps
----------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------
Demo 2 Aufnahme (System B): 30 frames 30 frames (30+30) f / 2 s = 30.0 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 1): 30 frames 45 frames (30+45) f / 2 s = 37.5 fps
Demo 2 Timedemo (System 1): 30 frames 30 frames (30+30) f / 1.66 s = 36.0 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 2): 30 frames 180 frames (30+180) f / 2 s = 105.0 fps
Demo 2 Timedemo (System 2): 30 frames 30 frames (30+30) f / 1.16 s = 51.4 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 3): 15 frames 30 frames (15+30) f / 2 s = 22.5 fps
Demo 2 Timedemo (System 3): 2*15 frames 30 frames (30+30) f / 3 s = 20.0 fps
----------------------------------------------------------------------------------------------------------
Heute nachmittag hatte ich noch gehofft, dass eine mit konstanter Framerate aufgezeichnete Demo dem Ungleichgewicht etwas entgegenwirken könnte. Aber dadurch wird es anscheinend nur noch schlimmer.
Hm....
Im großen und ganzen meine ich, das zu verstehen...
Aber eines Check ich (wohl!) nicht ganz.
Beispiel:
1. Demo-Sekunde 2. Demo-Sekunde Frames [f] / Zeit [s] = Framerate [fps]
Demo 2 Aufnahme (System B): 30 frames 30 frames (30+30) f / 2 s = 30.0 fps
----------------------------------------------------------------------------------------------------------
Demo 2 Abspielen (System 2): 30 frames 180 frames (30+180) f / 2 s = 105.0 fps
Wenn beim aufnehmen, das System in beiden Sekunden etwa den selben Wert schaft, sollte es in der Praxis unter normalen Bedingungen schlicht unmöglich sein, daß ein anderes System in der ersten Sekunde genauso schnell ist, aber in der zweiten Sekunde dann auf einmal viel schneller ist (in diesem Beispiel 6x so schnell).
Kurz: Ich verstehe nicht, warum du denkst, daß - es ist mir klar, daß das nur Beispiele sind - ein anderes System als das, mit dem die TD erstellt wurde in einer Sekunde deutlich andere Werte produziert, wie in einer anderen?
Diese Beispiele sollen erstmal nur theoretisch zeigen, dass die Timedemo-Werte von Echtzeitmessungen prinzipiell abweichen. Bis vielleicht auf wenige Spezialfälle. Daneben gibt es natürlich auch viele andere Faktoren, die zu Unterschieden führen können. Eventuell beeinflußen diese das Ergebenis sogar stärker. Es geht mir hier aber nur um diesen einen Aspekt.
Für diese simplen künstlichen Beispiele kann ich mir auch Fälle vorstellen, die in der Praxis vorkommen. Demo-Sekunde 1 könnte CPU-limitiert sein und alle Systeme, bis auf das dritte, haben die gleiche CPU. Demo-Sekunde 2 ist GPU-limiert und die Systeme haben unterschiedlich starke Grafikkarten beziehungsweise AA/AF aktiviert oder deaktiviert. Zum Beispiel könnte System A identisch zu System 1 sein. Nur System 1 fährt mit AA/AF oder einer anderen Auflösung.
Davon mal abgesehen. Eigentlich relevant sind auch nur die Systeme 1-3. A und B dienen nur zur Erstellung der Demo. Zum Beispiel könnten A und B identisch sein. Allerding wurde B auf 30 fps limitiert, um eine Demo zu erhalten in dem die Frames auch zeitlich gleichverteilt sind. Dazu kommt, nicht alle Spiele produzieren Timedemos, welche alle Frames enthalten. Zum Beipiel legen Quake 2/3 die Timedemos mit konstanter Framerate an (AFAIK max. 25 fps bzw. 30 fps). Und in solchen Fällen kann man die Gewichtung fast gar nicht mehr beeinflussen.
Vor einigen Wochen habe ich mit auch etwas intensiver mit Frametimes.csv beschäftigt und diese mit R ausgewertet. Allerdings kam ich noch nicht dazu, etwas darüber zu schreiben (Zeitmangel). Außerdem traten Unstimmigkeiten auf, die ich noch nicht beseitigen konnte. Übrigens war das noch vor deinem Artikel. Als ich den entdeckte, fand ich das schon interessant, dass wir uns fast mit dem gleichen Dingen beschäftigen. Aber das nur am Rande.
Da die Kurve, die man aus Frametimes.csv berechnen kann, ziemlich wild hin und her springt, habe ich sie auch geglättet. Jedem Frame wurde der Durchschnitt aller Frames in einem gewissen Radius von Frames zugewiesen. Allerdings fangen hier die Probleme an. Ich habe verschiedene Radien ausprobiert und die Resultate waren dann immer etwas verschieden. Welcher Radius ist geeignet? Hängt der optimale Radius vielleicht von durchschnittlichen Frameniveau ab oder vom aktuellen? Könnte der gewählte Radius wieder bestimmte Frameraten bevorzugen? Diese Art der Filterung könnte auch die wieder Probleme der framebasierten Betrachtung bringen. Wenn ich 30 Werte mittle, betrachte ich bei 30 fps eine Sekunde. Aber bei 120 fps ist es nur eine Viertelsekunde. Ich denke, jedes Detail der Auswertung sollte zeitbasiert ermittelt werden. Ansonsten kommt es zu Verzerrungen.
Interessant sind auch die Min/Max-Werte von Fraps. Die sind eigentlich vollkommen willkürlich gewählt. Dazu wollte ich eigentlich auch mal einen Thread eröffnen. Die Min/Max-Werte die Fraps ausgibt beziehen sich auf die langsamste beziehungsweise schnellste Sekunde und nicht auf einen einzelnen Frame. Aber dieses Zeitintervall kann man auch ganz anders wählen, mit jeweils anderen Resultaten. Aber was ist die richtige Länge?
Piffan
2006-03-11, 14:33:48
Je nach Monitorfrequenz kann es sehr wohl unsinnig sein. Auf einem 100Hz-Monitor wirken 50fps, auf die das System bei klugen Einstelllungen im schlimmsten Falle einbricht, immer noch absolut flüssig, viel mehr Rechenleistung als für 100fps braucht man dort nicht. Leicht über Vsync sollte das Leistungspotenzial schon sein, oft genug werden bei Tests aber den Lesern auch Balken weit jenseits der höchsten Vsyncs noch als Kaufentscheidungsmerkmal angeboten.
Ist ja alles schön und gut, ändert aber nix dran, dass man nie zuviel Leistung haben kann. Denn was heißt "kluge" Einstellungen"? Danach könnte ich sogar mit einer uralten Geforce 2 noch manches neue Spiel zocken, indem ich "klugerweise" die Auflösung runter schraube und außerdem wenn möglich in den Gamesettings auf DX7- Level gehe. AA und AF auch auf Null runter und schon "reicht" die Leistung der Graka.
Worauf ich hinauswill: Die Balken zeigen das Potential der Hardware an, sie geben indirekt einen Hinweis, welche Qualitätseinstellungen (AA, AF und Auflösung sowie Techlevel) ich mir erlauben kann. Dass es natürlich niemals einen Universalbench geben wird, der mir die generelle Leistung in allen Spielen ausspuckt, sollte einleuchten. Vor allem machen die "Optimierungen" der Treiberteams eine sinnvolle Anwendung eines Standardbenches sinnlos.....
Triple-Buffering erzeugt erstens Mikroruckeln und läßt zweitens die Latenz wachsen. Man sollte die Einstellungen so wählen, daß man auch ohne TB konstante fps=Vsync erreicht, dann sind Latenzen(=Spielbarkeit) und Optik so konstant und flüssig als irgend möglich.
Die Einstellungen sollte man stets am Worst-Case-Szenario ausrichten, dann bleibt es immer flüssig. Wie viele Leute kennst du, die ihren CRT bei unterirdischen Auflösungen mit wahnwitzigen Hz-Raten weit jenseits der 100 betreiben? Nur für die ist es nämlich interessant, ob 300fps oder "nur" 200fps erreicht werden. Außerdem werden NV-Karten bei Vsync=off-Tests mit aktivem MSAA unfair bevorteilt, da einiges an Belastung nur pro angezeigtem Frame anfällt, 300 Vsync=off-fps bedeuten also mitnichten, daß diese 300fps bei aktivem Vsync und 300Hz Monitorfrequenz auch erreicht werden können. Wobei ich es eh für hirntot halte, zuerst MSAA für ein besseres Bild zuzuschalten um das Bild anschließend durch Deaktivierung des Vsync komplett zu ruinieren.
Dass Triple Mikroruckeln verursacht, habe ich persönlich noch nicht feststellen können.
Das Abschalten des Vsync ist in der Tat bedenklich, aber man könnte den Vorteil von NV egalisieren, indem man mit den ATT die "Flip queue size" der Catalyst- Treiber auf den gleichen Wert stellt wie das "Prerender- Limit" von NV. UT 2004 bietet in den Game- Settings die Möglichkeit, den Mouselag zu verringern, die Aktivierung sollte also einen Gleichstand herstellen....
Zu der These, das Vsync- off in Verbindung mit AA "hirntot" ist, sage ich nur dieses: Jeder empfindet anders, den einen stört das Tearing ungemein, der andere (ich z.B.) hat die Wahrnehmung "verlernt". FSAA hingegen ist immer Balsam für die Augen, ebenso AF....Aber wie gesagt, jeder hat einen anderen Fokus..
Das Mikroruckeln hat Mr. Lolman mal recht anschaulich verdeutlicht, mußt mal die SuFu anwerfen.
Kluge Einstellungen bedeuten natürlich die Abwesenheit von Augenkrebserzeugern, sind also längst nicht auf jeder Graka in jedem Spiel für jedes persönliche BQ-Empfinden möglich.
Mit dem NV-Vorteil bei Vsync=off meinte ich mitnichten das Prerenderlimit sondern vielmehr Filter@Scanout. Das kombiniert mit der Balkenoptimierung für Häufiggebenchtes macht Balkenvergleiche schlichtweg sinnbefreit. Damit testet man nur die Schummelabteilungen in den Treiberteams aller IHVs, nicht die HW.
Zu MSAA@Vsync=off: Wir sind uns wohl einig, uns uneinig zu sein. Ich beneide dich jedenfalls um deine unempfindlichere Wahrnehmung gegenüber Tearing, bei FSAA sind wir wohl beide mit zu empfindlichen Augen gestraft! Aber hey, mir ist dafür AF jenseits 4x schnurz, jedem das Seine...
Spasstiger
2006-07-06, 23:29:32
In der PC Games Hardware werden seit Neuestem auch Savegame-Benchmarks durchgeführt, nämlich im Fall von Oblivion. Wollte ich nur mal erwähnen, weil ich das eben beim Durchstöbern der aktuellen PCGH in der Rubrik "Testphilosophie" gesehen hab.
Spasstiger[/POST]']In der PC Games Hardware werden seit Neuestem auch Savegame-Benchmarks durchgeführt, nämlich im Fall von Oblivion. Wollte ich nur mal erwähnen, weil ich das eben beim Durchstöbern der aktuellen PCGH in der Rubrik "Testphilosophie" gesehen hab.
Seit neuestem? Eher seit mind. September letzten Jahres. :)
Spasstiger
2006-07-08, 01:10:58
Gast[/POST]']Seit neuestem? Eher seit mind. September letzten Jahres. :)
In der aktuellen Ausgabe steht, dass sie Oblivion seit der letzten Ausgabe so testen.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.