aths
2006-04-16, 20:59:36
Bildschärfung beim Fernseher – kann das überhaupt was bringen? Oder ist das sowas wie "Digital Vibrance Controll" bei Nvidia-Grafikkarten, also ein bisschen Kosmetik, Effekthascherei statt Verbesserung? Sollte das Signal nicht am besten so, wie es ist, angezeigt werden?
Was ein Verfahren wie zum Beispiel Philips "Pixel Plus" tun kann, habe ich mal theoretisch durchdacht.
Worum es geht
Ich möchte die Gelegentheit gerne nutzen, vorschnelle Schlüsse à la "das kann doch prinzipiell nichts bringen, im Signal ist ja nicht mehr drin" oder "doch, mein Bild sieht damit deutlich besser aus" zu vermeiden und einfach Fakten betrachten. Ein Schärfefilter macht Flanken steiler. Dies führt bei harten Kontrasten zu "Überschwingern": Geht es von hellgrau nach schwarz, erzeugt der Schärfefilter kurz vor der schwarzen Kante einen weißen Rand. Damit der Schärfefilter alle Kanten um ein Pixel in allen Richtungen berücksichtigen kann, muss mindestens die 8-er Umgebung des Pixels berücksichtigt werden – damit hat man einen Kernel von 3x3 (oder mehr.)
┌ -1 -1 -1 ┐
│ -1 16 -1 │ * 1/8
└ -1 -1 -1 ┘
So könnte ein 3x3-Schärfefilter aussehen: Alle Randpixelfarben werden invertiert
und mit dem stärker gewichteten Mittelpixel addiert. Dieser Filter erkennt schmale
Kanten und verstärkt die Flankensteilheit: Kleine helle Objekte auf dunklem Grund
werden heller, dunkle Objekte auf hellem Grund dunkler. Es werden keine neuen
Details erzeugt, aber vorhandene Details stärker hervorgehoben.
Diesem Filter legt die Idee eines LaPlace-Filters zur Kantenerkennung zugrunde.
Andere Möglichkeit: Das Bild erst mal glätten, und das geglättete Ergebnis vom
Originalbild subtrahieren. Unscharfe Bereiche werden damit entfernt.
Ein nachgeschärftes Bild kann für unser Auge sogar dann "besser" wirken, wenn es sich um Computergrafik (mit Kanten-Antialiasing) handelt. Wir Menschen sind unter anderem auf Kantenerkennung trainiert. Da der Schärfefilter im Prinzip nichts anderes macht als Kanten zu suchen und sie hervorzugeben, erleichtert er die Kantenerkennung für uns. Ist Bildschärfung deshalb gleich vernünftig? Der Filter kann ja keine Informationen aus dem Nichts zaubern – doch wie viel Information steckt überhaupt im PAL-Video?
Das PAL-Signal
Dazu müssen wir uns ein wenig mit dem PAL-Signal beschäftigen. PAL sendet pro Sekunde bekanntlich 50 Halbbilder. Ein PAL-Vollbild hat, wie ebenfalls bekannt, 625 Zeilen, von denen für den eigentlichen Bildinhalt nur 576 genutzt werden. Pro Halbbild also 288. Doch davon werden nur die mittleren 270 (Zirka-Wert) für relevante Bildinformationen genutzt, da Röhren am Rand abgeblendet werden. (PS2-Spiele nutzen in der Regel leider nur 256 Zeilen pro Halbbild. Damit bleiben sichtbare schwarze Balken. Das beste ist, alle 288 Zeilen zu nutzen aber in die Randbereiche keine relevanten Bildinformationen zu legen.)
http://www.dudv.de/files/3dcf/tv/pal2.png
Overscan – bei Röhrengeräten ist nur der grüne Bereich sichtbar. Die Punktlinie gibt an, welche Bildgröße die meisten PS2-Spiele für PAL ausgeben: Leider bleiben dort schwarze Balken zu sehen.
http://www.dudv.de/files/3dcf/tv/pal3.png
PAL bietet mehr Auflösung als NTSC. Bei 100-Hz-Technik ist der Nachteil vom 50-Hz-Flimmern bei PAL weg, die höhere Auflösung bleibt natürlich.
Das Fernsehbild ist zwar in Zeilen aufgeteilt, aber es gibt eben keine Pixel, denn es handelt sich um ein analoges Signal. Beim 4:3-Seitenverhältnis und 576 Zeilen pro Vollbild würde man ja in der Horizontalen 768 Pixel erwarten. Damit hätte PAL (zusammen mit Ton) eine Bandbreite von ca. 6,5 Megahertz. Tatsächlich nimmt ein PAL-Kanal (inklusive Ton) nur 5,5 MHz Bandbreite ein. So geht zwar horizontale Auflösung verloren, doch man bekommt mehr Kanäle innerhalb einer gegebenen Bandbreite unter, da man sie dichter packen kann. (SVHS speichert noch etwa 4,5 MHz, VHS ca. 3,5 MHz Bandbreite, jeweils mit Ton.) Nun ist auch klar, warum ein DVD-Bild eine bessere Qualität als eine Fernsehsendung bieten könnte: Es würde einfach die volle mögliche horizontale Auflösung genutzt. Aber auch DVD-Video arbeitet bei PAL meistens mit 720, nicht 768 Pixeln in der Breite. 720 (oder 704) Pixel sind aber noch immer besser als das, was PAL effektiv bietet. Leider nutzen die meisten DVDs Bitraten, die bei MPEG2-Video keine dem TV deutlich überlegene Bildqualität bieten.
Würde man für PAL-Abtastung einfach 768 Pixel annehmen, käme es wegen der Bandbreitenbegrenzung zu "Geisterbildern": Um scharfe Kanten herum würde man in der horizontalen ein "Nachschwingen" sehen. Tatsächlich kann man im Fernsehen sowas desöfteren beobachten. Dann wurde das Videomaterial entweder falsch abgetastet, oder die Signalverarbeitung im Fernseher ist nicht so hochwertig, wie sie sein sollte.
Um die analoge Ausstrahlung klar zu machen, eine Bilderserie.
http://www.dudv.de/files/3dcf/tv/felder2.png
Oben: Für jede Zeile wird nur die Gesamthelligkeit übertragen. Nimmt man die niederfrequenteste Schwingung dazu, zeichnet sich ab wo es im Bild hell wird.
Mitte: Bei 5% Informationsgehalt sieht man schon: Es ist ein Gesicht. Bei 10% gewinnt es deutlich an Konturen.
Unten: Bei Berücksichtung der ersten 50% der Bildbandbreite ist das Gesicht schon voll ok – dass noch immer die Hälfte der Bildinformationen fehlt, fällt kaum auf. Der eingefügte weiße Strich zeigt jedoch links und rechts noch Wellen – Folge der Frequenzbegrenzung. Rechts sieht man über 80% der Informationen. Um den weißen Strich herum gibt es nach wie vor (schwache) Geisterbild-Artefakte.
Diese Bildserie gibt den Geisterbilder-Effekt nur annähernd wieder, weil ein digitaler Tiefpass zum Einsatz kam, der ab einer bestimmten Frequenz komplett abschneidet. In der Realität gibt es eine allmähliche Dämpfung bei den hohen Frequenzen.
Natürlich gehen bei der Abtastung des Rohmaterials für die PAL-Ausstrahlung alle Details verloren, die so klein sind, dass sie nicht mehr in ein "effektives Pixel" passen. Erschwerend kommt die Problematik der Interlace-Ausstrahlung hinzu: Eigentlich dürfte man pro Halbbild nur 288 Zeilen abtasten, die entsprechend dicker sind. Man nimmt aber in der Regel 576 Zeilen, und strahlt pro Halbbild nur jede zweite Zeile aus. Bei Kino-Filmen, die statt mit 24 fps einfach mit 25 fps ausgestrahlt werden, wird ein Vollbild in zwei Halbbilder zerlegt, so dass der Deinterlacer beim 100-Hz-Gerät die Vollbilder wieder zusammensetzen kann. Viele Fernsehsendungen aber tasten jedoch tatsächlich 50 mal pro Sekunde an, so dass es immer nur Halbbilder gibt. Auch Konsolenspiele nutzen das Verfahren gerne, denn 50 Halbbild-fps wirken flüssiger als 25 Vollbild-fps.
Ein übliches Bildformat bei PAL-Spielen für die PS2 ist 512x512. Die Pixel der X-Achse werden dann auf die volle Bildschirmbreite skaliert. Bei DVD-Filmen sind es für PAL ja 704 oder 720 Pixel, doch wir reden hier über das digital vorliegende Material. PAL an sich hat keine Pixel, nur Zeilen und eine begrenzte Bandbreite pro Zeile.
Pixel Plus und Farbe
Bei Pixel Plus wird die Zahl der sichtbaren Zeilen wird ca. um ein Drittel erhöht. Das bringt natürlich keine neue Bildinformation. Hauptvorteil ist, dass die dünnen schwarzen Linien zwischen den einzelnen Bildzeilen kleiner werden, da es einfach mehr Bildzeilen gibt und diese entsprechend dichter liegen. Andernfalls einfach dickere Zeilen zu erzeugen hieße ja auch, unschärfere Zeilen auszugeben. (Fokussiert man den Kathodenstrahl genau, ist die Zeile dünn. Macht man ihn breit, streut der Strahl so, dass man keine feinen Details mehr darstellen kann.) Insofern ist es erst mal sinnvoll, auf großen Bildflächen zusätzliche Zeilen darzustellen. Klar ist aber, dass jede Skalierung einen Schärfeverlust beinhaltet: Folgt im Originalsignal auf eine rein schwarze Zeile ein rein weiße, wird man mit Pixelplus eine graue Zwischenlinie haben. Die Steilheit der Übergangs-Flanke wird abgeschwächt. Das merken wir uns erst mal.
Nun besteht das Bild für unser Auge aus Farben. Diese Farbinformationen sollen jetzt verbessert werden. Dazu betrachten wir in Kurzfom, wie die Farbe eigentlich übertragen wird.
Bei NTSC und PAL ist Bild in Helligkeit und Farbinformation zerlegt, primär um Rückwärtskompatibilität mit Schwarzweiß-Geräten zu gewährleisten, die nur das Helligkeits-Signal auswerten. Hätte man RGB-Farbe, bräuchte man drei Farbkanäle. Da beim Fernseh-Signal bereits die Helligkeitsinformation vorliegt, genügen zwei Farbkanäle, die die Rot- und Blau-Differenz zur Helligkeit speichern – hat man dann Rot und Blau dekodiert, kann man anhand der Helligkeit auch den Grünkanal zurückrechnen.
YIC (NTSC), YUV (PAL), YCbCr (auch YPbPr) (JFIF JPEG) – alle diese Modelle unterscheiden sich nur in ihren Koeffizienten. Zugrunde liegt der Gedanke, die Farbe in drei Bestandteile aufzuspalten:
- Reine Helligigkeit
- Farbton
- Farbsättigung
Damit besteht auf den ersten Blick eine Verwandschaft zum HSL-Modell, welches zum Beispiel auch bei der Windows-Farbauswahl genutzt werden kann. Doch die Umrechnung von und nach RGB ist recht aufwändig. Außerdem entspricht der L-Kanal bei HSL nicht direkt der tatsächlich wahrgenommenen Helligkeit.
YUV und vergleichbare Farbräume nutzen zur Berechnung der Helligkeit einen gewichteten Mittelwert der RGB-Werte: Rot zu ca. 30%, Grün zu 60% und Blau zu 10% bestimmen die Helligkeit. (Die genauen Koeffizienten spielen hier keine Rolle.) Grün fließt als hellste RGB-Grundfarbe also am meisten in die Helligkeit ein. Zur einfachen Umrechnungen werden Farbton- und Sättigung nicht direkt gespeichert, sondern man berechnet zur Helligkeit die Differenz zu Rot und zu Blau. Das kann man sich als komplexe Zahl oder als 2D-Vektor vorstellen – in jedem Fall liegt im Winkel der Farbton, in der Länge die Sättigung kodiert.
Der Vorteil ist die einfache Umrechnung mittels Matrizenmultiplikation und ohne Fallunterscheidungen, wie etwa bei HSL notwendig – sowie dass die Helligkeit auch wirklich der scheinbaren Farbhelligkeit entspricht. Das ist ja zur Kompatibilität mit Schwarzweißfernsehern notwendig. Im Computerbereich gab es Monochrom-Monitore, die rein den Grün-Kanal vom VGA-Signal ausgewertet haben. In Folge war dann rote Schrift auf blauem Grund komplett schwarz.
Wer kennt das Problem nicht, dass bei Speicherung eines Bildes als JPEG eine RGB-Farbe leicht geändert wird? JPEG nutzt YCbCr, und etwa drei Viertel dieses Farbraums ist nicht mit RGB darstellbar! Dadurch hat man bei 24-Bit-YCbCr effektiv einen Farbauflösungsverlust. Für YUV gilt in der Größenordnung das gleiche. Doch weil der Mensch sehr viel mehr Helligkeitsstufen einer Farbe unterscheiden kann als Farbtöne, spielt das keine Rolle.
Hat man die Werte Y, U und V, kann man erst mal R=B=G=Y den passenden RGB-Grauwert für die Farbhelligkeit bestimmen. Mit U und V liegen Rot- und Blau-Differenz vor, so dass man den tatsächlichen R- und B-Wert der Farbe ausrechnen kann. Damit ändert sich dann auch im Zwischenergebnis die Farbhelligkeit. Die tatsächliche Farbhelligkeit ist aber durch den Y-Wert bekannt, und die Differenz von der Helligkeit des Zwischenergebnisses zum Y-Wert ergibt dann den Grün-Wert.
Bei der NTSC-Farbe (nach dem YIC-Modell) gibt es aber, sofern die Übertragung etwas gestört wird, ein Problem. Die häufigsten Signalverfälschungen sind Phasenverschiebungen. Das heißt, das Signal kommt ein wenig später (oder früher) an, als erwartet. Im Helligkeitssignal belanglos – das Bild verschiebt sich minimal nach links oder rechts. Problematisch aber bei der Farbe, welche (mit Hilfe einer bestimmten Modulationsform) als Vektor, also Winkel-Information übertragen wird: Phasenverschiebungen bewirken dann natürlich Winkeländerung und damit eine Änderung des Farbtons. Wiesen werden lila, Gesichter grün …
http://www.dudv.de/files/3dcf/tv/pal4.png
Eine mögliche Farbangabe mit einer Helligkeit von 20%. Um den Mittelpunkt (hier: dunkelgrau) herum sind die Farben angeordnet. Im RGB-Modell können nicht alle kodierbaren Farben dargestellt werden. Tritt so etwas auf, wird jedoch kein Schwarz, sondern einfach ein etwas falscher Farbton angezeigt. Da vom RGB-Material ausgehend kodiert wird, kommt das auch nur bei Übertragungsstörungen vor.
Die Farbe ergibt sich aus zwei Angaben: Rot-Differenz und Blau-Differenz. Da die Helligkeit bekannt ist, lässt sich dann auch die Grün-Intensität ausrechnen.
http://www.dudv.de/files/3dcf/tv/pal6.png
Störungen des Signals führen bei NTSC dazu, dass sich der Farbwinkel ändert, und damit der Farbton.
PAL nutzt eine geringfügig andere Umrechnung, um aus den RGB-Werten die Farbinformation und Helligkeitsinformation zu trennen (nämlich YUV). Namensgebende Neuerung beim PAL-Verfahren ist aber, dass für jede zweite Zeile die Farbinformation um 180° phasengedreht gesendet wird. Damit ist PAL-Dekodierung etwas schwieriger, da zurückgedreht werden muss. Man nimmt dann auch den Mittelwert mit der Vorgängerzeile, denn die Wirkung des Phasenfehlers wird sich von Zeile zu Zeile nur minimal ändern. Der Phasenfehler und wirkt in der einen Zeile logischerweise in der entgegengesetzten Richtung wie in der phaseninvertierten Zeile – der Fehler hebt sich also auf. Tatsächlich wird zwar noch die Vektorlänge (hier: Farbsättigung) beeinflusst, das heißt, das Wiesengrün ist mal satter, mal matter, und das Gesicht mal roter, mal blasser. Das ist kaum zu sehen, und die störenden Farbtonschwankungen ist in jedem Fall man los. Doch dies erkauft man sich mit bis zu halbierter Farbauflösung!
Man kann durchaus pro Zeile eine andere Farbe als in der Vorgängerzeile haben, aber die Farbe wird in jedem Fall in der Vertikalen verwischt. Sauber getrennte Farbpixel sind mit PAL deshalb nicht darstellbar. Fernseher hätten die Möglichkeit, auf die Farbton-Korrektur durch Mittelwertbildung zu verzichten, inwieweit das genutzt wird, ist mir nicht bekannt.
http://www.dudv.de/files/3dcf/tv/pal8.png
Bei PAL ändert sich bei Übertragungsfehlern lediglich die Länge des Vektors, und damit die Farbsättigung.
Fassen wir zusammen: Bei PAL haben wir pro Halbbild ca. 270 nutzbare Zeilen Helligkeitsinformationen, die Farbinformation wird beim PAL-Standard in den Zeilen verwischt. Entgegen der allgemeinen Erwartung hat man auch keine 768 Pixel pro Zeile, sondern effektiv vielleicht 600 (Schätzwert). Das heißt, man kann pro Zeile höchstens 300 weiße und schwarze Details abwechselnd darstellen.
Nun steckt fast die gesamte Schärfe des Bildes im Helligkeitskanal. Das Farbsubsampling ist in normalen Filmszenen kaum zu spüren.
http://www.dudv.de/files/3dcf/tv/red.png
Was stimmt hier nicht? Pro 4x4-Pixelblock liegt nur eine Farbinformation vor, die auf die Umgebung interpoliert wurde. Trotz 16x-Farbsubsampling findet man keinen Grund zur Beanstandung.
http://www.dudv.de/files/3dcf/tv/org.png
Im direkten Vergleich wirkt das Original dann doch besser. Doch kennt man es nicht, vermisst man in der reduzierten Version auch nichts.
DVD-Video nutzt üblicherweise ein Farbsubsampling von 2x2, 2x1-Subsampling gilt bereits als Studioqualität.
Konsolenspiele sollten sich allerdings hüten, bei Textausgabe einen allzu dünnen Font zu verwenden und womöglich auch noch kontrastreiche Farben – das würde schrecklich aussehen. Der Font muss eine vergleichsweise dicke Strichstärke haben, und sollte sich primär über sein Helligkeitsattribut vom Hintergrund abheben. Pixel Plus wird sich wegen der Optimierung für Filme wohl vor allem auf den Helligkeits-Kanal stützen, um dort Schärfefilter anzuwenden.
Natürlich ist ein PAL-Bild aufgrund der begrenzten Auflösung nicht beliebig scharf. Filmt man eine Kante, die genau von schwarz auf weiß geht, wird man fast nie den Übergang exakt zwischen zwei Zeilen haben. Damit erhalten wir eine graue Zwischenzeile. Das Problem wird mit der Hochskalierung auf ungefähr 360 Zeilen pro Halbbild (der Rest ist abgeblendet) noch verstärkt.
Man muss sich klar machen, dass das Gerät bei 100 Hz weiterhin interlaced arbeitet. Ein 100-Hz-Fernseher kann in der Regel auf Wunsch auch einfach jede Zeile 2x ausgeben, somit ist man bei Kameraschwenks die Kamm-Artefakte los – doch für mehr als 50 Hz reicht im Doublescan-Modus die Zeilenfrequenz der Röhre nicht. Deshalb rede ich von ca. 360 angezeigten Zeilen pro Halbbild, auch wenn die Pixel-Plus-Verarbeitung wahrscheinlich für deinterlacte und hochskalierte Vollbilder mit 768 Zeilen (576 plus 1/3) stattfindet.
Ein Schärfefilter der "normale" Unschärfe bekämpfen soll, benötigt wie eingangs erwähnt eine Kernelgröße von mindestens 3x3. Es ist anzunehmen, dass Pixel Plus einen größeren Kernel nutzt, um die durch Zeilen-Hochskalierung enstehende zusätzliche vertikale Unschärfe zu bekämpfen. Dabei sollte man aber vorsichtig sein, so dass ein zu stark eingestellter Schärfefilter nicht nur für "Überschwinger" sorgt. Außerdem ist eine zu starke Flanken-Steilheit generell nicht gewünscht: Würden sich Objekte pro Bild immer um ganze Zeilen bewegen, könnte das die Wahrnehmbarkeit von Ruckeln verstärken. Um sowas zu bekämpfen, hat sich Philips "Digital Natural Motion" ausgedacht, was quasi beim adaptiven Deinterlacing abfällt. Doch weiter mit der Bildschärfung.
Pixel noch unquadratischer
Wie sieht es mit der Information innerhalb einer Zeile aus? Dazu kurz ein Exkurs in die anamorphe Kodierung. Ein letterboxed 16:9-Film in PAL kann pro Vollbild nur 432 statt 576 Zeilen nutzen, da oben und unten jeweils 72 Zeilen für schwarze Balken notwendig sind. Während "morphen" ja das verzerren (hier: von Bildern ist), ist etwas amorphes etwas Unveränderliches. Glas zum Beispiel ist vom Aggregatzustand her nicht fest (Festkörper haben bei ihren Atomen/Molekülen eine Kristallgitterstruktur) sondern so gesehen flüssig, nur amorph – es wirkt wie fest. Anamorph ist die Negierung der Negierung und bedeutet hier, nichtquadratische Pixel zu verwenden. Ungeachtet der Tatsache, dass ohnehin weder analoges noch digitales PAL quadratische Pixel haben …
Bei anamorphem Video werden also für 16:9-Bilder weiterhin alle Bildzeilen genutzt, und die Röhre komprimiert die Zeilen. Der Bildaufbau beginnt nicht mehr links oben sondern dort, wo der Balken zuende ist. Falsch wiedergebene anamorphe Videos sind entsprechend in die Höhe gezogen – tatsächlich findet man im Web immer wieder mal DVD-Screenshots die Eierköpfe und lange Gesichter zeigen.
16:9 entspricht 1:1,78, dabei nutzen Kinofilme oft 1:1,85 oder 1:2,35. Bei 1:1,85 sieht man trotzdem keine schwarzen Balken, weil die Randbereiche der Röhre ja wie erwähnt abgeblendet sind. Cinemascope (1:2,35) ist auf dem Film selbst anamorph belichtet worden und wird von der Projektor-Optik wieder entzerrt. DVD-Video kennt aber nur anamorphe 16:9-Kodierung. Letterboxed hätte man bei Cinemascope nur noch 327 Zeilen, dank anamorpher Kodierung bleiben 436 für das Bild nutzbare Zeilen übrig. Somit sind auch bei Breitbild-Filmen noch ganz gut Details zu erkennen.
Lange Rede, kurzer Sinn: Mit anamorpher Kodierung werden die Pixel noch mal breiter (bzw. flacher) gemacht, doch durch den Trick kann man mit normaler PAL-Information bei Breitbild-Filmen trotzdem noch einen vernünftigen Detailgrad speichern. Nur so kann ein Schärfefilter auch funktionieren, in dem er noch gespeicherte, aber schlecht sichtbare (da schwachkontrastige) Details wieder hervorhebt.
Bei quadratischen Pixeln hätte man beim 16:9-Format bei 576 Zeilen pro Zeile 1024 Pixel. Davon geht Pixel Plus auch aus, das TV-PAL-Signal welches effektiv in der Zeile bestenfalls 600 getrennte Informationen (also abwechselnd 300 weiße und 300 schwarze Details) darstellen kann wird für die digitale Bearbeitung als 1024-Pixel-Zeile gesehen. Durch eine doppelt so hohe Taktung der Steuerelektronik, die die Kathodenstrahlstärke regelt, werden bei Pixel Plus angeblich bis zu 2048 Pixel geboten. Aus eigentlich breiten und flachen Pixeln werden somit für die interne Verarbeitung mehrere sehr dünne, schmale Pixel. Das heißt für die Praxis, dass man in der Zeile sehr steile Flanken realisieren kann.
Was bringt das? Nun, Schärfe natürlich. Die Intensität des Elektronenstrahls kann nicht beliebig schnell geändert werden. Das Beispiel von 600 effektiven Pixeln pro Zeile meint keine 600 scharf getrennten Pixel, sondern eher sinusartige Helligkeitsschwankungen. Mit Pixel Plus können die Übergänge ca. 3x steiler gemacht werden, auf Schwarz folgt dann Weiß ohne dass man einen wahrnehmbaren grauen Zwischenraum hat.
Physikalische Auflösung
Seit längerem haben Fernseher eine Schlitzmaske, wobei die RGB-Elemente in Spalten angeordnet sind. Dies trägt der Tatsache Rechnung, das unsere Augen in der Vertikalen feiner auflösen als in der Horizontalen. Wer das probieren möchte, testet am besten mal einen TFT im Pivot-Modus aus: Die somit horizontalen TFT-Streifen sind dann viel einfacher zu sehen als bei normaler Ausrichtung, wo die Streifen in der Vertikalen liegen.
Bei der Röhre hat man bei der Anordnung der RGB-Elemente in Spalten den Vorteil, keine fixe Zeileauflösung zu haben: Der Kathodenstrahl kann das RGB-Element schließlich auch nur zum Teil zum Leuchten anregen, im Gegensatz zum TFT, wo immer ganze RGB-Subpixel mit bestimmter Intensität leuchten. Deshalb ist Zeilenkomprimierung für den 16:9-Modus beim 4:3-Fernseher kein Problem, es geht durch die Bauform der Röhre keine Auflösung verloren.
Geht man nahe genug an den Fernseher, kann man den Zeilenaufbau trotzdem sehen. Um das so weit wie möglich abzuschwächen, sind die RGB-Elemente pro zweiter Spalte um 1/2 Höhe versetzt:
http://www.dudv.de/files/3dcf/tv/pal9.png
Hier im nachgestellten Bild leuchten alle RGB-Elemente vollständig. Sie können aber auch nur zum Teil angeregt werden.
Während wir keine fixe Zeilenauflösung haben, scheint die Spaltenauflösung durch die Granularität der RGB-Elemente ja bestimmbar. Doch ein Röhrengerät ist kein TFT und stellt kein digitales, sondern ein analoges Signal dar. Sobald Pixel zur Anzeige gebracht werden sollen, die kleiner sind als ein RGB-Element breit ist, wird natürlich die Pixelfarbe verfälscht. Das fällt dann bei Detailbetrachtungen auch auf. Die Spaltenbreite eines RGB-Elements legt insofern zwar die minimale sinnvolle Pixelgröße fest, aber – ganz grob vergleichbar mit der Cleartype-Fontsglättung in Windows XP – ließen sich durchaus Subpixel nutzen.
Was man generell beachten muss: Besonders bei den Geräten mit flacher Bildröhre nimmt die Auflösung zum Rand hin ab. Der Kathodenstrahl trifft dann schließlich schräg im Winkel auf, und beeinflusst damit größere Flächen als in der Bildmitte, wo er senkrecht auf die Leuchtelemente trifft. Eine an und für sich unsinnig hohe Auflösung von 2048 Pixeln pro Zeile sorgt dann immerhin dafür, dass die Ränder – wenn sie auch unschärfer werden – nicht zu unscharf sind. Das Problem ist bei 16:9-Geräten natürlich noch drastischer, da die Röhre dort deutlich breiter als hoch ist. Wahrscheinlich gilt die Zahl der 2048 Pixel pro Zeile auch nur für 16:9-Geräte mit Pixel Plus, 4:3-Geräte hätten "nur" 1536 Pixel.
Problematik der Bildfehlerverstärkung
Gute Schärfefilter wirken letztlich wie eine Dynamikkomprimierung: Schwache Details werden verstärkt, ohnehin scharfe Kontraste werden (zur Artefaktvermeidung) hoffentlich in Ruhe gelassen. Was Musik angeht, empfinden die meisten Menschen Dynamikkompression als angenehm: Die Liedlautstärke ändert sich nicht zu stark. Das trifft offensichtlich auch für Bilder zu. Ein Computerspiel mit durchweg unscharfen Texturen kann trotzdem insich stimmig wirken. Wir bevorzugen natürlich durchweg scharfe Texturen. Doch das schlimmste wäre, im gleichen Bild sowohl feinste Details auch Matsch-Texturen zu haben.
Das heißt, ein vernünftig eingesetzter Schärfefilter kommt einfach unserem Empfinden entgegen. Trotz Bildverfälschung würde das von den meisten Menschen bevorzugt. Man muss aber auch sehen, dass bereits schwachkontrastige Details sowieso besonders "leiden" bei der verlustbehafteten Bildbehandlung, während starke Kontraste recht unbeschadet "überleben". Ein guter Schärfefilter macht dann auch keine bereits scharfen Kanten überscharf, sondern hebt vor allem die Dynamik in "leisen", also schwachkontrastigen Bereichen an.
Bei meinem Philips-Fernseher wirkt der Schärfefilter leider im gesamten Bild gleichmäßig: Schon bei der kleinsten Einstellung kann es um scharfe Kontraste Artefakte geben. Texturen profieren auf der anderen Seite von der Schärfe.
PAL ist HDTV natürlich klar unterlegen, da kann man noch so viel am Bild schärfen. Das PAL-Signal sieht zwar 576 Zeilen pro Vollbild vor, doch in der Praxis hat man eine Detailauflösung die spürbar darunter liegt – durch Frequenzbegrenzung und Farbsubsampling. Letzteres ist in Filmen weniger schlimm als man denkt. Das Helligkeitssignal trägt dem Großteil der Bildinformation. Filme werden eh mit Farbsubsampling gespeichert.
Bei Filmen hat man es aber noch sowohl mit Rauschen als auch mit Komprimierungsartefakten zu tun. Würde man einfach alles schärfen, würde man Rauschen und Komprimierungsartefakte erst so richtig herausarbeiten. Hier kann man Filter nutzen, die einen Schwellwert-Mechanimus haben: Liegen die lokalen Kontrastveränderungen unterhalb einer Schwelle, wird es für Rauschen gehalten und sogar noch geglättet. Andernfalls kommt der Schärfe-Filter zum Zuge.
Und jetzt sind wir endlich dort, wo wir hinwollten: Anhand welcher Charakteristiken trennt man Bildrauschen von Details? Wo setzt man den Schwellwert an, unter dem geglättet und über dem geschärft wird?
Der Einfluss des Rauschens ändert sich von Bild zu Bild. Das kann man als Anhaltspunkt nehmen, um Rauschen von Details zu trennen: Ändert sich der Inhalt eines schwachkontrastigen Bildbereiches nur langsam, dürfte es sich um Details handeln, die man durch digitale Bildschärfung besonders zur Geltung bringen sollte. Schwache Details bei sich schnell bewegenden Objekten kann das Auge ohnehin nicht erfassen, nur auf vergleichsweise ruhige Bereiche kann sich das Auge konzentrieren.
Solche Methoden bieten sich im Prinzip für Verfahren à la Pixel Plus an. Allerdings müsste man dafür immer die letzten angezeigten Bilder noch vorrätig haben. So viel Aufwand wird wahrscheinlich nicht betrieben. Für 3D-Kammfilter benötigt man immerhin noch zwei Bilder in Folge, mit mehr wird wohl auch Pixel Plus nicht arbeiten.
Unklar ist auch, ob Schärfe-Filtern in Fernsehern die nichtlineare Helligkeits-Kodierung berücksichtigen. Jeder Bildfilter sollte in einem linearen Raum durchgeführt werden, dorthin müssten die Farbwerte erst mal umgerechnet werden – und das Ergebnis müsste zurückgerechnet werden. Welche Auswirkungen das Fehlen solcher Umrechnung mitsich bringt, lässt sich zum Beispiel so zeigen:
http://www.dudv.de/files/3dcf/tv/kante.png
Das Bild mit etwas Abstand vom Monitor betrachten. Eine Kante erscheint etwas hügelig, die andere glatt.
Fazit
Theoretisch bestünde die Möglichkeit, durch Nachbehandlung der Bilder diese zu verbessern. In der Praxis wäre der Aufwand jedoch so groß, dass bei Pixel Plus zwar die Streifigkeit des Bildes reduziert wird und man in der Horizontalen die Flankensteilheit erhöht, was ermöglicht Pixel besser voneinander zu trennen. Doch damit der Schärfefilter nicht noch unerwünschtes Bild-Grisseln verstärkt, muss er die vorherigen Bilder kennen, um Rauschen von Bilddetails zu trennen. Neben dem Rechenaufwand, erst reicht bei Umrechnung in lineare Farbräume, ist auch der erforderliche Speicherplatz zu berücksichtigen. Damit dürfte eine Realisierung vorliegen, deren positive Wirkung recht begrenzt ist.
Was ein Verfahren wie zum Beispiel Philips "Pixel Plus" tun kann, habe ich mal theoretisch durchdacht.
Worum es geht
Ich möchte die Gelegentheit gerne nutzen, vorschnelle Schlüsse à la "das kann doch prinzipiell nichts bringen, im Signal ist ja nicht mehr drin" oder "doch, mein Bild sieht damit deutlich besser aus" zu vermeiden und einfach Fakten betrachten. Ein Schärfefilter macht Flanken steiler. Dies führt bei harten Kontrasten zu "Überschwingern": Geht es von hellgrau nach schwarz, erzeugt der Schärfefilter kurz vor der schwarzen Kante einen weißen Rand. Damit der Schärfefilter alle Kanten um ein Pixel in allen Richtungen berücksichtigen kann, muss mindestens die 8-er Umgebung des Pixels berücksichtigt werden – damit hat man einen Kernel von 3x3 (oder mehr.)
┌ -1 -1 -1 ┐
│ -1 16 -1 │ * 1/8
└ -1 -1 -1 ┘
So könnte ein 3x3-Schärfefilter aussehen: Alle Randpixelfarben werden invertiert
und mit dem stärker gewichteten Mittelpixel addiert. Dieser Filter erkennt schmale
Kanten und verstärkt die Flankensteilheit: Kleine helle Objekte auf dunklem Grund
werden heller, dunkle Objekte auf hellem Grund dunkler. Es werden keine neuen
Details erzeugt, aber vorhandene Details stärker hervorgehoben.
Diesem Filter legt die Idee eines LaPlace-Filters zur Kantenerkennung zugrunde.
Andere Möglichkeit: Das Bild erst mal glätten, und das geglättete Ergebnis vom
Originalbild subtrahieren. Unscharfe Bereiche werden damit entfernt.
Ein nachgeschärftes Bild kann für unser Auge sogar dann "besser" wirken, wenn es sich um Computergrafik (mit Kanten-Antialiasing) handelt. Wir Menschen sind unter anderem auf Kantenerkennung trainiert. Da der Schärfefilter im Prinzip nichts anderes macht als Kanten zu suchen und sie hervorzugeben, erleichtert er die Kantenerkennung für uns. Ist Bildschärfung deshalb gleich vernünftig? Der Filter kann ja keine Informationen aus dem Nichts zaubern – doch wie viel Information steckt überhaupt im PAL-Video?
Das PAL-Signal
Dazu müssen wir uns ein wenig mit dem PAL-Signal beschäftigen. PAL sendet pro Sekunde bekanntlich 50 Halbbilder. Ein PAL-Vollbild hat, wie ebenfalls bekannt, 625 Zeilen, von denen für den eigentlichen Bildinhalt nur 576 genutzt werden. Pro Halbbild also 288. Doch davon werden nur die mittleren 270 (Zirka-Wert) für relevante Bildinformationen genutzt, da Röhren am Rand abgeblendet werden. (PS2-Spiele nutzen in der Regel leider nur 256 Zeilen pro Halbbild. Damit bleiben sichtbare schwarze Balken. Das beste ist, alle 288 Zeilen zu nutzen aber in die Randbereiche keine relevanten Bildinformationen zu legen.)
http://www.dudv.de/files/3dcf/tv/pal2.png
Overscan – bei Röhrengeräten ist nur der grüne Bereich sichtbar. Die Punktlinie gibt an, welche Bildgröße die meisten PS2-Spiele für PAL ausgeben: Leider bleiben dort schwarze Balken zu sehen.
http://www.dudv.de/files/3dcf/tv/pal3.png
PAL bietet mehr Auflösung als NTSC. Bei 100-Hz-Technik ist der Nachteil vom 50-Hz-Flimmern bei PAL weg, die höhere Auflösung bleibt natürlich.
Das Fernsehbild ist zwar in Zeilen aufgeteilt, aber es gibt eben keine Pixel, denn es handelt sich um ein analoges Signal. Beim 4:3-Seitenverhältnis und 576 Zeilen pro Vollbild würde man ja in der Horizontalen 768 Pixel erwarten. Damit hätte PAL (zusammen mit Ton) eine Bandbreite von ca. 6,5 Megahertz. Tatsächlich nimmt ein PAL-Kanal (inklusive Ton) nur 5,5 MHz Bandbreite ein. So geht zwar horizontale Auflösung verloren, doch man bekommt mehr Kanäle innerhalb einer gegebenen Bandbreite unter, da man sie dichter packen kann. (SVHS speichert noch etwa 4,5 MHz, VHS ca. 3,5 MHz Bandbreite, jeweils mit Ton.) Nun ist auch klar, warum ein DVD-Bild eine bessere Qualität als eine Fernsehsendung bieten könnte: Es würde einfach die volle mögliche horizontale Auflösung genutzt. Aber auch DVD-Video arbeitet bei PAL meistens mit 720, nicht 768 Pixeln in der Breite. 720 (oder 704) Pixel sind aber noch immer besser als das, was PAL effektiv bietet. Leider nutzen die meisten DVDs Bitraten, die bei MPEG2-Video keine dem TV deutlich überlegene Bildqualität bieten.
Würde man für PAL-Abtastung einfach 768 Pixel annehmen, käme es wegen der Bandbreitenbegrenzung zu "Geisterbildern": Um scharfe Kanten herum würde man in der horizontalen ein "Nachschwingen" sehen. Tatsächlich kann man im Fernsehen sowas desöfteren beobachten. Dann wurde das Videomaterial entweder falsch abgetastet, oder die Signalverarbeitung im Fernseher ist nicht so hochwertig, wie sie sein sollte.
Um die analoge Ausstrahlung klar zu machen, eine Bilderserie.
http://www.dudv.de/files/3dcf/tv/felder2.png
Oben: Für jede Zeile wird nur die Gesamthelligkeit übertragen. Nimmt man die niederfrequenteste Schwingung dazu, zeichnet sich ab wo es im Bild hell wird.
Mitte: Bei 5% Informationsgehalt sieht man schon: Es ist ein Gesicht. Bei 10% gewinnt es deutlich an Konturen.
Unten: Bei Berücksichtung der ersten 50% der Bildbandbreite ist das Gesicht schon voll ok – dass noch immer die Hälfte der Bildinformationen fehlt, fällt kaum auf. Der eingefügte weiße Strich zeigt jedoch links und rechts noch Wellen – Folge der Frequenzbegrenzung. Rechts sieht man über 80% der Informationen. Um den weißen Strich herum gibt es nach wie vor (schwache) Geisterbild-Artefakte.
Diese Bildserie gibt den Geisterbilder-Effekt nur annähernd wieder, weil ein digitaler Tiefpass zum Einsatz kam, der ab einer bestimmten Frequenz komplett abschneidet. In der Realität gibt es eine allmähliche Dämpfung bei den hohen Frequenzen.
Natürlich gehen bei der Abtastung des Rohmaterials für die PAL-Ausstrahlung alle Details verloren, die so klein sind, dass sie nicht mehr in ein "effektives Pixel" passen. Erschwerend kommt die Problematik der Interlace-Ausstrahlung hinzu: Eigentlich dürfte man pro Halbbild nur 288 Zeilen abtasten, die entsprechend dicker sind. Man nimmt aber in der Regel 576 Zeilen, und strahlt pro Halbbild nur jede zweite Zeile aus. Bei Kino-Filmen, die statt mit 24 fps einfach mit 25 fps ausgestrahlt werden, wird ein Vollbild in zwei Halbbilder zerlegt, so dass der Deinterlacer beim 100-Hz-Gerät die Vollbilder wieder zusammensetzen kann. Viele Fernsehsendungen aber tasten jedoch tatsächlich 50 mal pro Sekunde an, so dass es immer nur Halbbilder gibt. Auch Konsolenspiele nutzen das Verfahren gerne, denn 50 Halbbild-fps wirken flüssiger als 25 Vollbild-fps.
Ein übliches Bildformat bei PAL-Spielen für die PS2 ist 512x512. Die Pixel der X-Achse werden dann auf die volle Bildschirmbreite skaliert. Bei DVD-Filmen sind es für PAL ja 704 oder 720 Pixel, doch wir reden hier über das digital vorliegende Material. PAL an sich hat keine Pixel, nur Zeilen und eine begrenzte Bandbreite pro Zeile.
Pixel Plus und Farbe
Bei Pixel Plus wird die Zahl der sichtbaren Zeilen wird ca. um ein Drittel erhöht. Das bringt natürlich keine neue Bildinformation. Hauptvorteil ist, dass die dünnen schwarzen Linien zwischen den einzelnen Bildzeilen kleiner werden, da es einfach mehr Bildzeilen gibt und diese entsprechend dichter liegen. Andernfalls einfach dickere Zeilen zu erzeugen hieße ja auch, unschärfere Zeilen auszugeben. (Fokussiert man den Kathodenstrahl genau, ist die Zeile dünn. Macht man ihn breit, streut der Strahl so, dass man keine feinen Details mehr darstellen kann.) Insofern ist es erst mal sinnvoll, auf großen Bildflächen zusätzliche Zeilen darzustellen. Klar ist aber, dass jede Skalierung einen Schärfeverlust beinhaltet: Folgt im Originalsignal auf eine rein schwarze Zeile ein rein weiße, wird man mit Pixelplus eine graue Zwischenlinie haben. Die Steilheit der Übergangs-Flanke wird abgeschwächt. Das merken wir uns erst mal.
Nun besteht das Bild für unser Auge aus Farben. Diese Farbinformationen sollen jetzt verbessert werden. Dazu betrachten wir in Kurzfom, wie die Farbe eigentlich übertragen wird.
Bei NTSC und PAL ist Bild in Helligkeit und Farbinformation zerlegt, primär um Rückwärtskompatibilität mit Schwarzweiß-Geräten zu gewährleisten, die nur das Helligkeits-Signal auswerten. Hätte man RGB-Farbe, bräuchte man drei Farbkanäle. Da beim Fernseh-Signal bereits die Helligkeitsinformation vorliegt, genügen zwei Farbkanäle, die die Rot- und Blau-Differenz zur Helligkeit speichern – hat man dann Rot und Blau dekodiert, kann man anhand der Helligkeit auch den Grünkanal zurückrechnen.
YIC (NTSC), YUV (PAL), YCbCr (auch YPbPr) (JFIF JPEG) – alle diese Modelle unterscheiden sich nur in ihren Koeffizienten. Zugrunde liegt der Gedanke, die Farbe in drei Bestandteile aufzuspalten:
- Reine Helligigkeit
- Farbton
- Farbsättigung
Damit besteht auf den ersten Blick eine Verwandschaft zum HSL-Modell, welches zum Beispiel auch bei der Windows-Farbauswahl genutzt werden kann. Doch die Umrechnung von und nach RGB ist recht aufwändig. Außerdem entspricht der L-Kanal bei HSL nicht direkt der tatsächlich wahrgenommenen Helligkeit.
YUV und vergleichbare Farbräume nutzen zur Berechnung der Helligkeit einen gewichteten Mittelwert der RGB-Werte: Rot zu ca. 30%, Grün zu 60% und Blau zu 10% bestimmen die Helligkeit. (Die genauen Koeffizienten spielen hier keine Rolle.) Grün fließt als hellste RGB-Grundfarbe also am meisten in die Helligkeit ein. Zur einfachen Umrechnungen werden Farbton- und Sättigung nicht direkt gespeichert, sondern man berechnet zur Helligkeit die Differenz zu Rot und zu Blau. Das kann man sich als komplexe Zahl oder als 2D-Vektor vorstellen – in jedem Fall liegt im Winkel der Farbton, in der Länge die Sättigung kodiert.
Der Vorteil ist die einfache Umrechnung mittels Matrizenmultiplikation und ohne Fallunterscheidungen, wie etwa bei HSL notwendig – sowie dass die Helligkeit auch wirklich der scheinbaren Farbhelligkeit entspricht. Das ist ja zur Kompatibilität mit Schwarzweißfernsehern notwendig. Im Computerbereich gab es Monochrom-Monitore, die rein den Grün-Kanal vom VGA-Signal ausgewertet haben. In Folge war dann rote Schrift auf blauem Grund komplett schwarz.
Wer kennt das Problem nicht, dass bei Speicherung eines Bildes als JPEG eine RGB-Farbe leicht geändert wird? JPEG nutzt YCbCr, und etwa drei Viertel dieses Farbraums ist nicht mit RGB darstellbar! Dadurch hat man bei 24-Bit-YCbCr effektiv einen Farbauflösungsverlust. Für YUV gilt in der Größenordnung das gleiche. Doch weil der Mensch sehr viel mehr Helligkeitsstufen einer Farbe unterscheiden kann als Farbtöne, spielt das keine Rolle.
Hat man die Werte Y, U und V, kann man erst mal R=B=G=Y den passenden RGB-Grauwert für die Farbhelligkeit bestimmen. Mit U und V liegen Rot- und Blau-Differenz vor, so dass man den tatsächlichen R- und B-Wert der Farbe ausrechnen kann. Damit ändert sich dann auch im Zwischenergebnis die Farbhelligkeit. Die tatsächliche Farbhelligkeit ist aber durch den Y-Wert bekannt, und die Differenz von der Helligkeit des Zwischenergebnisses zum Y-Wert ergibt dann den Grün-Wert.
Bei der NTSC-Farbe (nach dem YIC-Modell) gibt es aber, sofern die Übertragung etwas gestört wird, ein Problem. Die häufigsten Signalverfälschungen sind Phasenverschiebungen. Das heißt, das Signal kommt ein wenig später (oder früher) an, als erwartet. Im Helligkeitssignal belanglos – das Bild verschiebt sich minimal nach links oder rechts. Problematisch aber bei der Farbe, welche (mit Hilfe einer bestimmten Modulationsform) als Vektor, also Winkel-Information übertragen wird: Phasenverschiebungen bewirken dann natürlich Winkeländerung und damit eine Änderung des Farbtons. Wiesen werden lila, Gesichter grün …
http://www.dudv.de/files/3dcf/tv/pal4.png
Eine mögliche Farbangabe mit einer Helligkeit von 20%. Um den Mittelpunkt (hier: dunkelgrau) herum sind die Farben angeordnet. Im RGB-Modell können nicht alle kodierbaren Farben dargestellt werden. Tritt so etwas auf, wird jedoch kein Schwarz, sondern einfach ein etwas falscher Farbton angezeigt. Da vom RGB-Material ausgehend kodiert wird, kommt das auch nur bei Übertragungsstörungen vor.
Die Farbe ergibt sich aus zwei Angaben: Rot-Differenz und Blau-Differenz. Da die Helligkeit bekannt ist, lässt sich dann auch die Grün-Intensität ausrechnen.
http://www.dudv.de/files/3dcf/tv/pal6.png
Störungen des Signals führen bei NTSC dazu, dass sich der Farbwinkel ändert, und damit der Farbton.
PAL nutzt eine geringfügig andere Umrechnung, um aus den RGB-Werten die Farbinformation und Helligkeitsinformation zu trennen (nämlich YUV). Namensgebende Neuerung beim PAL-Verfahren ist aber, dass für jede zweite Zeile die Farbinformation um 180° phasengedreht gesendet wird. Damit ist PAL-Dekodierung etwas schwieriger, da zurückgedreht werden muss. Man nimmt dann auch den Mittelwert mit der Vorgängerzeile, denn die Wirkung des Phasenfehlers wird sich von Zeile zu Zeile nur minimal ändern. Der Phasenfehler und wirkt in der einen Zeile logischerweise in der entgegengesetzten Richtung wie in der phaseninvertierten Zeile – der Fehler hebt sich also auf. Tatsächlich wird zwar noch die Vektorlänge (hier: Farbsättigung) beeinflusst, das heißt, das Wiesengrün ist mal satter, mal matter, und das Gesicht mal roter, mal blasser. Das ist kaum zu sehen, und die störenden Farbtonschwankungen ist in jedem Fall man los. Doch dies erkauft man sich mit bis zu halbierter Farbauflösung!
Man kann durchaus pro Zeile eine andere Farbe als in der Vorgängerzeile haben, aber die Farbe wird in jedem Fall in der Vertikalen verwischt. Sauber getrennte Farbpixel sind mit PAL deshalb nicht darstellbar. Fernseher hätten die Möglichkeit, auf die Farbton-Korrektur durch Mittelwertbildung zu verzichten, inwieweit das genutzt wird, ist mir nicht bekannt.
http://www.dudv.de/files/3dcf/tv/pal8.png
Bei PAL ändert sich bei Übertragungsfehlern lediglich die Länge des Vektors, und damit die Farbsättigung.
Fassen wir zusammen: Bei PAL haben wir pro Halbbild ca. 270 nutzbare Zeilen Helligkeitsinformationen, die Farbinformation wird beim PAL-Standard in den Zeilen verwischt. Entgegen der allgemeinen Erwartung hat man auch keine 768 Pixel pro Zeile, sondern effektiv vielleicht 600 (Schätzwert). Das heißt, man kann pro Zeile höchstens 300 weiße und schwarze Details abwechselnd darstellen.
Nun steckt fast die gesamte Schärfe des Bildes im Helligkeitskanal. Das Farbsubsampling ist in normalen Filmszenen kaum zu spüren.
http://www.dudv.de/files/3dcf/tv/red.png
Was stimmt hier nicht? Pro 4x4-Pixelblock liegt nur eine Farbinformation vor, die auf die Umgebung interpoliert wurde. Trotz 16x-Farbsubsampling findet man keinen Grund zur Beanstandung.
http://www.dudv.de/files/3dcf/tv/org.png
Im direkten Vergleich wirkt das Original dann doch besser. Doch kennt man es nicht, vermisst man in der reduzierten Version auch nichts.
DVD-Video nutzt üblicherweise ein Farbsubsampling von 2x2, 2x1-Subsampling gilt bereits als Studioqualität.
Konsolenspiele sollten sich allerdings hüten, bei Textausgabe einen allzu dünnen Font zu verwenden und womöglich auch noch kontrastreiche Farben – das würde schrecklich aussehen. Der Font muss eine vergleichsweise dicke Strichstärke haben, und sollte sich primär über sein Helligkeitsattribut vom Hintergrund abheben. Pixel Plus wird sich wegen der Optimierung für Filme wohl vor allem auf den Helligkeits-Kanal stützen, um dort Schärfefilter anzuwenden.
Natürlich ist ein PAL-Bild aufgrund der begrenzten Auflösung nicht beliebig scharf. Filmt man eine Kante, die genau von schwarz auf weiß geht, wird man fast nie den Übergang exakt zwischen zwei Zeilen haben. Damit erhalten wir eine graue Zwischenzeile. Das Problem wird mit der Hochskalierung auf ungefähr 360 Zeilen pro Halbbild (der Rest ist abgeblendet) noch verstärkt.
Man muss sich klar machen, dass das Gerät bei 100 Hz weiterhin interlaced arbeitet. Ein 100-Hz-Fernseher kann in der Regel auf Wunsch auch einfach jede Zeile 2x ausgeben, somit ist man bei Kameraschwenks die Kamm-Artefakte los – doch für mehr als 50 Hz reicht im Doublescan-Modus die Zeilenfrequenz der Röhre nicht. Deshalb rede ich von ca. 360 angezeigten Zeilen pro Halbbild, auch wenn die Pixel-Plus-Verarbeitung wahrscheinlich für deinterlacte und hochskalierte Vollbilder mit 768 Zeilen (576 plus 1/3) stattfindet.
Ein Schärfefilter der "normale" Unschärfe bekämpfen soll, benötigt wie eingangs erwähnt eine Kernelgröße von mindestens 3x3. Es ist anzunehmen, dass Pixel Plus einen größeren Kernel nutzt, um die durch Zeilen-Hochskalierung enstehende zusätzliche vertikale Unschärfe zu bekämpfen. Dabei sollte man aber vorsichtig sein, so dass ein zu stark eingestellter Schärfefilter nicht nur für "Überschwinger" sorgt. Außerdem ist eine zu starke Flanken-Steilheit generell nicht gewünscht: Würden sich Objekte pro Bild immer um ganze Zeilen bewegen, könnte das die Wahrnehmbarkeit von Ruckeln verstärken. Um sowas zu bekämpfen, hat sich Philips "Digital Natural Motion" ausgedacht, was quasi beim adaptiven Deinterlacing abfällt. Doch weiter mit der Bildschärfung.
Pixel noch unquadratischer
Wie sieht es mit der Information innerhalb einer Zeile aus? Dazu kurz ein Exkurs in die anamorphe Kodierung. Ein letterboxed 16:9-Film in PAL kann pro Vollbild nur 432 statt 576 Zeilen nutzen, da oben und unten jeweils 72 Zeilen für schwarze Balken notwendig sind. Während "morphen" ja das verzerren (hier: von Bildern ist), ist etwas amorphes etwas Unveränderliches. Glas zum Beispiel ist vom Aggregatzustand her nicht fest (Festkörper haben bei ihren Atomen/Molekülen eine Kristallgitterstruktur) sondern so gesehen flüssig, nur amorph – es wirkt wie fest. Anamorph ist die Negierung der Negierung und bedeutet hier, nichtquadratische Pixel zu verwenden. Ungeachtet der Tatsache, dass ohnehin weder analoges noch digitales PAL quadratische Pixel haben …
Bei anamorphem Video werden also für 16:9-Bilder weiterhin alle Bildzeilen genutzt, und die Röhre komprimiert die Zeilen. Der Bildaufbau beginnt nicht mehr links oben sondern dort, wo der Balken zuende ist. Falsch wiedergebene anamorphe Videos sind entsprechend in die Höhe gezogen – tatsächlich findet man im Web immer wieder mal DVD-Screenshots die Eierköpfe und lange Gesichter zeigen.
16:9 entspricht 1:1,78, dabei nutzen Kinofilme oft 1:1,85 oder 1:2,35. Bei 1:1,85 sieht man trotzdem keine schwarzen Balken, weil die Randbereiche der Röhre ja wie erwähnt abgeblendet sind. Cinemascope (1:2,35) ist auf dem Film selbst anamorph belichtet worden und wird von der Projektor-Optik wieder entzerrt. DVD-Video kennt aber nur anamorphe 16:9-Kodierung. Letterboxed hätte man bei Cinemascope nur noch 327 Zeilen, dank anamorpher Kodierung bleiben 436 für das Bild nutzbare Zeilen übrig. Somit sind auch bei Breitbild-Filmen noch ganz gut Details zu erkennen.
Lange Rede, kurzer Sinn: Mit anamorpher Kodierung werden die Pixel noch mal breiter (bzw. flacher) gemacht, doch durch den Trick kann man mit normaler PAL-Information bei Breitbild-Filmen trotzdem noch einen vernünftigen Detailgrad speichern. Nur so kann ein Schärfefilter auch funktionieren, in dem er noch gespeicherte, aber schlecht sichtbare (da schwachkontrastige) Details wieder hervorhebt.
Bei quadratischen Pixeln hätte man beim 16:9-Format bei 576 Zeilen pro Zeile 1024 Pixel. Davon geht Pixel Plus auch aus, das TV-PAL-Signal welches effektiv in der Zeile bestenfalls 600 getrennte Informationen (also abwechselnd 300 weiße und 300 schwarze Details) darstellen kann wird für die digitale Bearbeitung als 1024-Pixel-Zeile gesehen. Durch eine doppelt so hohe Taktung der Steuerelektronik, die die Kathodenstrahlstärke regelt, werden bei Pixel Plus angeblich bis zu 2048 Pixel geboten. Aus eigentlich breiten und flachen Pixeln werden somit für die interne Verarbeitung mehrere sehr dünne, schmale Pixel. Das heißt für die Praxis, dass man in der Zeile sehr steile Flanken realisieren kann.
Was bringt das? Nun, Schärfe natürlich. Die Intensität des Elektronenstrahls kann nicht beliebig schnell geändert werden. Das Beispiel von 600 effektiven Pixeln pro Zeile meint keine 600 scharf getrennten Pixel, sondern eher sinusartige Helligkeitsschwankungen. Mit Pixel Plus können die Übergänge ca. 3x steiler gemacht werden, auf Schwarz folgt dann Weiß ohne dass man einen wahrnehmbaren grauen Zwischenraum hat.
Physikalische Auflösung
Seit längerem haben Fernseher eine Schlitzmaske, wobei die RGB-Elemente in Spalten angeordnet sind. Dies trägt der Tatsache Rechnung, das unsere Augen in der Vertikalen feiner auflösen als in der Horizontalen. Wer das probieren möchte, testet am besten mal einen TFT im Pivot-Modus aus: Die somit horizontalen TFT-Streifen sind dann viel einfacher zu sehen als bei normaler Ausrichtung, wo die Streifen in der Vertikalen liegen.
Bei der Röhre hat man bei der Anordnung der RGB-Elemente in Spalten den Vorteil, keine fixe Zeileauflösung zu haben: Der Kathodenstrahl kann das RGB-Element schließlich auch nur zum Teil zum Leuchten anregen, im Gegensatz zum TFT, wo immer ganze RGB-Subpixel mit bestimmter Intensität leuchten. Deshalb ist Zeilenkomprimierung für den 16:9-Modus beim 4:3-Fernseher kein Problem, es geht durch die Bauform der Röhre keine Auflösung verloren.
Geht man nahe genug an den Fernseher, kann man den Zeilenaufbau trotzdem sehen. Um das so weit wie möglich abzuschwächen, sind die RGB-Elemente pro zweiter Spalte um 1/2 Höhe versetzt:
http://www.dudv.de/files/3dcf/tv/pal9.png
Hier im nachgestellten Bild leuchten alle RGB-Elemente vollständig. Sie können aber auch nur zum Teil angeregt werden.
Während wir keine fixe Zeilenauflösung haben, scheint die Spaltenauflösung durch die Granularität der RGB-Elemente ja bestimmbar. Doch ein Röhrengerät ist kein TFT und stellt kein digitales, sondern ein analoges Signal dar. Sobald Pixel zur Anzeige gebracht werden sollen, die kleiner sind als ein RGB-Element breit ist, wird natürlich die Pixelfarbe verfälscht. Das fällt dann bei Detailbetrachtungen auch auf. Die Spaltenbreite eines RGB-Elements legt insofern zwar die minimale sinnvolle Pixelgröße fest, aber – ganz grob vergleichbar mit der Cleartype-Fontsglättung in Windows XP – ließen sich durchaus Subpixel nutzen.
Was man generell beachten muss: Besonders bei den Geräten mit flacher Bildröhre nimmt die Auflösung zum Rand hin ab. Der Kathodenstrahl trifft dann schließlich schräg im Winkel auf, und beeinflusst damit größere Flächen als in der Bildmitte, wo er senkrecht auf die Leuchtelemente trifft. Eine an und für sich unsinnig hohe Auflösung von 2048 Pixeln pro Zeile sorgt dann immerhin dafür, dass die Ränder – wenn sie auch unschärfer werden – nicht zu unscharf sind. Das Problem ist bei 16:9-Geräten natürlich noch drastischer, da die Röhre dort deutlich breiter als hoch ist. Wahrscheinlich gilt die Zahl der 2048 Pixel pro Zeile auch nur für 16:9-Geräte mit Pixel Plus, 4:3-Geräte hätten "nur" 1536 Pixel.
Problematik der Bildfehlerverstärkung
Gute Schärfefilter wirken letztlich wie eine Dynamikkomprimierung: Schwache Details werden verstärkt, ohnehin scharfe Kontraste werden (zur Artefaktvermeidung) hoffentlich in Ruhe gelassen. Was Musik angeht, empfinden die meisten Menschen Dynamikkompression als angenehm: Die Liedlautstärke ändert sich nicht zu stark. Das trifft offensichtlich auch für Bilder zu. Ein Computerspiel mit durchweg unscharfen Texturen kann trotzdem insich stimmig wirken. Wir bevorzugen natürlich durchweg scharfe Texturen. Doch das schlimmste wäre, im gleichen Bild sowohl feinste Details auch Matsch-Texturen zu haben.
Das heißt, ein vernünftig eingesetzter Schärfefilter kommt einfach unserem Empfinden entgegen. Trotz Bildverfälschung würde das von den meisten Menschen bevorzugt. Man muss aber auch sehen, dass bereits schwachkontrastige Details sowieso besonders "leiden" bei der verlustbehafteten Bildbehandlung, während starke Kontraste recht unbeschadet "überleben". Ein guter Schärfefilter macht dann auch keine bereits scharfen Kanten überscharf, sondern hebt vor allem die Dynamik in "leisen", also schwachkontrastigen Bereichen an.
Bei meinem Philips-Fernseher wirkt der Schärfefilter leider im gesamten Bild gleichmäßig: Schon bei der kleinsten Einstellung kann es um scharfe Kontraste Artefakte geben. Texturen profieren auf der anderen Seite von der Schärfe.
PAL ist HDTV natürlich klar unterlegen, da kann man noch so viel am Bild schärfen. Das PAL-Signal sieht zwar 576 Zeilen pro Vollbild vor, doch in der Praxis hat man eine Detailauflösung die spürbar darunter liegt – durch Frequenzbegrenzung und Farbsubsampling. Letzteres ist in Filmen weniger schlimm als man denkt. Das Helligkeitssignal trägt dem Großteil der Bildinformation. Filme werden eh mit Farbsubsampling gespeichert.
Bei Filmen hat man es aber noch sowohl mit Rauschen als auch mit Komprimierungsartefakten zu tun. Würde man einfach alles schärfen, würde man Rauschen und Komprimierungsartefakte erst so richtig herausarbeiten. Hier kann man Filter nutzen, die einen Schwellwert-Mechanimus haben: Liegen die lokalen Kontrastveränderungen unterhalb einer Schwelle, wird es für Rauschen gehalten und sogar noch geglättet. Andernfalls kommt der Schärfe-Filter zum Zuge.
Und jetzt sind wir endlich dort, wo wir hinwollten: Anhand welcher Charakteristiken trennt man Bildrauschen von Details? Wo setzt man den Schwellwert an, unter dem geglättet und über dem geschärft wird?
Der Einfluss des Rauschens ändert sich von Bild zu Bild. Das kann man als Anhaltspunkt nehmen, um Rauschen von Details zu trennen: Ändert sich der Inhalt eines schwachkontrastigen Bildbereiches nur langsam, dürfte es sich um Details handeln, die man durch digitale Bildschärfung besonders zur Geltung bringen sollte. Schwache Details bei sich schnell bewegenden Objekten kann das Auge ohnehin nicht erfassen, nur auf vergleichsweise ruhige Bereiche kann sich das Auge konzentrieren.
Solche Methoden bieten sich im Prinzip für Verfahren à la Pixel Plus an. Allerdings müsste man dafür immer die letzten angezeigten Bilder noch vorrätig haben. So viel Aufwand wird wahrscheinlich nicht betrieben. Für 3D-Kammfilter benötigt man immerhin noch zwei Bilder in Folge, mit mehr wird wohl auch Pixel Plus nicht arbeiten.
Unklar ist auch, ob Schärfe-Filtern in Fernsehern die nichtlineare Helligkeits-Kodierung berücksichtigen. Jeder Bildfilter sollte in einem linearen Raum durchgeführt werden, dorthin müssten die Farbwerte erst mal umgerechnet werden – und das Ergebnis müsste zurückgerechnet werden. Welche Auswirkungen das Fehlen solcher Umrechnung mitsich bringt, lässt sich zum Beispiel so zeigen:
http://www.dudv.de/files/3dcf/tv/kante.png
Das Bild mit etwas Abstand vom Monitor betrachten. Eine Kante erscheint etwas hügelig, die andere glatt.
Fazit
Theoretisch bestünde die Möglichkeit, durch Nachbehandlung der Bilder diese zu verbessern. In der Praxis wäre der Aufwand jedoch so groß, dass bei Pixel Plus zwar die Streifigkeit des Bildes reduziert wird und man in der Horizontalen die Flankensteilheit erhöht, was ermöglicht Pixel besser voneinander zu trennen. Doch damit der Schärfefilter nicht noch unerwünschtes Bild-Grisseln verstärkt, muss er die vorherigen Bilder kennen, um Rauschen von Bilddetails zu trennen. Neben dem Rechenaufwand, erst reicht bei Umrechnung in lineare Farbräume, ist auch der erforderliche Speicherplatz zu berücksichtigen. Damit dürfte eine Realisierung vorliegen, deren positive Wirkung recht begrenzt ist.