Wie weit ist denn die Sprachgenerierung eigentlich? [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Wie weit ist denn die Sprachgenerierung eigentlich?

The Dude

2004-01-13, 18:22:52

RPGs wie Neverwinter Nights, Morrowind und auch Knights of the old Republic haben eins gemeinsam:

Es gibt zwar Spracheausgabe, jedoch mal mehr, mal weniger komplett.
Bei Morrowind gibt es fast gar nix, bei NwN werden des öfteren wenigsten noch die ersten paar Sätze gesprochen und selbst beim aktuellen RPG Kotor, bei dem ja ein riesiger Aufwand betrieben worden ist, fehlt die Stimme des eigenen Charakters, was meiner Meinung nicht gerade förderlich für die Atmosphäre ist.
Klar ist, dass es ein unbezahlbarer Aufwand wäre, bei Kotor zum ersten alle auswählbaren Antwort-Möglichenkeiten, und zum zweiten das ganze noch in verschiedenen Sprachen (da ja unterschiedliche Charaktäre wählbar sind) zu synchronisieren.

Aber - Da es schon auf dem C64 vor 18 Jahren möglich war, einen Text vom Rechner zumindest einigermassen verständlich sprechen zu lassen, frage ich mich:

Wie lange dauert es wohl noch, bis die erste qualitativ hochwertige und kommerziell nutzbare Sprach-Engine entwickelt werden kann?
Mir ist klar, dass die größte Schwierigkeit einer solchen Engine wäre, die Betonung richtig hinzukriegen, da der Sinn des gesprochenen im wesentlichen davon abhängt.

Doch mit genug Rechenpower müßte es doch möglich sein!? Und ich kann mir vorstellen, dass die Kosten für die ganzen Profi-Synchronsprecher für Kotor auch nicht gerade klein waren...

Greez

Coda

2004-01-13, 18:55:42

Ich glaube das Problem ist nicht die Rechenpower, sondern die Schwierigkeit die menschliche Stimme durch Computer nachzuahmen
Das ist unglaublich komplex, vor allem wenn man auch noch die verschiedenen Sprachen und Dialekte in Betracht zieht

-error-

2004-01-13, 21:59:04

Heute können doch schon Navigationssysteme Dialekte verstehen.

[dzp]Viper

2004-01-13, 22:08:39

Es gibt bereits Programme die texte (emails und co) vorlesen können. Nur können sie das alle monoton und genau da besteht das problem. Was nütz mir ein Programm was Texte vorlesen kann aber das ganze nicht betonen und Emotional ausschmücken kann? Garnicht!

Und woher soll der PC den wissen wie er bei dem und dem satz reagieren soll... ;)

haifisch1896

2004-01-13, 22:37:15

Das wäre ja mit Voicestreams zu lösen. Ich meine also per wav - wie früher mal. Oder als MP3. Ich glaube, GAT3 und GTA VC haben das auch mit mp3. Das wäre wohl weniger das Problem an der Sache. Aber vielleicht liegt es an dem Speicherplatz, den die Sprachdaten belegen würden.

Xmas

2004-01-13, 22:37:48

Ordentliches Text-to-Speech ist ja auch wesentlich schwieriger als eine Sprachgenerierung, der man viel mehr Informationen zur Verfügung stellen kann. Bei Spielen oder ähnlichem sind ja die gesprochenen Sätze von vornherein bekannt.

Dummerweise ist es viel aufwändiger, die "Ausspracheinformationen" für einen Satz zu erarbeiten und einzugeben, denn einen Synchronsprecher den Satz sprechen zu lassen. Also lohnt sich das nur, wenn man beliebige Stimmen benutzen möchte. Sonst ist man wieder beim Text-to-Speech Problem, was letztlich darauf hinausläuft, dass der Computer Sätze "versteht".

Gast

2004-01-13, 22:51:24

imho ist sowas reine Utopie - das wird's NIE geben! Ebenso wenig wie eine perfekt menschliche KI. Man kann einer KI -entsprechende Technologien vorrausgesetzt - alles mögliche beibringen, nur nicht sich menschlich zu verhalten, sprich Emotionen und Verhaltenscharakteristika zu zeigen, für ihre Fehler die Konsequenzen einzubeziehen etcpp.

Das bleibt imho alles Wunschdenken, leider :(

Thomas Gräf

2004-01-13, 23:32:36

...auchmal was fragen wollen...;)

Inwieweit ist es denn möglich zb. einen
Motorensound a'la V8-Rennmaschine oder ähnlichem,
per heutiger PC-Technik glaubwürdig zu erzeugen.

Bis dato gabs ja nur diese .wav Geschichten...naja.

Wie machen das eigentlich diese MIDI Software Synthis,
die können doch in Echtzeit berechnen ,oder?

Müßte dann eine Soundkarte letztendlich genausoviel
berechnen können wie einen heutige 3D-Graka...?

grs.
Thomas

RoKo

2004-01-14, 00:16:28

Original geschrieben von Gast
imho ist sowas reine Utopie - das wird's NIE geben! Ebenso wenig wie eine perfekt menschliche KI. Man kann einer KI -entsprechende Technologien vorrausgesetzt - alles mögliche beibringen, nur nicht sich menschlich zu verhalten, sprich Emotionen und Verhaltenscharakteristika zu zeigen, für ihre Fehler die Konsequenzen einzubeziehen etcpp.

Das bleibt imho alles Wunschdenken, leider :(
Nach derzeitigem Stand der Wissenschaft scheint das Gehirn rein komputational zu funktionieren - und wenn man damit richtig liegt, wird man mit einem Computer ein Gehirn und damit menschliche Intelligenz simulieren/emulieren können.
Aber Emotionen sind doch ziemlich das simpelste - im einfachsten Fall "if (energy < 50) heul();", im komplizierteren Fall ein bißchen Fuzzy Logik. Verhaltenscharakteristika auch: "heulgrenze = rand();".
Und viel mehr ist das doch beim Menschen auch nicht, Emotionen werden durch bestimmte Ereignisse getriggert und dann fließen ein paar Hormone durchs Blut.
Kompliziert ist Kreativität.

haifisch1896

2004-01-14, 00:56:08

Wer möchte sich schon einen heulenden Roboter gönnen? Oder einen, der einen vielleicht als Arschloch tituliert, wenn man dem was bestimmtes sagt? Also ich nicht!

Zool

2004-01-14, 08:47:43

Tigerchen

2004-01-14, 14:55:43

Solange der Rechner nicht weiß was er vor sich hinbrabbelt ist zu lesender Text bei Spielen wie Morrowind sicher die bessere Lösung. Bei mir entstehen dann Aussprache,Stimmhöhe und Betonung dann ganz automatisch im Kopf. Eine Stimmausgabe ohne Sinn und Verstand würde eher stören.

The Dude

2004-01-14, 15:57:26

Original geschrieben von Tigerchen

Solange der Rechner nicht weiß was er vor sich hinbrabbelt ist zu lesender Text bei Spielen wie Morrowind sicher die bessere Lösung. Bei mir entstehen dann Aussprache,Stimmhöhe und Betonung dann ganz automatisch im Kopf. Eine Stimmausgabe ohne Sinn und Verstand würde eher stören.

Mir ist schon klar, dass ein Rechner denn Sinn des gesprochennen nie verstehen wird und daher die Wörter niemals von alleine in richtiger Betonung "sprechen" würde.

Aber wäre es nicht möglich diese Betonungsmuster zu programmieren?

Einfacher Beispielsatz: "Wie komme ich denn am besten in die Stadt rein?"
Würde man diesen Satz von einem Rechner sprechen lassen würde es auf Anhieb natürlich sehr platt klingen, weil er es mit gleicher Tonhöhe und Pausen zwischen den Wörtern sprechen würde.
Würde man dem Programm aber vorgeben welche Tonhöhen die entsprechenden Silben haben sollen und wo wie lange Pausen einzuhalten sind, dann hätte man ein um Längen besseres Ergebnis.
"Wie (lange Pause) komme (Tonhöhe tiefer) ich denn am besten (Tonhöhen wieder langsam ansteigen lassen) (lange Pause) in die (Tonhöhe wieder tiefer) die Stadt (Tonhöhe am höchsten) rein ?"

Nehmen wir an, dass es möglich wäre, dem Programm in mühsammer Kleinarbeit beizubringen wie es einen Satz richtig aussprechen soll (was bestimmt schon möglich ist), dann würde es natürilch nicht viel bringen. Stichwort Wirtschaftlichkeit.

Doch - konnte ein Programm von schon gesprochenen Sätzen "lernen"? Es wäre doch möglich, dass die Kiste auf eine riesige Datenbank mit vielen schon fertigen Sätzen zugreifen könnte und ständig die Aussprache mit dem neuen Satz vergleicht und anpasst?

Greez...

Tigerchen

2004-01-14, 16:20:16

Nein. Das geht nicht. Wie ein Satz auszusprechen ist hängt auch vom Zusammenhang ab in dem der Satz steht. Ich denke das wird dann so kompliziert daß eine Synchronisation dann doch einfacher ist.

Gast

2004-01-18, 10:36:39

Probierts mal mit Logox 4

drmaniac

2004-01-30, 13:57:20

genau, logox ist ziemlich klein (5 bis 6 MB) und liest deutsche Texte vor. Und das ziemlich genial ! Es stehen ...einige Stimmen zur Auswahl, auch nette Frauen mit Akzent ;)

Ein Schelm, wer nun Anfanget und sich erotik seiten ...

RoKo

2004-01-30, 15:24:11

Original geschrieben von drmaniac
genau, logox ist ziemlich klein (5 bis 6 MB) und liest deutsche Texte vor. Und das ziemlich genial ! Es stehen ...einige Stimmen zur Auswahl, auch nette Frauen mit Akzent ;)

Ein Schelm, wer nun Anfanget und sich erotik seiten ...
Hm, wirklich anders als das Programm, das vor fast 20 Jahren jedem Amiga beilag klingt das leider auch nicht.

AMC

2004-02-08, 23:18:06

...wir haben über 5 millionen arbeitslose in deutschland. wie wäre es, wenn man einfach ein paar von denen nimmt, um die stimmen der charaktere in einem computerspiel zu sprechen? schon hätte man 'echt' klingende stimmen und damit auch atmosphäre und im .mp3 format nehmen die auch kaum platz weg und zusätzlich haben ein paar menschen nen netten, wenn auch kurzzeitigen job. wäre doch mal ein denkanstoss für die entwickler.

es sollte doch wirklich kein problem sein, menschen zu finden, die die texte in computerspielen a la morrowind sprechen. ein gutes beispiel ist hier ja gothic 1/2, wo wirklich so gut wie jeder text gesprochen wird -> leider aber immer von denselben leuten, dass nervt auch tierisch. wie gesagt, es gibt genug menschen in deutschland, die sicher eine sprechrolle übernehmen würden.

amc

Xmas

2004-02-09, 00:07:06

Original geschrieben von AMC
...wir haben über 5 millionen arbeitslose in deutschland. wie wäre es, wenn man einfach ein paar von denen nimmt, um die stimmen der charaktere in einem computerspiel zu sprechen? schon hätte man 'echt' klingende stimmen und damit auch atmosphäre und im .mp3 format nehmen die auch kaum platz weg und zusätzlich haben ein paar menschen nen netten, wenn auch kurzzeitigen job. wäre doch mal ein denkanstoss für die entwickler.
Nimm dir mal ein Diktiergerät und sprich in der Fußgängerzone Leute an, dass sie dir doch bitte einen bestimmten Satz mit vorgegebener Betonung vorsprechen sollen. Nachdem du so etwa 300 Proben gesammelt hast, hörst du dir sie zu Hause in aller Ruhe an und sortierst alle aus, die Nuscheln, schlecht betonen, einen starken Akzent oder einfach keine vernünftige Stimme haben. Die verbleibenden zwei Personen fragst du dann, ob sie eine Sprecherausbildung machen und für ein wenig Geld einige Sätze sprechen wollen. ;)

Ernsthaft, Synchronsprecher ist ein Beruf der erlernt werden muss, aber auch Talent erfordert. Und gut verdienen tun damit nur wenige, für die meisten ist es ein Nebenjob.

AMC

2004-02-09, 02:14:15

sogesehen hast du sicher recht. nicht jeder ist dafür geeignet, aber eigentlich wollte ich auch mehr in richtung sprachgenerierung durch computer wettern. ich bin mir aber sicher, dass wir aus 5 millionen menschen mehrere tausend mit ordentlicher intonation, stimme und deutschkenntnissen herausfiltern können. ;D

auf jeden fall scheinen einige der sprecher aus heutigen computerspielen a la gothic 2 oder X2 wirklich direkt von der strasse zu kommen, die klingen zum teil wirklich sehr grausig.

amc

Lokadamus

2004-02-09, 04:00:24

mmm...

Entweder entwickelt das eine Firma ganz alleine und verkauft diese dann als Lizenz an andere Firmen oder gar nicht. Ich möchte gar nicht wissen, wie hoch der Aufwand wäre, 200 verschiedene Personen darstellen lassen zu können, vor allem, wenn einige auch noch nuscheln können sollen. Sollte das auch noch in jeder Zeile extra reinprogrammiert werden müssen, wie eine Person spricht, wäre der Aufwand zu gross, da ist es doch einfacher, ein MP3 aufzurufen und den Text auszugeben, Probleme sind hierbei wieder die Sprecher selber und der benötigte Platz (naja, nicht mehr wirklich) ... sollte eine Spielefirma sowas alleine entwickeln wollen, möchte ich nicht wissen, wie teuer alleine sowas wäre, vor allem auf die Gefahr hinaus, das es am Ende unbrauchbar ist ...

tokugawa

2004-02-14, 19:25:46

Original geschrieben von Thomas Gräf
...auchmal was fragen wollen...;)

Inwieweit ist es denn möglich zb. einen
Motorensound a'la V8-Rennmaschine oder ähnlichem,
per heutiger PC-Technik glaubwürdig zu erzeugen.

Bis dato gabs ja nur diese .wav Geschichten...naja.

Wie machen das eigentlich diese MIDI Software Synthis,
die können doch in Echtzeit berechnen ,oder?

Müßte dann eine Soundkarte letztendlich genausoviel
berechnen können wie einen heutige 3D-Graka...?

grs.
Thomas

Bei "Geräuschen" (und Instrumentenklänge sind ja auch nur Geräusche) ist es leichter, diese per "Physical Modelling" zu modellieren.

Speziell bei akustisch einfachem Aufbau (z.B. Resonanzkörper + Saite), läßt es sich relativ gut berechnen.

Kostet trotzdem relativ viel Rechenleistung, die meisten Software-Synthesizer (oder Semi-SoftSynths, die auf DSP Karten wie der Creamware Pulsar laufen) die auf Physical Modelling basieren, generieren außerdem nur monophon (als nur ein Ton gleichzeitig).

Aber es läßt sich auch tricksen. Die Sample Player Methode (im Volksmund oft "Wavetable" genannt, die Bezeichnung ist etwas inkorrekt) erreicht ein überzeugendes Grundgeräusch, auf das man verschiedene (Filter) Algorithmen anwenden kann... ähnliches könnte man für "relativ physikalischen" Sound wie Motorengeräusche einsetzen.

(Ein Beispiel aus der Musik, das sowas in der Art einsetzt, ist die Steinberg HALion String Edition, die auf Samples basiert, aber erstens 5 GB davon, in jeder erdenklichen Spielweise, sowie speziell daraus angepaßte Filter bzw. Samplertechnik)

tokugawa

2004-02-14, 19:29:26

Original geschrieben von The Dude
RPGs wie Neverwinter Nights, Morrowind und auch Knights of the old Republic haben eins gemeinsam:

Es gibt zwar Spracheausgabe, jedoch mal mehr, mal weniger komplett.
Bei Morrowind gibt es fast gar nix, bei NwN werden des öfteren wenigsten noch die ersten paar Sätze gesprochen und selbst beim aktuellen RPG Kotor, bei dem ja ein riesiger Aufwand betrieben worden ist, fehlt die Stimme des eigenen Charakters, was meiner Meinung nicht gerade förderlich für die Atmosphäre ist.
Klar ist, dass es ein unbezahlbarer Aufwand wäre, bei Kotor zum ersten alle auswählbaren Antwort-Möglichenkeiten, und zum zweiten das ganze noch in verschiedenen Sprachen (da ja unterschiedliche Charaktäre wählbar sind) zu synchronisieren.

Aber - Da es schon auf dem C64 vor 18 Jahren möglich war, einen Text vom Rechner zumindest einigermassen verständlich sprechen zu lassen, frage ich mich:

Wie lange dauert es wohl noch, bis die erste qualitativ hochwertige und kommerziell nutzbare Sprach-Engine entwickelt werden kann?
Mir ist klar, dass die größte Schwierigkeit einer solchen Engine wäre, die Betonung richtig hinzukriegen, da der Sinn des gesprochenen im wesentlichen davon abhängt.

Doch mit genug Rechenpower müßte es doch möglich sein!? Und ich kann mir vorstellen, dass die Kosten für die ganzen Profi-Synchronsprecher für Kotor auch nicht gerade klein waren...

Greez

Ein weiteres Problem ist auch, dass genau jene Spiele eben Rollenspiele sind, bei denen es so sein soll, dass man sich total in den eigenen Charakter versetzt... du könntest ja die eigenen Zeilen selber vorlesen :)

Ich denke in einigen Fällen würde es sogar Atmosphäre killen, wenn man dann für den eigenen Charakter eine Stimme bekäme, mit der man sich überhaupt nicht identifizieren könnte...

(Außerdem ist Speicherplatz trotzdem auch heute noch ein Problem, mit den ganzen Rassen und so gibt es sicher duzende Charakterkombinationen, die jeweils eine eigene Stimmencharakteristik haben... zumindest denk ich sollte ein Zwerg anders klingen als ein Drow...)

tokugawa

2004-02-14, 19:38:52

Original geschrieben von Thomas Gräf
...auchmal was fragen wollen...;)

Inwieweit ist es denn möglich zb. einen
Motorensound a'la V8-Rennmaschine oder ähnlichem,
per heutiger PC-Technik glaubwürdig zu erzeugen.

Bis dato gabs ja nur diese .wav Geschichten...naja.

Wie machen das eigentlich diese MIDI Software Synthis,
die können doch in Echtzeit berechnen ,oder?

Müßte dann eine Soundkarte letztendlich genausoviel
berechnen können wie einen heutige 3D-Graka...?

grs.
Thomas

Es gibt tatsächlich einige Soundkarten, die flexibler sind (programmiertechnisch) selbst als heutige 3D-Grakas...

Diese DSP-Karten waren aber recht teuer, hatten dafür mehrere DSPs on board, in die man "plugins" laden konnte, das konnte ein SoftSynth sein, oder ein Effektplugin oder ein Filter oder oder oder... (sind auch programmtechnisch komplexer als die heutigen Shader).

Creamware Pulsar/SCOPE/Luna, Korg OaSYS (gibt's nimmer... und auch nur Win9x Treiber...), und TC Powercore sind einige Beispiele dafür... die Preise erwähn ich lieber nicht (könnte man sich wohl durchschnittlich ein duzend High-End Grafikkarten dafür kaufen).

Heutzutage geht der Trend aber eher wieder in Richtung Low-Latency Audiokarte ohne DSP-Funktionen und ohne internen MIDI-Synth (aber trotzdem mit MIDI-Interface) in Kombination mit einem schnellen Rechner, und die ganzen Plugins in Software (ist noch flexibler, da die Plugins für DSPs speziell für jeden DSP-Typ (also praktisch für jede Soundkarte speziell) programmiert worden sein muß).

Der Trend zur "Eierlegenden Wollmilchsau" (übrigens ist das genau das Wort, für das die "EWS" Kürzel bei den Terratec EWS-Produkten gestanden ist, kein Scherz) bei den Soundkarten ist also wieder zurückgegangen.

Thomas Gräf

2004-02-17, 22:21:50

Danke tokugawa für Deine Ausführungen.

grs.
th