OpenAI Sora - Creating video from text [Archiv]

Daredevil

2024-02-15, 19:58:51

Moin!

ChatGPT ist Schnee von gestern jetzt gehts der kompletten Videobasierten Welt an den Kragen.
Wahnsinn, wie sehr diese Technologie das Internet, das Fernsehen und Bewegtbild komplett verändern wird.
Was meint ihr?

OpenAI Sora
https://openai.com/sora
Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Beispielvideos:
https://cdn.openai.com/sora/videos/snow-dogs.mp4
https://cdn.openai.com/sora/videos/tokyo-walk.mp4
https://cdn.openai.com/sora/videos/octopus-and-crab.mp4

NYTimes:
https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html
In April, a New York start-up called Runway AI unveiled technology that let people generate videos, like a cow at a birthday party or a dog chatting on a smartphone, simply by typing a sentence into a box on a computer screen.

The four-second videos were blurry, choppy, distorted and disturbing. But they were a clear sign that artificial intelligence technologies would generate increasingly convincing videos in the months and years to come.

Just 10 months later, the San Francisco start-up OpenAI has unveiled a similar system that creates videos that look as if they were lifted from a Hollywood movie. A demonstration included short videos — created in minutes — of woolly mammoths trotting through a snowy meadow, a monster gazing at a melting candle and a Tokyo street scene seemingly shot by a camera swooping across the city.

Mfg DD

konkretor

2024-02-15, 22:08:27

Ja es ist wirklich extrem, wie schnell diese Technik sich entwickelt

Darkman.X

2024-02-15, 23:13:42

Nach den Bildern vor einigen Wochen: Wo sind die entsprechenden Videos zu Taylor Swift? :freak:

Fusion_Power

2024-02-15, 23:16:31

Wow, das sieht beeindruckend aus und nach ziemlich viel Rechenaufwand. Aber die wichtigste Frage wie immer: gibts ne Porn-Sperre oder keine Restriktionen? :rolleyes:

Leonidas

2024-02-16, 03:47:07

GTA 7 on Sora:
https://twitter.com/PcPhilanthropy/status/1758247158921244999

fondness

2024-02-16, 09:19:44

Verrückt, hier ein paar Beispiele, alle extrem beeindruckend IMO:
https://twitter.com/duborges/status/1758196706733068326

Loeschzwerg

2024-02-16, 09:51:46

Technisch finde ich das ebenfalls sehr beeindruckend, aber sonst dreht es mir eigentlich eher den Magen um. Gerade in der jetzigen Zeit, wo verstärkt überall nur gehetzt und manipuliert wird, wo es an jeder Ecke bröckelt und bröselt... Genau da brauchen wir in meinen Augen keine Tools mit denen noch viel mehr Schabernack getrieben werden kann. Aber jetzt ist es halt nunmal da.
Für den Schaffensprozess (z.B. Spiel, Film... whatever) finde ich die Möglichkeiten durch AI durchaus sehr interessant, aber machen wir uns nichts vor, das wird überwiegend nur für Werbung, Abzocke und Verarschung verwendet.

Daredevil

2024-02-16, 12:19:14

Was man übrigens "gestern" schon n Videoform in "Filmen" machen kann, sieht man beim neuesten Video von Julian Bam ziemlich gut. Ich würde mir auch nen kompletten Film in der Art anschauen, wenns interessant ist. ^^
https://youtu.be/kgGPUt7C6E8?si=dtitdvZzrWtS3Osa&t=2105

Das ist natürlich weit entfernt von dem gezeigten von OpenAI, hat natürlich auch noch eine gewissen kreativen "Spielraum". Das machts aber natürlich für Kreative ohne kreative Skills viel einfacher, das finde ich echt klasse. Bildbearbeitung und Bildgenerierung nehme ich für meine YouTube Videos/Thumbnails auch sehr gerne, kleine Stock Videos machen alles natürlich viel attraktiver. Harte Zeit für Anbieter von Stock Content und eine Nicht-Wert schätzende Zeit für dieses Handwerk.

woodsdog

2024-02-16, 13:14:23

haha in GANZ GANZ naher Zukunft kann man schlicht gar nix mehr glauben, egal wie "real" es ausschaut.

R.I.P. Everything was man nicht mit dein eigenen Augen Live* gesehen hat.

*ohne Headset

war schön so lange es ging.

Fusion_Power

2024-02-16, 13:38:32

Ich sehs mal vorsichtig positiv. Endlich kann Hollywood wieder gutes CGI machen ohne dass sich die Künstler tot arbeiten. Die letzten Jahre wurde da ja leider oft viel Müll produziert, auch bei extrem teuren (Marvel) Produktionen. Die Effekte spiegelten oft nicht mal ansatzweise das hohe Budget wieder.

Sardaukar.nsn

2024-02-16, 14:33:18

Drehbücher bzw. Autoren braucht man ja auch nicht mehr so dringend da ChatGPT die Prompts für Sora auch vorher produzieren kann.
Als Schauspieler würde ich mir schnell Gesicht und Stimme patentieren lassen. Ist aber wahrscheinlich schon Realität.

Lurtz

2024-02-16, 14:37:29

Technisch finde ich das ebenfalls sehr beeindruckend, aber sonst dreht es mir eigentlich eher den Magen um. Gerade in der jetzigen Zeit, wo verstärkt überall nur gehetzt und manipuliert wird, wo es an jeder Ecke bröckelt und bröselt... Genau da brauchen wir in meinen Augen keine Tools mit denen noch viel mehr Schabernack getrieben werden kann. Aber jetzt ist es halt nunmal da.
Für den Schaffensprozess (z.B. Spiel, Film... whatever) finde ich die Möglichkeiten durch AI durchaus sehr interessant, aber machen wir uns nichts vor, das wird überwiegend nur für Werbung, Abzocke und Verarschung verwendet.
AI wird das bisschen Rest an gesundem Menschenverstand und gesellschaftlichem Zusammenhalt, der noch existiert, endgültig zerstören.

mboeller

2024-02-16, 17:02:27

https://newatlas.com/technology/openai-sora-video-ai/

Mammuts und Geländewagen sind so lala, die anderen Videos aber teilweise ziemlich beeindruckend.

kleeBa

2024-02-16, 18:41:34

Ich sehe schon das Video vor mir, in dem Kanzler Scholz alles zugibt, Chemtrails, 11.9. Inside Job, Impflüge, Corona Verschwörung, QAnon, gezielter Bevölkerungsaustausch in Deutschland/ Europa.....
Und die Hälfte der Deppen in den einschlägigen Telegramgruppen wird das glauben, weil das Video beweist das ja und so.

GBWolf

2024-03-21, 10:42:42

Ist schon Hammer, jeder kann jetzt alle seine Fantasien, Träume etc von KI verfilmen lassen.

Wird natürlich unendlich viel Müll produzieren aber auch unfassbar geniale Dinge die man bisher für unmöglich gehalten hat.

readonly

2024-03-21, 12:41:08

Braucht alles noch ein wenig. Man muss feste "Schauspieler" und "Drehorte" definieren können. Dazu Kamerastil usw. - Denke aber das bekommt man alles hin, da wird es mächtige Tools geben. Hollywood wird wohl einmal von rechts nach links gekrempelt.

Durango

2024-03-21, 13:46:02

Braucht alles noch ein wenig. Man muss feste "Schauspieler" und "Drehorte" definieren können.
Grad das, temporale Stabilität, ist verdammt schwer mit dieser Technologie (LLM). Das Ergebnis ist halt immer etwas ungewiss. Die Videos sehen nett aus, aber mit ein paar Schnitten und so vom selben Objekt sähe das anders aus.

Daredevil

2024-03-21, 14:10:30

Hier übrigens ein spannendes Interview vom WSJ mit dem CTO von OpenAI über Sora

OpenAI Made Me Crazy Videos—Then the CTO Answered (Most of) My Questions
https://www.wsj.com/video/series/joanna-stern-personal-technology/openai-made-me-crazy-videosthen-the-cto-answered-most-of-my-questions/C2188768-D570-4456-8574-9941D4F9D7E2

Gouvernator

2024-05-05, 03:35:34

https://humanaigc.github.io/emote-portrait-alive/

Sowas wäre auch nicht schlecht als GPU Anwendung für zu Hause. Fotos mit Audio File animieren.

Ghost1nTh3GPU

2024-05-05, 12:07:32

Grad das, temporale Stabilität, ist verdammt schwer mit dieser Technologie (LLM). Das Ergebnis ist halt immer etwas ungewiss. Die Videos sehen nett aus, aber mit ein paar Schnitten und so vom selben Objekt sähe das anders aus.

Naja, irgenwann fällt das auch unter die Wahrnehmungsschwelle: siehe z.B. die Stunt-Doubles in den aktuellen Non-KI-Filmen. ;)

Man muss halt die KIs weiter auf diese Anforderung Trainieren, notfalls durch Reinforcement durch eine andere KI, die solche Abweichung bemerkt bzw. nach einem menschlichen Aufmerksamkeitsmuster bewertet.

mboeller

2024-06-07, 17:46:33

gerade auf Twitter gefunden:

Sora auf Chinesisch:
https://x.com/bdsqlsz/status/1798710076175528354

mboeller

2024-06-09, 18:48:13

und noch ein Video auf Twitter:

https://x.com/ThingsHiddenn/status/1799111372267225155

Der Herr der Ringe, ein wenig modernisiert... SEHR witzig (IMHO)

Fusion_Power

2024-06-09, 18:50:17

Frag mich echt wie viel pure Rechenpower solche Szenen benötigen. Kann man das in der Form schon aufm eigenen PC deichseln oder muss es noch auf großen Serverfarmen generiert werden?

mboeller

2024-06-13, 07:19:24

Luma Preview:

https://x.com/justin_hart/status/1800926207577575450

WTF!!

Karümel

2024-06-13, 07:39:16

Interessant wird es wohl erst wenn die Clips nicht nur ein paar Sekunden dauern sondern Minuten, ob da alles immer noch "passt"?

Durango

2024-06-13, 13:43:27

Interessant wird es wohl erst wenn die Clips nicht nur ein paar Sekunden dauern sondern Minuten, ob da alles immer noch "passt"?
Wäre das möglich, hätten die das bereits stolz gezeigt.
Längere Videos mit Kamera- oder gar Szenenwechseln, wo Charaktere gleich bleiben, sind nicht möglich. Halt wie mit Bildern.

Daredevil

2024-06-13, 14:12:24

Wieso sollte das nicht möglich sein? Du muss ja "nur" das Modell hingehend trainieren, damit es genau dies macht und dann ist es selbstverständlich möglich, gleichbleibende Menschen zu erschaffen in verschiedenen Szenen. Genauso wie ein neuronales Netzwerk eine Katze erkennt, kann es auch darauf trainiert werden, eine bestimmte Person mit speziellen körperlichen Eigenschaften darzustellen. Dann braucht es nur noch Vorstellungskraft und Rechenleistung.
Das ist imho keine Frage des ob, sondern des wann und letzteres ist limitiert durch Rechenleistung, die in der Theorie umlimitiert ist.

Das eine Person praktisch immer "gleich" aussehen kann, zeigt die digitale Perle hier ganz gut
https://www.instagram.com/fit_aitana/

Und auch die ist ja nicht mal perfekt, sieht aber für die meisten fotorealistisch aus. Es braucht nur Rechenleistung um bessere Bilder zu erschaffen und somit irgendwann auch Videos in besserer Qualität und/oder Länge.

Rooter

2024-06-14, 19:16:07

Luma Preview:

https://x.com/justin_hart/status/1800926207577575450

WTF!!Was WTF? Ist immer noch größtenteils schwammig/wabbelig.

Interessant wird es wohl erst wenn die Clips nicht nur ein paar Sekunden dauern sondern Minuten, ob da alles immer noch "passt"?Ja, das ist der Damm, der gebrochen werden muss. Oder 2 Stunden. Oder mehrere Staffeln. :wink:

Wieso sollte das nicht möglich sein?Stimmt, bei ChatGPT kann man sich in einer Unterhaltung ja auch auf älteres beziehen. Wird nur eine Frage der Zeit sein, bis das auch für Videos möglich ist. "Lass Charaker XYZ dies und das an Ort ABC machen."

MfG
Rooter

Daredevil

2025-05-25, 16:03:22

Ist ja alles keine Frage des ob, sondern des wann. Und Ton ist dieses mal sogar inklusive.

Ein Jahr später, gg Google Veo 3. Und das hier ist ebenfalls wiederum schlecht im Vergleich zu dem, was wir in einem Jahr sehen werden.
Das ist quasi DLSS5. ;D
cIG3yfKAFtI

1Qh_7BtsrK8

IOg8QvKhO1A

Längere Videos mit Kamera- oder gar Szenenwechseln, wo Charaktere gleich bleiben, sind nicht möglich. Halt wie mit Bildern.
Everything is possible with AI, you need just the right Model, Data and Performance. :)

kC8dxvMKsEc

Gouvernator

2026-01-12, 19:16:17

Frag mich echt wie viel pure Rechenpower solche Szenen benötigen. Kann man das in der Form schon aufm eigenen PC deichseln oder muss es noch auf großen Serverfarmen generiert werden?
Gerade ist LTX2 rausgekommen. Sowas wie VEO3 für eine RTX5090. Mit Audio und 20 Sekunden Länge ~3-4 Minuten Renderingzeit.

Ist das geil Leute. Habe an die 100 Clips gemacht. Alle meine Phobien durch: Kanalisation mit Mafia, Haien, Zombies, Godzilla. Blutige SWAT vs Zombie Kämpfe. Weltuntergang mit Tsunamis. Es ist fast wie Träumen nachts. Einfach eine Idee einem kleinen Chatbot werfen, als System-Prompt die LTX2 FAQ und los gehts.

Gouvernator

2026-01-12, 20:21:13

Hier mal die Qualität. Wobei man sagen muss, es ist jetzt extrem viel zu lernen. Audio, Physik, die Aufteilung der Dialoge auf 20 Sekunden...

Und das krasse oben drauf, jeder Chatbot mit dem man die Prompts erzeugt, hat völlig anderes Vibe/Qualität in den Videos. Sprich man muss auch noch den passenden Chatbot finden der möglichst geile Qualität/Physik beschreiben kann.

2MyTn_cXPyk

Gouvernator

2026-01-12, 21:02:23

Einfach mal die Länge auf 25 Sekunden erhöht. Works. :uup:
Es hat 1 Jahr gedauert bis man das Spielzeug für lau bekam. Anstatt irgendwelche 250$ exclusiv Abos zu nutzen bei 30$ für 1 Minute Video. Ich sag euch, das ist das beste Erlebnis im Jahrzehnt.
Y2ZXV81rPZM

Daredevil

2026-01-12, 21:11:03

Es sieht halt scheiße aus und bei Bildern und Videos gilt imho, das 70% nicht reichen, auch wenn 70% beindruckend sind von z.B. 20% des Ziels, was man früher erreicht hat. Es muss glaubhaft sein, damit Immersion entsteht, das ist hier halt überhaupt nicht der Fall.

Gouvernator

2026-01-12, 23:41:44

Es sieht halt scheiße aus und bei Bildern und Videos gilt imho, das 70% nicht reichen, auch wenn 70% beindruckend sind von z.B. 20% des Ziels, was man früher erreicht hat. Es muss glaubhaft sein, damit Immersion entsteht, das ist hier halt überhaupt nicht der Fall.

Also für mich sieht es absolut realistisch aus. So wie ein Splatter-Horror-Movie halt. Quasi als Referenz. Es gibt halt keine andere. Oder hat schon mal einer Haie in der Kanalisation gesehen. :biggrin:

Man kann, und da besteht der meiste Spaß - diesen Splatter-Horror mal richtig finetunen mit Prompts. Dann kommen solche Effekte zum Vorschein, da wird George Lucas neidisch.
xjk5McbslgM

PS.
Ich will z.b. die Serios Sam Gegner wie Headless Kamikazes nachstellen, die mit der Bombe...

Daredevil

2026-01-13, 00:09:39

Ich weiß schon was du meinst und das Modell ist für die eingebrachte Energie auch in der Tat eindrucksvoll, aber das ist halt nichts, was Veo und Sora nicht komplett wegrocken mit Details und Glaubwürdigkeit.

Oder anders gesagt: Sofern Boomer erkennen, dass es KI generiert ist, solange ist es einfach nicht gut genug. :D
Das ist dieses Genre nicht gibt, ja gut. Das ist schon richtig. 25 Sek sind auch echt was richtig feines, aber die Quali isses halt noch nicht, wa.

DerGerd

2026-01-13, 00:22:53

Es sieht halt scheiße aus und bei Bildern und Videos gilt imho, das 70% nicht reichen, auch wenn 70% beindruckend sind von z.B. 20% des Ziels, was man früher erreicht hat. Es muss glaubhaft sein, damit Immersion entsteht, das ist hier halt überhaupt nicht der Fall.
Ist halt Arbeit, da glaubwürdig gute Ergebnisse zu erzielen. Man muss die Prompts iterieren und bearbeiten und als Minimum die Video gut zusammenschneiden. Auf all das haben KI-Nutzer nur selten Lust. Es sollen ja sofortige Ergebnisse sein. Siehe die Videos oben, mit ihrem Plastik-Look, der Zeitlupe und antiklimaktischen Schnitten.

LTX-2 stinkt ziemlich ab, was Details angeht. Man muss alles haarklein beschreiben, damit es eine Chance hat. So ein Allgemeinverständnis wie Sora hat es nicht.
Für alberne unzensierte Memes, die man einfach mal schnell erstellen will, ist es aber herrlich. Ich habe nun einen Workflow, der auf einer 5060 brauchbare Ergebnisse in unter einer Minute pro Sekunde erstellt. Sogar mit Stimmenersetzer! Sachen wie Gesichter brechen aber was Glaubwürdigkeit angeht schnell zusammen.

Sora mit all den Wasserzeichen und der Zensur ist allerdings auch nicht grad geiler.

Gouvernator

2026-01-13, 18:12:47

Ich weiß schon was du meinst und das Modell ist für die eingebrachte Energie auch in der Tat eindrucksvoll, aber das ist halt nichts, was Veo und Sora nicht komplett wegrocken mit Details und Glaubwürdigkeit.

Du vergleichst Äpfel mit Birnen. Veo/Sora kosten eine Stange Geld und jedes Clip den du siehst, ist quasi best case Qualität um damit Geld zu verdienen. Sprich den ganzen Müll was diese Models produzieren bekommst du gar nicht zur Gesicht.

Apropos Geld. Die Minute kostet da 30$ und ein Chatbot zum Prompten braucht völlig anderen Skill wenn du anstatt 5 Sekunden ein 20 Sekunden Clip baust. Das heißt du muss für 20 Sekunden Clips, einfach zum Lernen eine richtig große Stange Geld hinlegen. :ulol:

Ich hab mit LTX2 an die 100 Stück mit 20 Sek. Länge gemacht. Manche einfach um verschiedene Chatbots zu testen, Qwen 2b/4b/8b, GLM 4.6 Flash, Gpt-oss 20b und ihre jeweilige finetunes. Allein um überhaupt ins Multimodal Video Generierung einzusteigen, hätte ich buchstäblich 1000$ Lehrgeld bezahlt...

Daredevil

2026-01-13, 20:50:44

Du vergleichst Äpfel mit Birnen.
Ungeachtet vom Rest des Textes: Nein, das mache ich nicht. Du hast im Sora Thread geschrieben:
Gerade ist LTX2 rausgekommen. Sowas wie VEO3 für eine RTX5090.
Du hast den Vergleich aufgemacht, ich habe daraufhin reagiert. :)

Wenn es schlechter als Veo3 ist in der Cloud, ist es nicht "sowas wie Veo3", sondern sowas wie Veo3 in schlechter. Und das ist völlig okay, weil es wie gesagt beindruckend ist für die Token/W.

Gouvernator

2026-01-14, 02:23:15

Wenn es schlechter als Veo3 ist in der Cloud, ist es nicht "sowas wie Veo3", sondern sowas wie Veo3 in schlechter.
Das kann man nicht pauschal sagen. Objektiv technisch gesehen ist LTX2 definiv schlechter, aber künstlerisch hat es sein eigenes Vibe und ist vielleicht dadurch besser als Veo3. Du sagst es ist nicht realistisch genug.Und ich sage, ich habe solche Clips in LTX2 gesehen, die mich buchstäblich in der Seele berühren. Gerade weil es so realistisch-unrealistisch ist. Du erschaffst manchmal so eine Szene, die von ihrer Zusammensetzung eher an ein Traum erinnert. Wenn man mal jemals dran gedacht hat, wie es ist - wenn man in fremde Träume einsehen kann, ist LTX2 genau das. Ich hab ständig das Gefühl die Träume aus einem fremden Kopf auf dem Bildschirm zu haben. Und aus genau diesem Grund, macht es grandios Spaß irgendwelche verrückte Prompts zu erzeugen.