Titelbild Blogbeitrag Videogenerierung mit Ki

Avatare zum Leben erwecken

Mit den richtigen Ai Tools sind inzwischen erstaunliche Ergebnisse möglich. So kann sogar schon ein kleines Team Produktionen umsetzen, für die früher ein dutzend Menschen benötigt wurden. Wie aber kann es konkret gehen?
Dafür habe ich ein paar Tests mit Midjourney und Runway gemacht.

Mein Ziel war es, herauszufinden, ob ich eine 2D-Illustration die wir vor ein paar Jahren entwickelt haben, mit Hilfe von Ki-Tools animieren können, so dass wir damit Content für Social Media erstellen können.

Leider hat sich dabei aber bereits am Anfang gezeigt, dass die Software das Gesicht des Characters nicht erkennen konnte. Das mag daran liegen, dass die Illustration recht stark abstrahiert ist. Ich konnte bislang jedoch noch nicht herausfinden was genau ich korrigieren muss, damit es klappt.

Da ich generell mal sehen wollte was möglich ist, habe ich daher erst einmal mit anderen Vorlagen gearbeitet. Unter anderem hatte ich damals auch diese Illustration erstellt, die etwas näher an einem richtigen Gesicht dran ist. Und siehe da: Runway konnte es interpretieren und hat mir auf Basis eines Videos, dass ich von mir selbst gemacht habe folgendes Ergebnis ausgespuckt:

… ja okay, man sieht hier das Potential, aber so richtig gut war das noch nicht.

Mein Learning daraus war aber schon einmal, dass es nicht gut ist, wenn man sich im Video zu stark bewegt und vielleicht ist die Art der Illustration auch nicht ganz so einfach für die Ki zu interpretieren. Daher habe ich verschiedene Dinge probiert:

Lip Sync Video:

Ich habe mir eine andere Ki genommen und aus einem Textblock der Autopfand-Profi Website eine Audiofile generiert. Dafür gibt es logischerweise verschiedene Anbieter. Ich habe für meinen Test darauf geachtet, dass das Modell entsprechend auch auf deutsche Sprache trainiert wurde. Fun Fact: Es gibt auch Modelle die mit Dialekt sprechen.

Aus dem Standbild und der Audio-file generiert runway dann ein Video das z.B. so aussieht:

Das gleiche habe ich dann mit einem Foto gemacht, welches ich vorher in Midjourney erstellt habe:

Beeindruckend, aber so natürlich auch noch etwas langweilig. Damit das richtig gut wird, müsste man ein paar Schnitte einfügen und auch die Sprache ist noch zu monoton. Was mich aber noch mehr stört, ist die Unschärfe im Bild. Das sollte die Ki aber mit einem Upscaling hinbekommen.

Video to Video:

Auch bei meinem nächsten Test, bei dem ich noch einmal eine 2D-Illustration aus Midjourney als Grundlage für die Videogenerierung genommen habe, ist das Video etwas unscharf, aber das sieht schon sehr vielversprechend aus:

was mich dann aber umgehauen hat, war mein nächster Test, mit einer 3D-Illustration. Hier kann man auch mal sehen, wie die Ki meine Mimik interpretiert und auf die Illustration anwendet:

Schon spannend das ganze. Ich denke da ist viel Potential drin.