Künstliche Intelligenz
GAN als Gesichtsrenderer für „traditionelles“ CGI

Meinung Als Generative Adversarial Networks (GANs) erstmals ihre Fähigkeit zur erstaunlichen Reproduktion unter Beweis stellten realistisch Das Aufkommen von 3D-Gesichtern löste einen Goldrausch für das ungenutzte Potenzial von GANs aus, zeitlich konsistente Videos mit menschlichen Gesichtern zu erstellen.
Irgendwo im latenten Raum des GAN schien es, als gäbe es sollen verborgene Ordnung und Rationalität sein – ein Schema entstehender semantischer Logik, vergraben in den latenten Codes, das es einem GAN ermöglichen würde, konsistente Mehrfachansichten und Mehrfachinterpretationen (z. B. Ausdrucksänderungen) des zu generieren gleich Gesicht – und anschließend eine zeitlich überzeugende Deepfake-Video-Methode anbieten, die umwerfend wäre Autoencoder kein Wasser mehr.
Eine Ausgabe mit hoher Auflösung wäre trivial im Vergleich zu den slumartigen Umgebungen mit niedriger Auflösung, in denen GPU-Einschränkungen DeepFaceLab und FaceSwap zum Einsatz zwingen, während die „Swap-Zone“ eines Gesichts (in Autoencoder-Workflows) zur „Erstellungszone“ eines GAN würde, die von einer Handvoll Eingabebildern oder sogar nur einem einzigen Bild bestimmt wird.
Es gäbe keine Fehlpaarungen mehr zwischen den 'Swap'- und 'Host'-Gesichtern, da die Gesamtheit des Bildes würde von Grund auf neu generiert, einschließlich Haaren, Kieferpartie und den äußersten Enden der Gesichtszüge, die für „traditionelle“ Autoencoder-Deepfakes häufig eine Herausforderung darstellen.
Das GAN-Gesichtsvideo Winter
Wie sich herausstellte, würde es nicht annähernd so einfach werden. Letzten Endes, Entwirrung erwies sich als zentrales Problem und bleibt die größte Herausforderung. Wie können Sie eine eindeutige Gesichtsidentität beibehalten und ihre Pose oder ihren Ausdruck ändern, ohne einen Korpus aus Tausenden von Referenzbildern zusammenzustellen, die einem neuronalen Netzwerk beibringen, was passiert, wenn diese Änderungen vorgenommen werden, wie es Autoencoder-Systeme so mühsam tun?
Die spätere Überlegung in der Forschung zur GAN-Gesichtsinszenierung und -Synthese war vielmehr, dass eine Eingabeidentität möglicherweise teleologischen, generischen, Vorlage Transformationen, die nicht identitätsspezifisch sind. Ein Beispiel hierfür wäre die Anwendung eines Ausdrucks auf ein GAN-Gesicht, der in keinem der dem GAN bekannten Bilder dieser Person vorhanden war.

Aus dem Artikel „Tensor-based Emotion Editing in the StyleGAN Latent Space“ aus dem Jahr 2022 geht hervor, dass Vorlagenausdrücke aus dem FFHQ-Datensatz auf ein Eingabegesicht angewendet werden. Quelle: https://arxiv.org/pdf/2205.06102.pdf
Es ist offensichtlich, dass ein einheitlicher Ansatz die Vielfalt individueller Gesichtsausdrücke nicht abdecken kann. Man muss sich fragen, ob ein so einzigartiges Lächeln wie das von Jack Nicholson oder Willem Dafoe unter dem Einfluss solcher latenten Codes des „durchschnittlichen Ausdrucks“ jemals eine getreue Interpretation erhalten könnte.

Wer ist dieser charmante lateinamerikanische Fremde? Obwohl die GAN-Methode ein realistischeres und hochauflösenderes Gesicht erzeugt, basiert die Transformation nicht auf mehreren realen Bildern des Schauspielers, wie dies bei DeepFaceLab der Fall ist, das auf einer Datenbank mit Tausenden solcher Bilder trainiert, wodurch die Ähnlichkeit beeinträchtigt wird. Hier (Hintergrund) wird ein DeepFaceLab-Modell importiert in DeepFaceLive, eine Streaming-Implementierung der beliebten und umstrittenen Software. Beispiele stammen von https://www.youtube.com/watch?v=9tr35y-yQRY (2022) und https://arxiv.org/pdf/2205.06102.pdf.
In den letzten Jahren wurden eine Reihe von GAN-Gesichtsausdruck-Editoren vorgeschlagen, die meisten davon Umgang mit unbekannten Identitäten, wo die Treue der Transformationen für den Gelegenheitsleser unmöglich zu erkennen ist, da es sich nicht um bekannte Gesichter handelt.

Obskure Identitäten werden im 2020 angebotenen Cascade-EF-GAN transformiert. Quelle: https://arxiv.org/pdf/2003.05905.pdf
Vielleicht ist es der GAN-Gesichtseditor, der in den letzten drei Jahren das meiste Interesse (und die meisten Zitate) erhalten hat InterFaceGAN, das latente Raumdurchquerungen in latenten Codes durchführen kann, die sich auf Pose (Winkel der Kamera/Gesicht), Ausdruck, Alter, Rasse, Geschlecht und andere wesentliche Eigenschaften beziehen.
Die Morphing-Funktionen von InterFaceGAN und ähnlichen Frameworks im Stil der 1980er Jahre dienen vor allem dazu, den Weg der Transformation zu veranschaulichen, indem ein Bild durch einen passenden latenten Code (wie etwa „Alter“) zurückprojiziert wird. Im Hinblick auf die Produktion von Videomaterial mit zeitlicher Kontinuität erwiesen sich derartige Systeme bisher als „beeindruckende Katastrophen“.
Wenn man dazu noch die hinzufügt Schwierigkeit, zeitlich konsistentes Haar zu erzeugen, und die Tatsache, dass die Technik der Erkundung/Manipulation latenten Codes keine angeborenen zeitlichen Richtlinien hat, mit denen man arbeiten kann (und es schwierig ist zu wissen, wie man solche Richtlinien in ein Framework einbauen kann, das für die Aufnahme und Generierung von Standbildern konzipiert ist und über keine nativen Funktionen verfügt). für die Videoausgabe) könnte es logisch sein, zu dem Schluss zu kommen, dass GAN nicht All You Need™ für die Gesichtsvideosynthese ist.
Daher waren die nachfolgenden Bemühungen erfolglos inkrementelle Verbesserungen bei der Entflechtung, während andere andere Konventionen in der Computervision als „Leitebene“ angeschraubt haben, wie beispielsweise die Verwendung der semantischen Segmentierung als Kontrollmechanismus in der späten 2021 Krepppapier SemanticStyleGAN: Erlernen kompositorischer generativer Prioritäten für kontrollierbare Bildsynthese und -bearbeitung.

Semantische Segmentierung als Methode der latenten Rauminstrumentalität in SemanticStyleGAN. Quelle: https://semanticstylegan.github.io/
Parametrische Führung
Die Forschungsgemeinschaft für die GAN-Gesichtssynthese tendiert zunehmend zur Verwendung „traditioneller“ parametrischer CGI-Gesichter als Methode, um die beeindruckenden, aber widerspenstigen latenten Codes im latenten Raum eines GAN zu lenken und zu ordnen.
Obwohl parametrische Gesichtsprimitive ein fester Bestandteil der Computer-Vision-Forschung sind über zwanzig JahreDas Interesse an diesem Ansatz hat in letzter Zeit mit der zunehmenden Verwendung des Skinned Multi-Person Linear Model zugenommen (SMPL) CGI-Primitive, ein Ansatz, der vom Max-Planck-Institut und dem ILM entwickelt und seitdem mit dem Sparse Trained Articulated Human Body Regressor verbessert wurde (STAR) Rahmen.

SMPL (in diesem Fall eine Variante namens SMPL-X) kann ein parametrisches CGI-Netz auferlegen, das mit der geschätzten Pose (einschließlich der Ausdrücke, falls erforderlich) des gesamten menschlichen Körpers in einem Bild übereinstimmt, wodurch neue Operationen am Bild durchgeführt werden können, wobei das parametrische Netz als volumetrisches oder wahrnehmungsbezogenes Netz verwendet wird Richtlinie. Quelle: https://arxiv.org/pdf/1904.05866.pdf
Die am meisten gefeierte Entwicklung in dieser Linie war Disneys 2019 Rendern mit Stil Initiative, die die Verwendung traditioneller Texturkarten mit GAN-generierten Bildern kombinierte, um eine verbesserte animierte Ausgabe im „Deepfake-Stil“ zu erstellen.

Alt trifft auf Neu in Disneys hybridem Ansatz für GAN-generierte Deepfakes. Quelle: https://www.youtube.com/watch?v=TwpLqTmvqVk
Der Disney-Ansatz fügt traditionell gerenderte CGI-Facetten in ein StyleGAN2-Netzwerk ein, um menschliche Gesichtszüge in „Problembereichen“ „einzumalen“, in denen die zeitliche Konsistenz ein Problem für die Videogenerierung darstellt – Bereiche wie die Hautstruktur.

Der Workflow „Rendern mit Stil“.
Da der parametrische CGI-Kopf, der diesen Prozess steuert, an den Benutzer angepasst und geändert werden kann, ist das GAN-generierte Gesicht in der Lage, diese Änderungen, einschließlich Änderungen der Kopfhaltung und des Ausdrucks, widerzuspiegeln.
Obwohl sie darauf ausgelegt sind, die Instrumentalität von CGI mit dem natürlichen Realismus von GAN-Gesichtern zu vereinen, zeigen die Ergebnisse am Ende das Schlimmste aus beiden Welten und versäumen es dennoch, die Haarstruktur und sogar die Positionierung grundlegender Merkmale konsistent zu halten:

Mit Rendering with Style entsteht eine neue Art von unheimlichem Tal, auch wenn das Prinzip noch Potenzial birgt.
Die NT-Tron Serie 2020 Krepppapier StyleRig: Rigging von StyleGAN für die 3D-Steuerung von Porträtbildern verfolgt einen immer beliebter werdenden Ansatz mit der Verwendung von dreidimensionale morphbare Gesichtsmodelle (3DMMs) als Proxys zum Ändern von Eigenschaften in einer StyleGAN-Umgebung, in diesem Fall über ein neuartiges Rigging-Netzwerk namens RigNet:

3DMMs fungieren als Stellvertreter für die Interpretation latenter Räume in StyleRig. Quelle: https://arxiv.org/pdf/2004.00121.pdf
Wie bei solchen Initiativen üblich, scheinen sich die bisherigen Ergebnisse jedoch auf minimale Posenmanipulationen und „uninformierte“ Ausdrucks-/Affektänderungen zu beschränken.

StyleRig verbessert die Kontrolle, auch wenn die zeitliche Gleichmäßigkeit der Haare eine ungelöste Herausforderung bleibt. Quelle: https://www.youtube.com/watch?v=eaW_P85wQ9k
Ähnliche Ergebnisse finden sich bei Mitsubishi Research MEIST-GAN, Ein 2021 Krepppapier das nichtlineare 3DMMs als Entflechtungsarchitektur verwendet, aber auch Schwierigkeiten um eine dynamische und gleichmäßige Bewegung zu erreichen.
Die neueste Forschung zum Versuch der Instrumentalität und Entflechtung ist One-Shot-Gesichtsnachstellung auf Megapixeln, das wiederum parametrische 3DMM-Köpfe als benutzerfreundliche Schnittstelle für StyleGAN verwendet.

Im MegaFR-Workflow von One-Shot Face Reenactment führt das Netzwerk eine Gesichtssynthese durch, indem es ein invertiertes Bild aus der realen Welt mit Parametern kombiniert, die aus einem gerenderten 3DMM-Modell stammen. Quelle: https://arxiv.org/pdf/2205.13368.pdf
OSFR gehört zu einer wachsenden Klasse von GAN-Gesichtseditoren, die lineare Bearbeitungsworkflows im Photoshop/After Effects-Stil entwickeln möchten, bei denen der Benutzer ein gewünschtes Bild eingeben kann, auf das Transformationen angewendet werden können, anstatt den latenten Raum nach latenten Codes zu durchsuchen eine Identität.
Auch hier stellen parametrische Ausdrücke eine übergreifende und nicht personalisierte Methode zur Ausdrucksgebung dar, die zu Manipulationen führt, die auf ihre eigene, nicht immer positive Weise „unheimlich“ erscheinen.
Wie frühere Arbeiten kann OSFR aus einem einzelnen Bild nahezu originalgetreue Posen ableiten und auch eine „Frontalisierung“ durchführen, bei der ein außermittig gestelltes Bild in ein Fahndungsfoto übersetzt wird:

Originale (oben) und abgeleitete Fahndungsfotos von einer der im neuen Papier beschriebenen Implementierungen von OSFR.
In der Praxis ähnelt diese Art der Schlussfolgerung einigen der zugrunde liegenden Prinzipien der Photogrammetrie Neuronale Strahlungsfelder (NeRF), außer dass die Geometrie hier durch ein einzelnes Foto definiert werden muss und nicht durch die 3-4 Blickwinkel, die es NeRF ermöglichen, die fehlenden interstitiellen Posen zu interpretieren und erforschbare neuronale 3D-Szenen mit Menschen zu erstellen.
(Allerdings ist NeRF auch nicht All You Need™, da es ein fast trägt völlig andere Hindernisse zu GANs in Bezug auf die Produktion von Gesichtsvideosynthese)
Hat GAN einen Platz in der Gesichtsvideosynthese?
Das Erzielen dynamischer Ausdrücke und Posen außerhalb der Verteilung aus einem einzigen Quellbild scheint derzeit eine alchemieartige Obsession in der GAN-Gesichtssyntheseforschung zu sein, vor allem, weil GANs derzeit die einzige Methode sind, die in der Lage ist, neuronale Gesichter mit recht hoher Auflösung und relativ hoher Wiedergabetreue auszugeben: Obwohl Autoencoder-Deepfake-Frameworks mit einer Vielzahl realer Posen und Ausdrücke trainiert werden können, müssen sie mit VRAM-beschränkten Eingabe-/Ausgabeauflösungen arbeiten und benötigen einen „Host“. NeRF hingegen ist ähnlichen Einschränkungen unterworfen und verfügt – anders als die beiden anderen Ansätze – derzeit über keine etablierten Methoden zum Ändern von Gesichtsausdrücken und leidet allgemein unter eingeschränkter Editierbarkeit.
Der einzige Weg zu einem präzisen CGI/GAN-Gesichtssynthesesystem scheint darin zu bestehen, dass eine neue Initiative einen Weg findet, eine Identitätseinheit mit mehreren Fotos innerhalb des latenten Raums zusammenzusetzen, wobei ein latenter Code für die Identität einer Person nicht den gesamten latenten Raum durchqueren muss, um nicht verwandte Posenparameter auszunutzen, sondern auf seine eigenen verwandten (realen) Bilder als Referenzen für Transformationen zurückgreifen kann.
Selbst in einem solchen Fall oder selbst wenn ein gesamtes StyleGAN-Netzwerk auf einem Face-Set mit einer Identität trainiert würde (ähnlich den Trainingssätzen, die Autoencoder verwenden), müsste die fehlende semantische Logik wahrscheinlich immer noch durch Zusatztechnologien bereitgestellt werden, z semantische Segmentierung oder parametrische 3DMM-Gesichter, die in einem solchen Szenario zumindest mehr Material zum Arbeiten hätten.













