Suivez nous sur

Intelligence artificielle

Améliorer le photoréalisme des simulations de conduite avec des réseaux antagonistes génératifs

mm
Le kit de préparation mis à jour on

Une nouvelle initiative de recherche entre les États-Unis et la Chine a proposé l'utilisation de réseaux antagonistes génératifs (GAN) pour augmenter le réalisme des simulateurs de conduite.

Dans une nouvelle approche du défi de produire des scénarios de conduite POV photoréalistes, les chercheurs ont développé une méthode hybride qui exploite les points forts de différentes approches, en mélangeant la sortie plus photoréaliste des systèmes basés sur CycleGAN avec des éléments générés plus conventionnellement, qui nécessitent un plus grand niveau de détail et de cohérence, comme les marquages ​​routiers et les véhicules réels observés du point de vue du conducteur.

Les graphiques neuronaux génératifs hybrides (HGNG) offrent une nouvelle direction pour les simulations de conduite qui conservent la précision des modèles 3D pour les éléments essentiels (tels que les marquages ​​​​routiers et les véhicules), tout en jouant sur les atouts des GAN pour générer un arrière-plan et une ambiance intéressants et non répétitifs. détail. Source

Les graphiques neuronaux génératifs hybrides (HGNG) offrent une nouvelle direction pour les simulations de conduite qui conservent la précision des modèles 3D pour les éléments essentiels (tels que les marquages ​​​​routiers et les véhicules), tout en jouant sur les atouts des GAN pour générer un arrière-plan et une ambiance intéressants et non répétitifs. détail. Identifier

Le système, appelé Hybrid Generative Neural Graphics (HGNG), injecte une sortie très limitée d'un simulateur de conduite conventionnel basé sur CGI dans un pipeline GAN, où le NVIDIA BÊCHE framework prend en charge le travail de génération d'environnement.

L'avantage, selon les auteurs, est que les environnements de conduite deviendront potentiellement plus diversifiés, créant une expérience plus immersive. En l'état, même conversion La sortie CGI vers la sortie de rendu neuronal photoréaliste ne peut pas résoudre le problème de la répétition, car le métrage original entrant dans le pipeline neuronal est limité par les limites des environnements de modèle et leur tendance à répéter les textures et les maillages.

Source : https://www.youtube.com/watch?v=0fhUJT21-bs

Images converties du 2021 papier «Amélioration du photoréalisme», qui reste dépendante des images rendues par CGI, y compris l'arrière-plan et les détails ambiants généraux, limitant la variété de l'environnement dans l'expérience simulée. Source : https://www.youtube.com/watch?v=P1IcaBn3ej0

Le papier précise* :

« La fidélité d'un simulateur de conduite conventionnel dépend de la qualité de son pipeline d'infographie, composé de modèles 3D, de textures et d'un moteur de rendu. Les modèles et textures 3D de haute qualité nécessitent de l'artisanat, tandis que le moteur de rendu doit exécuter des calculs physiques complexes pour la représentation réaliste de éclairage et ombrage.'

Le plus nouveau papier est intitulé Photoréalisme dans les simulations de conduite : fusion de la synthèse d'images contradictoires génératives avec le rendu, et provient de chercheurs du Département de génie électrique et informatique de l'Ohio State University et de Chongqing Changan Automobile Co Ltd à Chongqing, en Chine.

Matériel de base

HGNG transforme la disposition sémantique d'une scène d'entrée générée par CGI en mélangeant du matériel de premier plan partiellement rendu avec des environnements générés par GAN. Bien que les chercheurs aient expérimenté divers ensembles de données sur lesquels former les modèles, le plus efficace s'est avéré être le KITTI Vision Benchmark Suite, qui comprend principalement des captures de matériel de conducteur-POV de la ville allemande de Karlsruhe.

HGNG génère une disposition de segmentation sémantique à partir de la sortie rendue par CGI, puis interpose SPADE, avec différents encodages de style, pour créer des images d'arrière-plan photoréalistes aléatoires et diverses, y compris des objets proches dans des scènes urbaines. Le nouveau document indique que les modèles répétitifs, qui sont communs aux pipelines CGI à ressources limitées, "brisent l'immersion" pour les conducteurs humains utilisant un simulateur, et que les arrière-plans plus variés qu'un GAN peut fournir atténuent ce problème.

HGNG génère une disposition de segmentation sémantique à partir de la sortie rendue par CGI, puis interpose SPADE, avec différents encodages de style, pour créer des images d'arrière-plan photoréalistes aléatoires et diverses, y compris des objets proches dans des scènes urbaines. Le nouveau document indique que les modèles répétitifs, qui sont communs aux pipelines CGI à ressources limitées, "brisent l'immersion" pour les conducteurs humains utilisant un simulateur, et que les arrière-plans plus variés qu'un GAN peut fournir peuvent atténuer ce problème.

Les chercheurs ont expérimenté les deux  GAN conditionnel (cGAN) et CYCLGAN (CyGAN) en tant que réseaux génératifs, constatant finalement que chacun a des forces et des faiblesses : cGAN nécessite ensembles de données appariés, et CyGAN ne le fait pas. Cependant, CyGAN ne peut pas actuellement surpasser l'état de l'art dans les simulateurs conventionnels, en attendant de nouvelles améliorations dans adaptation de domaine et la cohérence du cycle. Par conséquent, cGAN, avec ses exigences supplémentaires en matière de données appariées, obtient les meilleurs résultats pour le moment.

L'architecture conceptuelle de HGNG.

L'architecture conceptuelle de HGNG.

Dans le pipeline graphique neuronal HGNG, les représentations 2D sont formées à partir de scènes synthétisées par CGI. Les objets qui sont transmis au flux GAN à partir du rendu CGI sont limités aux éléments "essentiels", y compris les marquages ​​routiers et les véhicules, qu'un GAN lui-même ne peut actuellement pas restituer avec une cohérence temporelle et une intégrité adéquates pour un simulateur de conduite. L'image synthétisée par cGAN est ensuite fusionnée avec le rendu partiel basé sur la physique.

Tests

Pour tester le système, les chercheurs ont utilisé SPADE, formé sur Paysages urbains, pour convertir la disposition sémantique de la scène en sortie photoréaliste. La source CGI provient d'un simulateur de conduite open source CARLA, qui exploite l'Unreal Engine 4 (UE4).

Sortie du simulateur de conduite open source CARLA. Source : https://arxiv.org/pdf/1711.03938.pdf

Sortie du simulateur de conduite open source CARLA. Source : https://arxiv.org/pdf/1711.03938.pdf

Le moteur d'ombrage et d'éclairage d'UE4 a fourni la disposition sémantique et les images partiellement rendues, avec uniquement les véhicules et les marquages ​​de voie en sortie. Le mélange a été réalisé avec un GP-GAN instance formée sur le Base de données des attributs transitoires, et toutes les expériences s'exécutent sur une carte NVIDIA RTX 2080 avec 8 Go de VRAM GDDR6.

SIGGRAPH 2014 - Attributs transitoires pour la compréhension et l'édition de haut niveau des scènes extérieures

Les chercheurs ont testé pour rétention sémantique – la capacité de l'image de sortie à correspondre au masque de segmentation sémantique initial destiné à servir de modèle à la scène.

Dans les images de test ci-dessus, on voit que dans l'image 'render only' (en bas à gauche), le rendu complet n'obtient pas d'ombres plausibles. Les chercheurs notent qu'ici (cercle jaune) les ombres des arbres qui tombent sur le trottoir ont été classées par erreur par DeepLabV3 (le cadre de segmentation sémantique utilisé pour ces expérimentations) comme contenu « route ».

Dans le flux de colonne du milieu, nous voyons que les véhicules créés par cGAN n'ont pas une définition suffisamment cohérente pour être utilisables dans un simulateur de conduite (cercle rouge). Dans le flux de colonne le plus à droite, l'image mélangée est conforme à la définition sémantique d'origine, tout en conservant les éléments essentiels basés sur CGI.

Pour évaluer le réalisme, les chercheurs ont utilisé Distance de lancement de Fréchet (FID) comme mesure de performance, car il peut fonctionner sur des données appariées ou des données non appariées.

Trois ensembles de données ont été utilisés comme vérité terrain : Cityscapes, KITTI et ADE20K.

Les images de sortie ont été comparées les unes aux autres à l'aide des scores FID et au pipeline basé sur la physique (c'est-à-dire CGI), tandis que la rétention sémantique a également été évaluée.

Dans les résultats ci-dessus, qui concernent la rétention sémantique, les scores les plus élevés sont meilleurs, l'approche pyramidale CGAN (l'un des nombreux pipelines testés par les chercheurs) obtenant les scores les plus élevés.

Les résultats illustrés directement ci-dessus concernent les scores FID, le score HGNG étant le plus élevé grâce à l'utilisation de l'ensemble de données KITTI.

La méthode "Rendre uniquement" (notée ) concerne la sortie de CARLA, un flux CGI qui ne devrait pas être photoréaliste.

Les résultats qualitatifs sur le moteur de rendu conventionnel ("c" dans l'image ci-dessus) présentent des informations d'arrière-plan distantes irréalistes, telles que les arbres et la végétation, tout en nécessitant des modèles détaillés et un chargement de maillage juste à temps, ainsi que d'autres procédures gourmandes en ressources processeur. Au milieu (b), on voit que cGAN n'arrive pas à obtenir une définition adéquate pour les éléments essentiels, les voitures et les marquages ​​routiers. Dans la sortie mixte proposée (a), la définition du véhicule et de la route est bonne, tandis que l'environnement ambiant est diversifié et photoréaliste.

L'article conclut en suggérant que la cohérence temporelle de la section générée par GAN du pipeline de rendu pourrait être augmentée grâce à l'utilisation d'ensembles de données urbaines plus importants, et que les travaux futurs dans cette direction pourraient offrir une véritable alternative aux transformations neurales coûteuses de CGI. flux, tout en offrant plus de réalisme et de diversité.

 

* Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le 23 juillet 2022.