Suivez nous sur

AI 101

Qu'est-ce que les données synthétiques ?

mm
Le kit de préparation mis à jour on

Qu'est-ce qu'une donnée synthétique ?

Les données synthétiques sont une tendance en expansion rapide et un outil émergent dans le domaine de la science des données. Qu’est-ce que les données synthétiques exactement ? La réponse courte est que les données synthétiques sont composées de des données qui ne sont basées sur aucun phénomène ou événement du monde réel, il est plutôt généré via un programme informatique. Mais pourquoi les données synthétiques deviennent-elles si importantes pour la science des données ? Comment les données synthétiques sont-elles créées ? Explorons les réponses à ces questions.

Qu'est-ce qu'un jeu de données synthétique ?

Comme le suggère le terme « synthétique », les ensembles de données synthétiques sont générés par des programmes informatiques, au lieu d’être composés à partir de la documentation d’événements du monde réel. L’objectif principal d’un ensemble de données synthétiques est d’être suffisamment polyvalent et robuste pour être utile à la formation de modèles d’apprentissage automatique.

Afin d'être utiles pour un classificateur d'apprentissage automatique, les données synthétiques doit avoir certaines propriétés. Bien que les données puissent être catégorielles, binaires ou numériques, la longueur de l'ensemble de données doit être arbitraire et les données doivent être générées de manière aléatoire. Les processus aléatoires utilisés pour générer les données doivent être contrôlables et basés sur diverses distributions statistiques. Le bruit aléatoire peut également être placé dans l'ensemble de données.

Si les données synthétiques sont utilisées pour un algorithme de classification, la quantité de séparation de classe doit être personnalisable, afin que le problème de classification puisse être rendu plus facile ou plus difficile en fonction des exigences du problème. Pendant ce temps, pour une tâche de régression, des processus génératifs non linéaires peuvent être utilisés pour générer les données.

Pourquoi utiliser des données synthétiques ?

À mesure que les frameworks d'apprentissage automatique tels que TensorfFlow et PyTorch deviennent plus faciles à utiliser et que les modèles préconçus pour la vision par ordinateur et le traitement du langage naturel deviennent plus omniprésents et plus puissants, le principal problème auquel les data scientists doivent faire face est la collecte et le traitement des données. Les entreprises ont souvent du mal à acquérir de grandes quantités de données pour former un modèle précis dans un laps de temps donné. L’étiquetage manuel des données est un moyen coûteux et lent d’acquérir des données. Cependant, la génération et l’utilisation de données synthétiques peuvent aider les data scientists et les entreprises à surmonter ces obstacles et à développer plus rapidement des modèles d’apprentissage automatique fiables.

L'utilisation de données synthétiques présente de nombreux avantages. La manière la plus évidente dont l'utilisation de données synthétiques profite à la science des données est qu'elle réduit le besoin de capturer des données à partir d'événements du monde réel, et pour cette raison, il devient possible de générer des données et de construire un ensemble de données beaucoup plus rapidement qu'un ensemble de données dépendant de événements du monde réel. Cela signifie que de gros volumes de données peuvent être produits en peu de temps. Cela est particulièrement vrai pour les événements qui se produisent rarement, comme si un événement se produit rarement dans la nature, davantage de données peuvent être simulées à partir d'échantillons de données authentiques. Au-delà de cela, les données peuvent être automatiquement étiquetées au fur et à mesure de leur génération, ce qui réduit considérablement le temps nécessaire pour étiqueter les données.

Les données synthétiques peuvent également être utiles pour obtenir des données de formation pour les cas extrêmes, qui sont des instances qui peuvent se produire rarement mais qui sont essentielles au succès de votre IA. Les cas marginaux sont des événements très similaires à la cible principale d'une IA, mais qui diffèrent de manière importante. Par exemple, les objets qui ne sont que partiellement visibles pourraient être considérés comme des cas extrêmes lors de la conception d'un classificateur d'images.

Enfin, des jeux de données synthétiques peut minimiser les problèmes de confidentialité. Les tentatives d'anonymisation des données peuvent être inefficaces, car même si des variables sensibles/d'identification sont supprimées de l'ensemble de données, d'autres variables peuvent servir d'identifiants lorsqu'elles sont combinées. Ce n'est pas un problème avec les données synthétiques, car elles n'ont jamais été basées sur une personne réelle ou un événement réel, en premier lieu.

Cas d'utilisation des données synthétiques

Les données synthétiques ont une grande variété de Usages, car il peut être appliqué à presque toutes les tâches d'apprentissage automatique. Cas d'utilisation courants pour les données synthétiques comprennent les véhicules autonomes, la sécurité, la robotique, la protection contre la fraude et les soins de santé.

L'un des premiers cas d'utilisation des données synthétiques était les voitures autonomes, car les données synthétiques sont utilisées pour créer des données d'entraînement pour les voitures dans des conditions où l'obtention de données d'entraînement réelles sur la route est difficile ou dangereuse. Les données synthétiques sont également utiles pour la création de données utilisées pour former des systèmes de reconnaissance d'images, comme les systèmes de surveillance, beaucoup plus efficacement que la collecte et l'étiquetage manuels d'un ensemble de données de formation. Les systèmes robotiques peuvent être lents à s'entraîner et à se développer avec les méthodes traditionnelles de collecte de données et d'entraînement. Les données synthétiques permettent aux entreprises de robotique de tester et de concevoir des systèmes robotiques par le biais de simulations. Les systèmes de protection contre la fraude peuvent bénéficier de données synthétiques, et de nouvelles méthodes de détection de fraude peuvent être formées et testées avec des données constamment nouvelles lorsque des données synthétiques sont utilisées. Dans le domaine de la santé, les données synthétiques peuvent être utilisées pour concevoir des classificateurs de santé précis, tout en préservant la vie privée des personnes, car les données ne seront pas basées sur de vraies personnes.

Défis des données synthétiques

Si l'utilisation de données synthétiques apporte de nombreux avantages, elle présente également de nombreux défis.

Lorsque des données synthétiques sont créées, elles manquent souvent de valeurs aberrantes. Les valeurs aberrantes apparaissent naturellement dans les données, et bien qu'elles soient souvent supprimées des ensembles de données de formation, leur existence peut être nécessaire pour former des modèles d'apprentissage automatique vraiment fiables. Au-delà, la qualité des données synthétiques peut être très variable. Les données synthétiques sont souvent générées avec des données d'entrée ou de départ, et par conséquent la qualité des données peut dépendre de la qualité des données d'entrée. Si les données utilisées pour générer les données synthétiques sont biaisées, les données générées peuvent perpétuer ce biais. Les données synthétiques nécessitent également une certaine forme de contrôle de sortie/qualité. Il doit être vérifié par rapport à des données annotées par l'homme, sinon des données authentiques sont sous une forme ou une autre.

Comment les données synthétiques sont-elles créées ?

Les données synthétiques sont créées par programmation avec des techniques d'apprentissage automatique. Des techniques classiques d'apprentissage automatique telles que les arbres de décision peuvent être utilisées, tout comme les techniques d'apprentissage en profondeur. Les exigences relatives aux données synthétiques influenceront le type d'algorithme utilisé pour générer les données. Les arbres de décision et les modèles d'apprentissage automatique similaires permettent aux entreprises de créer des distributions de données multimodales non classiques, formées sur des exemples de données du monde réel. La génération de données avec ces algorithmes fournira des données hautement corrélées avec les données d'entraînement d'origine. Pour les cas où la distribution typique des données est connue, une entreprise peut générer des données synthétiques en utilisant une méthode de Monte Carlo.

Les méthodes basées sur l'apprentissage en profondeur pour générer des données synthétiques utilisent généralement soit un auto-encodeur variationnel (VAE) or un réseau antagoniste génératif (GAN). Les VAE sont des modèles d'apprentissage automatique non supervisés qui utilisent des encodeurs et des décodeurs. La partie codeur d'un VAE est chargée de compresser les données dans une version plus simple et compacte de l'ensemble de données d'origine, que le décodeur analyse ensuite et utilise pour générer une représentation des données de base. Un VAE est formé dans le but d'avoir une relation optimale entre les données d'entrée et de sortie, une relation où les données d'entrée et les données de sortie sont extrêmement similaires.

En ce qui concerne les modèles GAN, ils sont appelés réseaux « antagonistes » en raison du fait que les GAN sont en fait deux réseaux qui se font concurrence. Le générateur est chargé de générer des données synthétiques, tandis que le deuxième réseau (le discriminateur) fonctionne en comparant les données générées avec un ensemble de données réelles et tente de déterminer quelles données sont fausses. Lorsque le discriminateur détecte de fausses données, le générateur en est informé et il apporte des modifications pour essayer d'obtenir un nouveau lot de données par le discriminateur. À son tour, le discriminateur devient de mieux en mieux capable de détecter les contrefaçons. Les deux réseaux sont entraînés l'un contre l'autre, les contrefaçons devenant de plus en plus réalistes.