Suivez nous sur

Des leaders d'opinion

Importance de la qualité des données dans la mise en œuvre de l'IA

mm

Publié le

 on

Les technologies d’intelligence artificielle et d’apprentissage automatique peuvent bénéficier de manière significative aux industries de toutes tailles. Selon McKinsey rapport, les entreprises qui utilisent les technologies d'intelligence artificielle doubleront leur trésorerie d'ici 2030. À l'inverse, les entreprises qui ne déploient pas l'IA verront leur trésorerie diminuer de 20 %. Cependant, ces avantages vont au-delà des finances. L'IA peut aider les entreprises lutter contre les pénuries de main-d'œuvre. L'IA améliore également considérablement l'expérience client et les résultats commerciaux, rendant les entreprises plus fiables. 

Puisque l'IA présente tant d'avantages, pourquoi tout le monde n'adopte-t-il pas l'IA ? En 2019, un PwC Une enquête a révélé que 76 % des entreprises prévoient d'utiliser l'IA pour améliorer leur valeur commerciale. Cependant, seuls 15 % d'entre eux ont accès à des données de haute qualité pour atteindre leurs objectifs commerciaux. Un autre étude de Refinitiv a suggéré que 66 % des personnes interrogées ont déclaré que des données de mauvaise qualité compromettent leur capacité à déployer et à adopter efficacement l'IA. 

L'enquête a révélé que les trois principaux défis liés à l'utilisation des technologies d'apprentissage automatique et d'IA tournent autour de " des informations précises sur la couverture, l'historique et la population des données", "l'identification des enregistrements incomplets ou corrompus" et "le nettoyage et la normalisation des données". les données." Cela démontre que des données de mauvaise qualité sont le principal obstacle pour les entreprises à obtenir des analyses de haute qualité alimentées par l'IA. 

Pourquoi les données sont-elles si importantes ?

Il existe de nombreuses raisons pour lesquelles la qualité des données est cruciale dans la mise en œuvre de l'IA. Voici quelques-uns des plus importants : 

1. Garbage In et Garbage Out

Il est assez simple de comprendre que la sortie dépend fortement de l'entrée. Dans ce cas, si les ensembles de données sont pleins d'erreurs ou biaisés, le résultat vous fera également partir du mauvais pied. La plupart des problèmes liés aux données ne concernent pas nécessairement Quantité de données mais le qualité de données que vous alimentez dans le modèle d'IA. Si vous avez des données de mauvaise qualité, vos modèles d'IA ne fonctionneront pas correctement, aussi bons soient-ils.  

2. Tous les systèmes d'IA ne sont pas égaux

Lorsque nous pensons aux ensembles de données, nous pensons généralement en termes de données quantitatives. Mais il existe également des données qualitatives sous forme de vidéos, d'entretiens personnels, d'opinions, d'images, etc. Dans les systèmes d'IA, les ensembles de données quantitatives sont structurés et les ensembles de données qualitatives ne sont pas structurés. Tous les modèles d'IA ne peuvent pas gérer les deux types d'ensembles de données. Ainsi, la sélection du bon type de données pour le modèle approprié est essentielle pour obtenir le résultat attendu. 

3. Qualité vs Quantité

On pense que les systèmes d'IA doivent ingérer beaucoup de données pour en tirer des leçons. Dans un débat sur la qualité par rapport à la quantité, cette dernière est généralement préférée par les entreprises. Cependant, si les ensembles de données sont de haute qualité mais de nature plus courte, cela vous donnera une certaine garantie que la sortie est pertinente et robuste.

4. Caractéristiques d'un bon ensemble de données

Les caractéristiques d'un bon ensemble de données peuvent être subjectives et dépendent principalement de l'application que l'IA sert. Cependant, il existe certaines caractéristiques générales que l'on doit rechercher lors de l'analyse des ensembles de données. 

  • état complet: L'ensemble de données doit être complet, sans grilles ni points vides dans les ensembles de données. Chaque cellule doit contenir une donnée. 
  • Exhaustivité: Les ensembles de données doivent être aussi complets que possible. Par exemple, si vous recherchez un vecteur de cybermenace, vous devez disposer de tous les profils de signature et de toutes les informations nécessaires. 
  • Cohérence: Les ensembles de données doivent tenir sous les variables définies auxquelles ils ont été affectés. Par exemple, si vous modélisez des boîtes d'emballage, vos variables sélectionnées (plastique, papier, carton, etc.) doivent avoir des données de prix appropriées pour appartenir à ces catégories définies. 
  • Précision: La précision est la clé d'un bon ensemble de données. Toutes les informations que vous alimentez le modèle d'IA doivent être fiables et parfaitement exactes. Si de grandes parties de vos ensembles de données sont incorrectes, votre sortie sera également inexacte.  
  • Unicité: Ce point est similaire à la cohérence. Chaque point de données doit être unique pour la variable qu'il dessert. Par exemple, vous ne voulez pas que le prix d'un emballage en plastique relève d'une autre catégorie d'emballage. 

Garantir la qualité des données

Il existe de nombreuses façons de s'assurer que la qualité des données est élevée, par exemple en s'assurant que la source de données est digne de confiance. Voici quelques-unes des meilleures techniques pour vous assurer d'obtenir des données de la meilleure qualité pour vos modèles d'IA : 

1. Profilage des données

Le profilage des données est essentiel pour comprendre les données avant de les utiliser. Le profilage des données offre un aperçu de la distribution des valeurs, des valeurs maximales, minimales, moyennes et des valeurs aberrantes. De plus, cela aide à formater les incohérences dans les données. Le profilage des données aide à comprendre si l'ensemble de données est utilisable ou non. 

2. Évaluation de la qualité des données

À l'aide d'une bibliothèque centrale de règles de qualité des données prédéfinies, vous pouvez valider n'importe quel ensemble de données avec une bibliothèque centrale. Si vous disposez d'un catalogue de données avec des outils de données intégrés, vous pouvez simplement réutiliser ces règles pour valider les noms des clients, les e-mails et les codes produit. De plus, vous pouvez également enrichir et standardiser certaines données. 

3. Surveillance et évaluation de la qualité des données

Les scientifiques disposent d'une qualité de données pré-calculée pour la plupart des ensembles de données qu'ils souhaitent utiliser. Ils peuvent le réduire pour voir le problème spécifique d'un attribut, puis décider d'utiliser ou non cet attribut. 

4. Préparation des données

Les chercheurs et les scientifiques doivent généralement modifier un peu les données pour les préparer à la modélisation de l'IA. Ces chercheurs ont besoin d'outils faciles à utiliser pour analyser les attributs, transposer les colonnes et calculer les valeurs à partir des données. 

Le monde de l'intelligence artificielle est en constante évolution. Bien que chaque entreprise utilise les données de manière différente, la qualité des données reste impérative pour tout projet de mise en œuvre de l'IA. Si vous disposez de données fiables et de bonne qualité, vous éliminez le besoin d'ensembles de données volumineux et augmentez vos chances de succès. Comme toutes les autres organisations, si votre organisation se tourne vers la mise en œuvre de l'IA, vérifiez si vous disposez de données de bonne qualité. Assurez-vous que vos sources sont dignes de confiance et effectuez une diligence raisonnable pour vérifier si elles sont conformes à vos exigences en matière de données. 

Amy Groden Morrison a occupé pendant plus de 15 ans des postes de direction dans les communications marketing dans des sociétés telles que TIBCO Software, RSA Security et Ziff-Davis. Ses réalisations passées incluent l'établissement du premier programme technologique co-marqué avec CNN, le lancement d'une société d'événements sur le NYSE, le changement de marque d'une société cotée au NASDAQ en pleine crise, et le positionnement et la commercialisation d'une startup de la région de Boston pour une acquisition réussie. Actuellement, elle est vice-présidente du marketing et des opérations commerciales pour Alpha Software.