Suivez nous sur

AI 101

Qu'est-ce que le Big Data?

mm
Le kit de préparation mis à jour on

Qu'est-ce que le Big Data?

"Big Data" est l'un des mots à la mode couramment utilisés à notre époque actuelle, mais que signifie-t-il vraiment ?

Voici une définition rapide et simple du Big Data. Big données Ce sont des données trop volumineuses et complexes pour être traitées par les méthodes traditionnelles de traitement et de stockage des données. Bien qu'il s'agisse d'une définition rapide que vous pouvez utiliser comme heuristique, il serait utile d'avoir une compréhension plus approfondie et plus complète du Big Data. Examinons quelques-uns des concepts qui sous-tendent le Big Data, comme le stockage, la structure et le traitement.

Quelle est la taille du Big Data ?

Ce n'est pas aussi simple que de dire "toutes les données de plus de la taille 'X' sont des données volumineuses", l'environnement dans lequel les données sont traitées est un facteur extrêmement important dans déterminer ce qui est qualifié de mégadonnées. La taille que les données doivent avoir pour être considérées comme des données volumineuses dépend du contexte ou de la tâche dans laquelle les données sont utilisées. Deux ensembles de données de tailles très différentes peuvent être considérés comme des « données volumineuses » dans des contextes différents.

Pour être plus concret, si vous essayez d'envoyer un fichier de 200 mégaoctets en pièce jointe, vous ne pourrez pas le faire. Dans ce contexte, le fichier de 200 mégaoctets pourrait être considéré comme du big data. En revanche, la copie d'un fichier de 200 mégaoctets sur un autre appareil au sein du même réseau local peut ne pas prendre du tout de temps et, dans ce contexte, cela ne serait pas considéré comme du Big Data.

Cependant, supposons que 15 téraoctets de vidéo doivent être prétraités pour être utilisés dans la formation des applications de vision par ordinateur. Dans ce cas, les fichiers vidéo occupent tellement d'espace que même un ordinateur puissant mettrait beaucoup de temps à tous les traiter. Le traitement serait donc normalement réparti sur plusieurs ordinateurs reliés entre eux afin de réduire le temps de traitement. Ces 15 téraoctets de données vidéo seraient certainement considérés comme du Big Data.

Types de structures de données volumineuses

Les données volumineuses se présentent sous trois catégories de structure différentes : les données non structurées, les données semi-structurées et les données structurées.

Les données non structurées sont des données qui ne possèdent aucune structure définissable, ce qui signifie qu'elles se trouvent essentiellement dans un seul grand pool. Des exemples de données non structurées seraient une base de données remplie d'images non étiquetées.

Les données semi-structurées sont des données qui n'ont pas de structure formelle, mais qui existent dans une structure lâche. Par exemple, les données d'e-mail peuvent être considérées comme des données semi-structurées, car vous pouvez vous référer aux données contenues dans des e-mails individuels, mais des modèles de données formels n'ont pas été établis.

Les données structurées sont des données qui ont une structure formelle, avec des points de données classés par différentes caractéristiques. Un exemple de données structurées est une feuille de calcul Excel contenant des informations de contact telles que des noms, des e-mails, des numéros de téléphone et des sites Web.

Si vous souhaitez en savoir plus sur les différences entre ces types de données, consultez le lien ici.

Métriques pour évaluer le Big Data

Les mégadonnées peuvent être analysées en fonction de trois métriques différentes : le volume, la vélocité et la variété.

Le volume fait référence à la taille des données. La taille moyenne des ensembles de données augmente souvent. Par exemple, le plus gros disque dur en 2006 était un disque dur de 750 Go. En revanche, on pense que Facebook génère plus de 500 téraoctets de données par jour et le plus grand disque dur grand public disponible aujourd'hui est un disque dur de 16 téraoctets. Ce qui est quantifié comme du Big Data à une époque peut ne pas l'être à une autre. De plus en plus de données sont générées aujourd'hui car de plus en plus d'objets qui nous entourent sont équipés de capteurs, de caméras, de microphones et d'autres dispositifs de collecte de données.

La vélocité fait référence à la vitesse à laquelle les données se déplacent ou, pour le dire autrement, à la quantité de données générées dans un laps de temps donné. Les flux de médias sociaux génèrent des centaines de milliers de publications et de commentaires chaque minute, tandis que votre propre boîte de réception aura probablement beaucoup moins d'activité. Les flux de données volumineuses sont des flux qui gèrent souvent des centaines de milliers ou des millions d'événements plus ou moins en temps réel. Des exemples de ces flux de données sont les plateformes de jeux en ligne et les algorithmes de négociation d'actions à haute fréquence.

La variété fait référence aux différents types de données contenues dans l'ensemble de données. Les données peuvent être constituées de nombreux formats différents, tels que l'audio, la vidéo, le texte, les photos ou les numéros de série. En général, les bases de données traditionnelles sont formatées pour gérer un ou quelques types de données. Autrement dit, les bases de données traditionnelles sont structurées pour contenir des données assez homogènes et d'une structure cohérente et prévisible. À mesure que les applications se diversifient, regorgent de fonctionnalités différentes et sont utilisées par davantage de personnes, les bases de données ont dû évoluer pour stocker davantage de types de données. Les bases de données non structurées sont idéales pour contenir des mégadonnées, car elles peuvent contenir plusieurs types de données qui ne sont pas liés les uns aux autres.

Méthodes de traitement du Big Data

Il existe un certain nombre de plates-formes et d'outils différents conçus pour faciliter l'analyse des mégadonnées. Les pools de données volumineuses doivent être analysés pour extraire des modèles significatifs des données, une tâche qui peut s'avérer assez difficile avec les outils d'analyse de données traditionnels. En réponse au besoin d'outils pour analyser de gros volumes de données, diverses entreprises ont créé des outils d'analyse de données volumineuses. Les outils d'analyse de données volumineuses incluent des systèmes tels que ZOHO Analytics, Cloudera et Microsoft BI.