Le Big Data (ou méga données en français) rassemble des données massives variées, stockées sur une base numérique, puis traitées grâce à des technologies avancées adaptées qui permettent d’élaborer des diagnostics, de prendre des décisions en conséquence et d’établir des plans d’actions.
Quels sont les 5 V du big data ?
Le terme « Big Data » recoupe plusieurs dimensions que l’on retrouve dans la règle des 5V (Volume, Vélocité, Variété, Véracité et Valeur).
Big Data : d’où provient ce volume massif de données variées ?
Les données qui sont aujourd’hui disponibles trouvent leur source principalement dans notre vie quotidienne qui devient de plus en plus connectée avec l’essor d’internet.
« Tous les deux jours, nous créons une quantité d’informations équivalente à ce qui a été créé de l’aube de la civilisation jusqu’en 2003 » – Eric Schmidt, PDG de Google à l’époque (2010).
Réseaux sociaux, capteurs, caméras, smartphones et messages envoyés, signaux GPS, achats en ligne, transactions financières, utilisation de la carte bancaire, envoi d’emails, etc. Les technologies que nous utilisons directement ou indirectement engendrent toutes sortes de données. Aujourd’hui, les données sont donc partout autour de nous. Cependant, afin d’être utilisables, elles doivent être stockées puis traitées.
Selon les estimations de Statista en 2021, le volume annuel de données numériques créées à l’échelle mondiale était de 2 zettaoctets en 2010, 64 zettaoctets en 2020 et de …181 zettaoctets en 2055 ! On comprend mieux pourquoi on parle de Big Data !
Un zettaoctet équivaut à un milliard de teraoctets.
Le stockage du Big Data (Mégadonnées)
Plus le volume de données devient important, plus la capacité de stockage des supports informatiques nécessite d’être grande. Aujourd’hui, c’est principalement sur le cloud que sont enregistrées ces données constituant le Big Data. Ce « nuage » de données est en réalité un espace de stockage distant qui remplace les disques durs, les SSD, les CD, les clés USB, etc. en offrant la possibilité aux utilisateurs d’avoir accès à leurs documents depuis n’importe quel ordinateur via internet.
Des données analysées très rapidement
Ces données peuvent s’avérer utiles pour de nombreux acteurs de la société, comme les entreprises et les gouvernements. Mais pour être utilisées, elles doivent être d’abord traitées et analysées. C’est principalement grâce à des supercalculateurs guidés par des algorithmes que ceci est désormais possible.
Les supercalculateurs sont des outils extrêmement puissants capables de réaliser des millions de milliards d’opérations par seconde. Au cœur de ce système, on trouve des algorithmes, qui sont des programmes informatiques permettant de résoudre des problèmes grâce à une suite d’opérations prédéfinies.
Le développement de ces algorithmes a fait émerger l’apprentissage automatique (« Machine Learning » en anglais) qui permet de faire des analyses prédictives sur les données qui sont à disposition. Ainsi, ces données peuvent être utilisées pour détecter des tendances et des régularités dans le comportement des consommateurs en ligne, ou encore du trafic routier.
Si Big Data et intelligence artificielle (IA) sont souvent évoqués ensembles, ils restent deux concepts différents, bien que très dépendants. Le big data est une source de savoir essentielle pour l’IA, tout comme l’IA générative est particulièrement à même de l’exploiter correctement pour en tirer des bénéfices.
La véracité des données, nécessaire pour qu’elles aient de la valeur
Particuliers, comme entreprises, disposent aujourd’hui d’un très grand volume de données, de nature variée, traitées à une vitesse record, mais qui nécessitent d’être fiables et crédibles (véracité) afin d’avoir une réelle valeur correspondant au profit qu’on peut tirer de leur usage. C’est ce que l’on appelle, la règle des 5V. Le but du Big Data est donc de donner un sens et un intérêt économique et social aux données collectées.
Merci de vos explications d’une intelligence remarquable et pour l’accessibilité pour une petite cervelle telle qu’est la mienne