Les 3V du Big Data : Volume, Vitesse, Variété

big data 3V

Le Big Data s’articule autour de trois notions clés souvent appelés les “3V”. Ces caractéristique fondamentales sont : Volume, Variété, Vitesse.

Volume – explosion de la quantité de données

Croissance des données …

En 2000, seulement 20% des données étaient numériques. Aujourd’hui, 90% des données disponibles sur Terre ont été produites pendant les 24 derniers mois.

L’explosion du volume de données est accélérée par les ventes de terminaux. En 2015, 2,5 milliards de terminaux (téléphones, tablettes et ordinateurs) ont été vendus dans le monde. Le taux de pénétration d’internet dans les pays développés est supérieur à 75% (88% en Amérique du Nord, 81% en Europe). Dans les pays émergents, de nouvelles personnes accèdent au web chaque jour et viennent contribuer à l’explosion du volume de données. On peut prédire que le nombre d’internautes va énormément augmenter quand on sait que l’Asie du Sud ne compte que 19% d’internautes et l’Afrique 26%.

En France, 55 millions de personnes utilisent internet. On recense plus de 45% de la population française sur les réseaux sociaux. Les consommations internet sont en pleine croissance. Le temps passé sur les réseaux sociaux sur internet via mobile est en croissance.

Si nous associons régulièrement la génération Y aux « digital natives », il est à noter qu’une étude récente de TNS Sofres montre que même les seniors sont des utilisateurs réguliers du numérique.

 

… et des capacités de stockage

Les cadors du web tels que Google ou Facebook développent des stratégies basées sur l’accumulation des données relatives à leurs utilisateurs. En multipliant les services, ces sociétés accumulent des volumes de données sans précédent.

En 2013, il fallait 10 minutes pour créer autant de données qu’il y en a eu, entre la Préhistoire et 2003. Et ce phénomène d’accélération ne va pas s’arrêter puisque les Hommes génèrent de grands volumes de données et ils seront dépassés par la machine. Les objets connectés (IoT) sont générateurs d’un volume de données qui pourrait dépasser celui des Hommes. Les machines et objets échangeront des données et des informations, c’est l’avènement du « machine to machine ».

L’explosion du volume des données n’aurait pas été possible sans la croissance simultanée des capacités de stockage. L’évolution des technologies de stockage a aussi réduit considérablement les coûts.

 

Variété – le digital, source de données variées

Nous avons précédemment abordé la notion de volume des données. Le volume est à mettre en relief avec la variété des données. Sur le digital, nous générons des données très différentes telles que des dates, des photos, des noms, de la musique, des vidéos, des lieux, des dépenses, etc. C’est le propre du Big Data.

Données déclaratives

Les données déclaratives sont, par exemple, le prénom, le nom, le sexe, l’âge, la CSP, etc.

Données comportementales

Les données comportementales en ligne regroupent les informations relatives à la consommation internet de l’utilisateur : heures de connexion, lieux de localisation, musiques écoutées, temps passé sur internet, activités, artistes, sportifs et marques suivis sur les réseaux sociaux, interactions (likes, partages, commentaires), etc.

Données réelles

Les données déclaratives et comportementales constituent des données réelles. Elles sont factuelles (telles que la fréquence cardiaque enregistrée par un bracelet connecté) et elles ne subissent aucun traitement et aucune interprétation dans un premier temps.

Données dérivées

Les données dérivées s’opposent aux données réelles dans la mesure où elles résultent d’un calcul, d’une estimation, d’une prédiction, d’un algorithme ou d’un autre traitement. La présence d’une voiture sur une photo postée sur Facebook sera une information dérivée car elle résultera de l’identification de l’objet par un logiciel de reconnaissance d’images.

Données structurées

Les données sont enfin divisibles selon deux catégories : les données structurées et les données non-structurées. Les premières citées sont assimilables à toutes les données que l’on pourrait renseigner dans un tableau Excel. Technologiquement, on parle de données SQL(structured query language).

Données non-structurées

Les données non-structurées sont assimilables aux données qui ne rentrent pas dans le tableau Excel et nécessitent la création d’une nouvelle colonne. Ces données non-structurées sont très variées et sont une particularité du Big Data. Elles apportent des éléments jusque-là non-traités et par conséquent des réponses jusqu’à présent inaccessibles. On peut citer par exemple les photos ou les commentaires sur les réseaux sociaux. Ces données ne sont pas exploitables en l’état. Technologiquement, on parle de données NoSQL (à l’inverse des données SQL précédemment citées).

Vitesse – une donnée exploitable en temps réel

L’une des propriétés du Big Data est la vitesse. La vitesse à laquelle d’énormes quantités de données sont générées, la vitesse à laquelle ces données sont stockées et la vélocité avec laquelle les données sont analysées et restituées de manière compréhensible.

IBM a développé une intelligence artificielle nommée Watson. Pour gagner un grand jeu télévisé face à des humains, l’intelligence artificielle (IA) a analysé 200 millions de pages en trois secondes afin de répondre aux questions posées par l’animateur télé.

 

Le quatrième “V” du Big Data

Visualisation

La Dataviz, secteur relatif à la visualisation des données, est essentielle pour rendre les résultats intelligibles. Le volume et la variété des données rendent la donnée inexploitable à l’état brut. Une fois traitées et catégorisées, les données donnent des résultats qui doivent être présentés d’une manière optimale pour en tirer des conclusions. La Dataviz peut servir à vulgariser une analyse et à donner le pouvoir à chacun de comprendre les grandes tendances sans aucune compétence technique d’analyse de données.

Véracité

La véracité (ou qualité) est sûrement le plus important des éléments. Le volume, la variété, l’analyse, la visualisation et les autres éléments du Big Data ne sont rien si la data n’est pas fiable. La donnée est la matière première. Si la matière première n’est pas de bonne qualité ou chargée de nombreuses irrégularités, le rendement et les performances seront lourdement impactés.

Valeur

La valeur de la donnée est un élément discutable. En effet, la donnée brute ne permet aucune conclusion et n’a donc aucun intérêt, en l’état. Cependant, on peut valoriser la donnée selon le potentiel de gain qu’elle représente. C’est le modèle de certains data providers.

 

Lisez également mon article sur “L’histoire de la Data, de Gutenberg à nos jour

 

Sources :

A propos de Quentin Guignard 26 Articles
Diplomé du meilleur Master "E-business et Marketing Digital" en France. J'ai travaillé pour deux startups dans le sport business, un grand groupe dans les medias et je travaille actuellement pour un accélérateur de startup, le French Tech Hub. Mon parcours m'a amené à étudier 6 mois à Londres et à travailler 6 mois à San Francisco.