Les ambiguïtés des données

Source Pixabay - CC0
Source Pixabay - CC0

Big Data : de quoi parle-t-on ?

Le Big Data est un buzzword qui continue de faire couler beaucoup d’encre. Il n’a pas la même signification selon son domaine d’appartenance ou selon son angle d’approche. On finit généralement par prendre conscience qu’il est polymorphe et qu’une grande confusion règne parfois, confusion générée volontairement ou non, par les acteurs et observateurs.

Ici, nous nous appuierons sur les travaux d’E. Schmitt pour entendre « les Big Data comme l’ensemble des conséquences de la massification de l’informatisation du fait humain, c’est-à-dire de ses activités individuelles, sociales et collectives, parmi lesquelles se trouvent notamment la multiplication des traces laissées par les individus par leur usages de dispositifs tels que le web et l’appropriation de ces traces pour en faire des données exploitables, l’informatisation d’activités productrices de données […] ainsi que l’ensemble des outils, techniques et méthodes développés pour stocker, manipuler, analyser, visualiser ces données, à quoi il faut ajouter la compréhension politique et éthique de ces phénomènes lorsqu’ils sont envisagés dans leur dimension sociotechnique d’outils de surveillance et de pouvoir. »

Dans cette acception, nous sommes donc dans le phénomène et ses conséquences, ces dernières intégrant les orientations technologiques et leurs nouvelles architectures, les changements de paradigmes économiques, sociaux et sociétaux inhérents. D’un point de vue scientifique et en général, un monde semble s’être ouvert aujourd’hui et semble promettre beaucoup pour demain.

Changements principaux et champs d’application

Changements

Le phénomène Big Data offre en réalité trois changements interdépendants selon V. Mayer-Schönberger et K. Cukier :

  • La capacité d’analyser des quantités bien plus grandes de données. Jusque-là, et depuis le XIXe siècle, il était question, avec de gros nombres, de recourir à l’échantillonnage. En comparant les périodes, il y a d’un côté la conjonction de facteurs tels que les méthodes statistiques avec des règles sur des « petites données » et un univers analogique ; de l’autre,  le numérique et les progrès technologiques qui l’encadrent à savoir l’architecture technique, le stockage, la capture des informations et la puissance de calcul (pour faire simple).
  • Vis-à-vis de l’époque précédente, une sorte de détachement par rapport à la recherche systématique d’exactitude. La « massification » peut fait ressortir des grandes tendances, des phénomènes. L’exactitude n’est plus forcément le but systématique et ultime recherché par les organisations dans ce nouveau paradigme. Elles se satisfont d’une « notion générale plutôt que de connaître un phénomène jusqu’au plus petit détail ». La compréhension globale au détriment de la précision en quelque sorte.
  • « Une prise de recul vis-à-vis de l’éternelle quête de causalité [de l’être humain]» qui est conditionné pour raisonner de la sorte avec les biais qu’elle peut parfois induire ; « dans le monde de big data, en revanche, fini l’obsession de la causalité ; dans les données, nous pouvons découvrir des corrélations qui révèlent des tendances et nous apportent des informations vraiment précieuses, voire innovantes ». En somme, il s’agit davantage de quoi que de pourquoi : alerter qu’un fait se produit. Faire émerger des informations non visibles jusqu’alors.

Le Big Data marque donc une rupture importante avec la période qui l’a précédée. Quantitativement, l’échelle des volumes à traiter explose et toute la chaîne de création de valeur est bouleversée. Sur le plan qualitatif, on ne traite plus des données préalablement échantillonnées et structurées, mais hétérogènes et éparses, structurées et non-structurées (texte, image, multimédia, traces numériques…). Les données sont traitées non plus en différé mais en temps réel : on passe d’une logique de silos (batch, tables, ..) à une logique de flux. De plus, il consiste à « créer en exploratoire et par induction sur des masses de données à faible densité en information des modèles à capacité prédictive. Les résultats de ces modèles à capacité prédictive peuvent être exploités soit de manière automatique, soit pour décision ».

Un écosystème économique

Photo by William Iven on Unsplash
Photo by William Iven on Unsplash

Le Big Data est devenu un écosystème économique. Il touche tous les secteurs d’activité et a de nombreux champs d’application. On peut observer qu’il s’est bien imposé dans le milieu du business. Mieux comprendre le présent ou envisager la prédiction des faits rend les décideurs très attentifs. Parmi ces domaines, on entend beaucoup parler d’informatique,  de web, de marketing, de sciences et de surveillance mais la liste est bien entendu très loin d’être exhaustive car l’objectif n’est pas là.  

L’informatique est au premier plan car le phénomène provient clairement de prime abord d’innovation à plusieurs niveaux sur ce périmètre ; on peut voir cela comme le « moyen », c’est-à-dire que les données sont capturées, stockées sur des matériels informatiques et exploitées au sens technique du terme par les informaticiens.

La valorisation des données, pour en extraire de l’information est faite par des profils émanant des sciences de données : les data scientists ont généralement une triple compétence  informatique, mathématique et statistique. Ces sciences de données utilisent des méthodes qui s’appuient mais succèdent au data mining (en simplifiant, fouille de données : analyse de données et statistiques exploratoires) qui vise avant tout à exploiter les données collectées dans les entrepôts des organisations. Les data scientists recherchent des motifs qui pourraient se répéter dans les masses de données en vue d’en extraire de l’information ou des éléments pouvant inviter les parties prenantes à une analyse plus fine.

D’autre part, le marketing et la gestion de la relation clients font beaucoup parler car le Big Data est très prometteur dans la connaissance des clients ou des prospects ; ce que nous évoquions précédemment concernant les limites des échantillons est particulièrement applicable dans ces activités ; de plus, sur les portails d’e-commerce, il est très intéressant d’étudier les parcours effectués et les taux de conversion qui s’ensuivent. Un intérêt croissant également pour ce qu’englobent les « longues traînes ». Les marketeurs ont longtemps travaillé avec des moyennes et sur des segments (panier moyen etc.), mais les moyennes cachent des réalités bien plus riches et les situations réelles plus complexes (un sujet appartient à plusieurs segments notamment) : les Big Data peuvent par exemple mettre en exergue que l’augmentation d’une consommation de shampoing en pharmacie correspond à l’arrivée des pollens.

Dans des domaines comme la santé pour ne citer que celui-ci, le Big Data ouvre des perspectives très prometteuses pour la recherche mais inquiète également pour des aspects déontologiques (données de santé). Nous ne développerons pas davantage.

Bien sûr que les statistiques et la volonté d’analyse ne sont pas nées avec le déluge Big Data. D’autre part, les promesses et la concrétisation de ces promesses sont deux choses différentes. Toutefois, nous sommes entrés dans une nouvelle ère avec l’avènement de ces Big data.

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.