La préparation des données, une étape fondamentale

Réaliser une veille environnementale et sectorielle est très chronophage pour une entreprise. Trouver les informations, comparer les données, adapter leur format, les fusionner, les synthétiser…Tout cela prend beaucoup de temps. 

De plus, lors d’une collecte d’informations, il faut évidemment recouper les sources, pour être certain d’avoir une information la plus réelle et vérifiée possible. Pour cela, une entreprise peut, à intervalle régulier, faire des recherches via des moteurs de recherche ou des meta-moteurs. Néanmoins, ce travail est long, fastidieux et donc coûteux.
Pourtant, il est aujourd’hui indispensable de recueillir, d’étudier et d’utiliser les données en rapport avec l’entreprise, qu’elles soient d’origine interne, ou externe à celle-ci. Dès lors, on est en droit de se demander s’il n’existerait pas un autre moyen pour y parvenir ?

La réponse est oui ! Certains outils ont pour but de collecter des données à des fins stratégiques. Cette méthode de collecte de data apparait comme la meilleure solution pour l’harmoniser, la rendre compréhensible, l’enrichir, puis l’utiliser. Complètement automatisée, elle fait gagner temps et argent aux entreprises qui l’utilisent, de manière considérable. Elle permet de prendre les meilleures décisions, adaptées au contexte, pour de meilleurs bénéfices sur le long terme.

Comme nous l’avons évoqué dans un article précédent, la première étape de ces outils était la collecte. Elle consistait en l’extraction de données en grande quantité, qui proviennent de bases différentes. Les informations sont donc brutes. 

Passons maintenant à la seconde étape, que l’on appellera la préparation de la donnée récupérée.

En quoi consiste cette deuxième étape ?

Nous avons donc pour l’instant un grand nombre de données, donc une masse conséquente d’informations. Néanmoins, cette masse est brute. Les fichiers sont dans différents formats, différentes langues, les chiffres sont très nombreux, certaines données disent la même chose, certaines sont incomplètes… Il faut nettoyer et harmoniser tout cela.

Lors de l’étape de préparation, les données brutes sont analysées, filtrées et converties au format qui convient à une lecture facilitée. Cette étape est indispensable pour que les données soient accessibles et qualitatives

Sans les transformer et les reformater, toutes les données collectées ne pourraient pas servir à l’entreprise. Autrement dit, la masse conséquente d’informations resterait inutilisable sans cette étape. Et ça, ce serait vraiment dommage. 

Les données doivent donc être nettoyées, assemblées, enrichies, qualifiées et validées, avant d’être acheminées vers la dernière phase du processus. Le but de cette étape est donc que la masse d’informations devient intelligible et utilisable à des fins stratégiques et commerciales.

Concrètement, comment cela fonctionne ?


L’étape de préparation est elle-même divisée en cinq sous-étapes, aussi importantes les unes que les autres. Pour y voir plus clair, nous allons les étudier, une à une, en illustrant le propos avec des exemples concrets.

Tout d’abord, il y a la standardisation. On adapte le format, le mode de stockage des données pour pouvoir les traiter plus facilement lors des prochaines étapes.
Par exemple, si des données de ventes sont en milliers d’euros et d’autres en millions, il faudra choisir une seule unité pour standardiser les données, avant de pouvoir les utiliser. Sans la standardisation, on ne peut pas les comparer, ni les ajouter.

Ensuite, on passe à la déduplication. Les données qui se répètent et donnent le même contenu sont simplement regroupées en une unique information. Cela permet de ne pas fausser les statistiques.
Par exemple, si ces trois données apparaissent : « M. DUPONT », « Julien Dupont », et « J.Dupont », elles seront réunies en une seule information, « Julien Dupont. » Cette étape réduit considérablement le nombre de données.

Puis, place à la vérification. On élimine les données incomplètes ou comportant des anomalies. Certaines sont simplement inutilisables pour la dernière étape. On les élimine donc du processus. Par exemple, lorsque l’on a recueilli les données d’un sondage, si l’échantillon n’apparaît pas, ou que certains résultats sont incomplets, on va faire le choix de ne pas utiliser une information incomplète, et donc potentiellement fausse.


Enfin, le tri. Les données, qu’elles soient d’origine interne ou externe, sont classées par catégorie, par thème, par secteur, par format. Les data Warehouses auront donc plus de facilité à faire le bilan final. Les informations concernant la concurrence seront « rangées » ensemble, celles sur les habitudes des consommateurs aussi, les images seront toutes rangées ensemble, etc. Encore une fois, on rend la lecture plus simple. Il sera plus rapide de trouver l’information précise que l’on recherche dans la masse de données si elles sont triées.

Ces données sont aussi en quelques sortes évaluées, notées, lors de la cinquième sous-étape. C’est ce que l’on appelle le scoring : on met en place un système de notation, pour déterminer si la donnée possède les caractéristiques que l’on recherche. C’est un traitement statistique de la base de données, pour mesurer la pertinence de chacune d’entre elles. Ainsi, un classement est fait, pour les hiérarchiser. Cela permet encore une fois de gagner du temps, étant donné que l’on sait lesquelles sont les plus intéressantes pour l’entreprise. 

Afin de réaliser au mieux cette remise à niveau, l’entreprise aura, en amont, défini les critères de sélection selon son besoin en information. Que veut-elle savoir ? A-t-elle besoin de données générales ou très précises ? Sur quel sujet ? Quelles sources privilégier ? Il est donc important de savoir délimiter son besoin en information.

Cette étape de préparation permet donc à la Data d’arriver triée et prête à être utilisée pour la dernière phase. Sans elle, pas de données intelligibles.

Les enjeux de la préparation de données

Vous l’aurez compris, les données recueillies, lorsqu’elles sont brutes, sont quasiment inutilisables et ont besoin d’être transformées, préparées. Nous avons également vu par quelles sous étapes il fallait passer. Mais pourquoi avons-nous besoin de tout ce processus de préparation ?

Pour commencer, un grand nombre des données que nous aurons récolté sont à éliminer, pour différentes raisons. Elles sont incomplètes, certaines disent le contraire de toutes les autres… L’étape de préparation permet donc surtout d’isoler un bon nombre des données pour qu’elles n’impactent pas l’analyse.

Ensuite, comme nous l’avons évoqué, les données qui reviennent plusieurs fois sont regroupées en une seule et même information, qui semble alors concrète et vérifiée. Le nettoyage de celles-ci est donc important, et représenteraient une perte de temps colossale, sans ces outils de traitement de la donnée « end to end ».

Dans certains cas, la data peut avoir un format illisible ou incompréhensible. Lorsqu’elle passe l’étape de préparation, on la retrouve compréhensible, lisible et compatible avec les appareils utilisés.

De plus, il peut y avoir différents langages dans les données récoltées. Ces outils vont aussi se charger de la traduction.


S’il y a des données chiffrées à calculer, des unités de mesure à convertir, des moyennes de valeurs à trouver, ou autre mission technique, ils en sont aussi capables.

Ces manipulations sont plus ou moins périlleuses selon la quantité et la qualité de données que l’on a extraites. Il y a donc beaucoup de modifications à effectuer pour pouvoir déchiffrer les données, lors des sous-étapes que l’on a évoquées précédemment.

Il existe maintenant de nouvelles options, comme celle proposée par Octopeek. En utilisant un processus low-code ou voire no-code : l’entreprise peut profiter d’un outil plus simple d’utilisation, tout en permettant une analyse de données plus sophistiquée et plus complète, ce qui rend la prise de décision plus pertinente et plus efficace. 

Maintenant, vous connaissez bien la collecte et la préparation, qui constituent les deux premières étapes du processus. Dans un prochain article, nous aborderons la troisième et dernière étape proposée par l’outil d’Octopeek : l’enrichissement des données.