Retail : en quoi une infrastructure Big Data est-elle indispensable ?

Lorsqu’on parle du Big Data, on pense immédiatement aux larges volumes de données brassés par Google, Microsoft ou Amazon. Mais qu’en est-il des enjeux du Big Data pour les enseignes du retail ? Comment votre entreprise peut-elle en tirer profit ? Que cela implique-t-il pour vos systèmes d’information ? Octopeek vous dit tout !

D’où vient l’infrastructure Big Data ?

Pour comprendre ce qu’est une infrastructure Big Data, jetons un œil en arrière. D’où vient cette technologie ?
En quoi apporte-t-elle un véritable changement de paradigme dans la manière de piloter les entreprises ?

La course à la vitesse et à la capacité des premières infrastructures IT

Rappelez-vous, lorsque les entreprises sont passées des fichiers papier et des archives poussiéreuses enfermées dans des rangées de placards qu’on n’ouvrait jamais aux premiers ordinateurs, les enjeux se sont immédiatement portés sur la capacité de stockage numérique de l’information et sur sa vitesse de traitement.
Année après année, les disques durs ont évolué pour traiter toujours plus de données : les Mégaoctets (Mo) sont devenus des gigaoctets (Go) puis des Teraoctets (To), des Petaoctets (Po), des Exaoctet (Eo), etc. 

Avec le tout digital, les bases de données doivent être en mesure de stocker et de traiter rapidement des volumes colossaux d’informations pour apporter la bonne réponse à une problématique client ou prendre les meilleures décisions sur des marchés qui se sont grandement complexifiés.
Pour faire face, les entreprises ont investi dans des unités de stockage toujours plus grandes ou toujours plus nombreuses.

Jusqu’au jour où… le volume d’informations est devenu tellement grand qu’il a fallu changer de paradigme. Imaginez, en 2020 plus de 300 milliards d’e-mails ont été envoyés et reçus à travers le monde chaque jour
(source Statista), des millions de vidéos ont été diffusées sur des plateformes telles que YouTube, et la quantité d’informations disponibles a explosé.
Aucun datacenter (aussi gros soit-il) ne peut traiter le volume de données qui transitent aujourd’hui sur le web.

L’avènement du Big Data

Plutôt que de changer les serveurs par des serveurs plus puissants (évolution en « scale up »), il est parfois devenu nécessaire de mettre en réseau les ordinateurs pour partager les besoins en traitement et en stockage de l’information (évolution en « scale out »). Le Big Data n’est finalement que la suite logique de ce changement de paradigme. Une infrastructure Big Data n’est rien de plus qu’une série de serveurs interconnectés, dimensionnés pour stocker et traiter de larges volumes de données.

En quoi consiste une infrastructure Big Data ?

1. Centraliser les données internes de l’entreprise

La plupart des entreprises sont de formidables sources d’informations. Malheureusement, ces données internes ont été historiquement stockées dans des entrepôts de données distincts les uns des autres.
Dans de nombreuses organisations, chaque service, ou chaque département, collecte et stocke des données dans une base dédiée à son propre usage. Ce sont les fameux « silos de données ».
La première étape est donc de rassembler toutes ces informations en un seul endroit, où elles pourront être combinées, analysées et valorisées par toute l’entreprise.

Cet entrepôt de données commun peut prendre la forme d’un « lac de données » (ou data lake).
Il s’agit d’un référentiel où vont être stockées l’ensemble des données de l’entreprise, quels que soient leur nature et leur format. L’expression « lac de donnée » est ici très parlante : il faut imaginer un immense plan d’eau dans lequel chaque goutte d’eau serait une donnée. À certains endroits, l’eau est limpide : les données sont nettoyées ou structurées. Ailleurs, l’eau est plus ou moins trouble : les données sont peu ou pas structurées.
Le data lake permet ainsi de stocker de larges volumes de données au format hétérogène et d’en faciliter l’accès au sein de l’entreprise. 

2. S’ouvrir à la data externe

Cependant, aussi riche soit-elle, cette donnée interne (aussi appelée « first party data ») est souvent insuffisante pour appréhender toutes les facettes d’une problématique. Il faut alors chercher de la data à l’extérieur, soit par des partenariats avec d’autres entreprises (« seconde party data »), soit par la collecte de données publiques Open source, l’achat de données auprès d’agrégateurs de data issues du web (« third party data ») ou des techniques de « web scrapping » qui permettent d’extraire l’information des sites Internet cibles pour les enregistrer dans ses propres entrepôts de données. 

Exemple de cas d’usage dans le retail : la détection de l’insatisfaction client

C’est un fait : un client satisfait parlera de son expérience positive à un nombre restreint de personnes quand un client mécontent le fera savoir à toute sa communauté, soit en face à face, soit par les réseaux sociaux.
Dans le même temps, seuls 4% de ces clients insatisfaits se plaindront directement à l’entreprise.
Pour les enseignes du retail, il devient donc important de se donner les moyens de détecter au plus tôt l’insatisfaction des consommateurs exprimée sur le web pour corriger le tir au plus vite. 

Il s’agit donc de parcourir diverses plateformes de médias sociaux, telles que Twitter ou Facebook, à la recherche de mentions d’un produit, puis d’extraire automatiquement de cette masse de données externes les opinions positives ou négatives. Ce procédé est ce qu’on appelle de « l’analyse de sentiment » (ou « sentiment analysis » en anglais). Grâce à l’étude de ces données externes, l’entreprise obtiendra une cartographie plus réaliste de la satisfaction ou de l’insatisfaction des consommateurs vis-à-vis de ses produits qu’en se basant sur ses propres données internes.  

3. Rendre les données exploitables

La première étape consiste donc à collecter des informations internes et externes, aussi volumineuses soient-elles. Mais il n’est pas dit que la qualité de cette data soit homogène. Elle peut contenir des inexactitudes, des valeurs partielles, erronées ou incomplètes. C’est là où les data scientists ont leur rôle à jouer : ils auront pour principaux enjeux de nettoyer la donnée, de la qualifier et de la traiter de manière à la rendre exploitable pour les besoins métiers. Ils se serviront de modèles statistiques simples ou des réseaux de neurones plus complexes dans le but de délivrer à l’utilisateur final de l’information pertinente, vérifiée et activable dans un cas d’usage métier.   

4. Tirer des enseignements des données avec la data visualisation (Dataviz)

La dernière étape est de produire des tableaux de bord, des feuilles de calcul ou des représentations graphiques suffisamment « digestes » pour permettre aux utilisateurs finaux de retirer toute la richesse de l’exploitation des données. Cette étape est cruciale, car il s’agit ici de synthétiser de larges volumes de données de manière à ce que l’esprit humain puisse les traiter.

Voici la représentation schématique d’une infrastructure Big Data déployée par Octopeek chez un acteur du retail. 

Commentaires :

  1. NIFI est une solution capable de gérer des données issues de différentes sources. La solution peut s’interfacer avec plus de 200 sources différentes et traiter les informations à la volée.
    NIFI est une solution open source créée historiquement par la NSA pour collecter des données à partir des téléphones.

Il existe bien-sûr d’autres moyens de collecter des informations, comme Python.
Ces processus sont des ETL (pour « Extract, Transform, Load »). Ils permettent aux informations d’être collectées sous n’importe quelle forme, transformées en une forme exploitable, puis injectées dans le système d’information.

  1. Le lac de données (Data lake) est un entrepôt de données, constitué de clusters de 10 à 20 machines, ou plusieurs milliers. Dans le domaine du Big Data, il existe deux références majeures en matière de bases de données : Hive (SQL) et HBase (NoSQL).
    À noter que chez Google, ils utilisent leur propre système de gestion de base de données relationnelle, appelé BigQuery.
  1. Spark permet de stocker et de traiter les données directement dans la mémoire système. Cette solution est devenue aujourd’hui la norme pour les plateformes Big Data.

Quels sont les avantages d’une infrastructure Big Data pour le retail ?

Le marché du retail est extrêmement concurrentiel. Dans la plupart des villes, vous trouverez au moins deux magasins physiques vendant des produits similaires, à des tarifs relativement comparables.
Avec le boom du e-commerce, vous n’êtes plus seulement en concurrence avec la boutique du haut de la rue, mais avec des marketplaces du monde entier.

Le Big Data n’est plus une option pour les enseignes du retail. Si elles veulent gagner des parts de marché face aux géants du web (avec Amazon en première ligne), elles doivent jouer à armes égales et changer leur façon de faire du commerce. Et ce changement de paradigme passe par l’exploitation du Big Data. 

Prenons un exemple

Imaginons que vous dirigiez une boulangerie de centre-ville. À la fin de la journée, vous comptez le nombre de pains et de viennoiseries que vous avez vendus et vous obtenez votre chiffre d’affaires.
C’est ce qu’on appelle « l’analytics », c’est-à-dire le traitement des données passées. Parfois vous vous retrouvez à court de produits, certains jours vous restez avec des dizaines de pains invendus. Dans les deux cas, vous faites le constat que vous perdez de la valeur, soit en n’ayant plus de produit à fournir aux clients potentiels, soit en jetant les invendus.
Cependant votre analyse a posteriori des évènements passés ne vous permet pas d’empêcher la situation de se reproduire à l’avenir.  

Le Big Data change tout. Vous pouvez désormais compter sur de larges volumes de données externes (démographie locale, prévisions météorologiques, pains et viennoiseries les plus appréciés, etc.) qui vont influencer la manière de gérer votre activité. Des modèles de données vous permettront d’anticiper la quantité exacte de pains et de viennoiseries à produire pour les jours suivants : cela signifie des gains en matière première, des gains en satisfaction client et de meilleures opportunités de croissance.   

Dans l’exemple de la boulangerie, le nombre de produits et de matières premières est relativement limité.
Mais dans le cas d’une grande enseigne de l’alimentaire ou du prêt à porter, avec les milliers de références gérées, le retour sur investissement d’une infrastructure Big Data peut être très rapide.

En résumé, pour le retail : 

Avec le Big Data, vous vous tournez vers l’avenir plutôt que vers le passé, ce qui permet de:

• prédire le niveau de stock à avoir ou les matières premières à acheter

• suivre les prix de vos concurrents en temps réel pour ajuster les vôtres

• acquérir suffisamment d’informations sur vos clients pour prédire leurs habitudes d’achat et leur faire des recommandations efficaces

Une infrastructure Big Data est-elle à la portée de toutes les entreprises ?

Si votre entreprise est de taille moyenne (PME), nous vous recommandons de rechercher une solution SaaS.
Vous n’aurez ainsi pas besoin de développer ni de maintenir une infrastructure Big Data en interne.
Le mode SaaS est donc une solution qui peut s’avérer économique, grâce au principe de mutualisation des coûts.
Le cloud présente aussi l’avantage d’être plus flexible. La mise à disposition d’un serveur supplémentaire se fait en quelques jours, quand l’achat, le déploiement et la configuration d’une nouvelle machine en interne prend parfois des mois.

Quels sont les pré-requis à l’infrastructure Big Data ?

1. Vous avez besoin de données. De beaucoup de données. De nombreuses entreprises estiment que les données dont elles disposent en interne sont largement suffisantes (informations sur les clients, niveaux de stock, historique des ventes…) En vérité, cette data n’est que la pointe de l’iceberg. Aujourd’hui, entre 80 et 90% des informations utilisées dans une approche « data driven » proviennent de l’extérieur. Votre premier objectif est donc de vous équiper d’une solution capable de rassembler toutes les données au même endroit.

2. Vous devez être en mesure de traiter les données collectées. Cela signifie qu’au-delà de la collecte et du stockage de l’information, vous devez être en mesure de l’intégrer dans votre SI.
Vous devrez aussi vous assurer de la qualité et de la véracité des données collectées.
Internet est un puits sans fond de données, mais elles ne sont pas toutes véridiques ou complètes à 100%.
Dans le cas d’un suivi des prix de la concurrence, il arrive par exemple que vous vous retrouviez avec une paire de chaussettes au prix d’une paire de chaussures.
Vos Data scientists devront alors contrôler l’information et la corriger en base de données le cas échéant. 


Avec le Big Data, les acteurs du retail ont enfin les moyens de concurrencer les plus grandes enseignes mondiales du e-commerce, tant au niveau de la qualité de service que de la performance économique.
Vous avez de très larges volumes de données à centraliser, à enrichir, à structurer et à exploiter ?
Parlons ensemble de votre projet !