Le Big Data au secours des sites e-commerce

#BoostYourBusiness

L’explosion du e-commerce associé à la gestion d’un nombre de produits grandissant tous les mois rendent la tâche difficile pour conserver une bonne vision sur son positionnement concurrentiel.
Comment donner à un acheteur instantanément les informations nécessaires pour évaluer et renégocier les offres fournisseurs dans un délai très court ?

Une rentabilité pas toujours au rendez-vous

Aujourd’hui, le consommateur n’est qu’à un clic pour comparer les offres avec la concurrence. Le secteur e-commerce est très compétitif mais pas forcément rentable : 87% du CA e-commerce est réalisé par seulement 5% des 182.000 sites marchands répertoriés en 2018 pour seulement 68% des sites déclarés rentables (source Fevad).

Une vision instantanée de son positionnement

Ces sites marchands doivent gérer chaque mois des centaines de milliers de références (ajout, suppression, mise à jour, promotion…).

Avoir une vision précise de son offre par rapport à celle de ses concurrents devient un véritable challenge tant sur la complexité de la veille à réaliser que sur l’importance de la réactivité à avoir pour ajuster son offre.

Deux principaux défis émergent alors : le volume de données et la reconnaissance des offres identiques quel que soit le site marchand et donc la structure de l’offre en ligne.

Afin d’y répondre, Octopeek a développé pour un pureplayer international spécialisé dans le retail un logiciel de veille prix sur une plateforme Big Data. Cette solution interroge les e-shops des concurrents référencés (y compris à l’international) grâce à des outils de collecte. Les données sont alors stockées dans une infrastructure Big Data hébergée en France et managée par Octopeek. Elles sont sourcées, structurées et les offres concurrentielles de mêmes produits sont appariées. Les résultats sont mis à la disposition du client via une interface intuitive et en libre-service.

Un véritable projet Big Data

Pour caractériser un projet Big Data il est nécessaire de répondre à la règle des 3V (Volume, Vitesse, Variété). Chez Octopeek, notre expérience dans ce domaine nous amène à plutôt considérer 6V (Volume, Vitesse, Variété, Véracité, Valeur, Visualisation).

Dans le cadre de ce projet e-commerce, nous répondons aux 6V.

Volume : Traiter des centaines de milliers de références nouvelles tous les mois.
Vitesse : Pouvoir traiter les informations très rapidement.
Variété : Absence d’un format standardisé des données entre les différentes sources.
Véracité : Besoin d’un contrôle sur les prix et les différents champs déclaratifs.
Valeur : Donner de la valeur aux données et améliorer la performance.
Visualisation : Permettre une visualisation des données à un instant T.

Une infrastructure Big Data en 4 étapes

L’architecture de la solution adoptée se décline en 4 parties :

Collecte des données distribuées et ingestion dans les bases Octopeek.
Réconciliation des données et mise à disposition de données qualifiées dans nos bases.
Module de Machine Learning / Analytics pour explorer la donnée et intégrer de nouveaux use cases.
Module de restitution via des interfaces IHM (Interface Homme Machine) pour l’interrogation de ces données.

Les dataflows (flux de données) sont implémentés via Apache NiFi et permettent d’alimenter les bases de données utilisées par l’application de veille de prix. Les nouvelles données sont d’abord injectées dans une base Apache Hive permettant l’archivage sous HDFS. Cette base sert également à la réconciliation et à la normalisation des données provenant de sources différentes (en passant par une landing zone). Des modules Spark ML (Machine Learning) interviennent sur ces données pour répondre à des usages particuliers du client final. Par exemple, faire correspondre des produits répartis sur plusieurs sites différents en se basant sur du NLP (traitement automatique des langages) et des algorithmes de matching.

Les données « gold » sont injectées et mises à disposition dans des datamarts dédiés au client.

Un autre workflow NiFi se charge de créer les index ElasticSearch qui vont servir l’application web via API. Utiliser ElasticSearch comme base de données métier permet de profiter de sa vitesse de requêtage (faible latence) et du moteur de recherche (Lucene). Ce dernier met à disposition des fonctionnalités telles que l’auto-complétion, la correction automatique et la gestion des synonymes.

Un outil Big Data intuitif pour ses utilisateurs

La partie importante de la solution implémentée par Octopeek est la restitution des données via une application web intuitive et facile à utiliser, validée par les équipes métier client. Le but étant qu’un simple tutoriel permette à un utilisateur de s’approprier l’outil rapidement. De plus, les datamarts ElasticSearch permettent l’utilisation de Kibana pour visualiser les données. Les équipes techniques du client disposent donc de DataViz et de dashboards configurables et personnalisables.

L’outil, utilisé comme tel en libre-service, permet à des « non experts » Big Data d’en exploiter la puissance et ainsi améliorer leur productivité et performance grâce à l’intelligence artificielle.