On-line / Off-line : quelles sont les différentes méthodes d’évaluation des algorithmes de recommandation de contenus ?

Les systèmes de recommandation deviennent des fonctionnalités indispensables à toute plateforme désireuse de satisfaire et de fidéliser des utilisateurs de plus en plus versatiles. Pour tester la performance de ces systèmes de recommandation, deux méthodes co-existent : l’évaluation offline et l’évaluation online. Comment se différencient-elles ? Quels sont les avantages et les biais qu’elles engendrent ? Nous vous disons tout dans cet article. 

À quels besoins répond la recommandation de nouveaux contenus ? 

Un système de recommandation est une application permettant à des utilisateurs de « consommer » des items lui étant recommandés selon différents critères. Ces items peuvent être des articles d’actualité (e.g. Google Actualités, Yahoo Actualités), des films à visionner (e.g. Netflix, Disney+, Prime Video) ou des produits à acheter sur des sites e-commerces (e.g. Amazon, eBay, Rakuten). Ces systèmes de recommandation répondent à un besoin simple : les utilisateurs n’ont plus la capacité, notamment en temps, de sélectionner par leurs propres moyens les contenus pouvant les satisfaire.

Toutes les plateformes commerciales citées ci-dessus utilisent des algorithmes de recommandation privés. Leur objectif est de proposer aux utilisateurs des items susceptibles de les intéresser, afin de les fidéliser et de générer davantage de revenu par une consommation intensifiée. N’oublions pas que les modèles économiques de ces plateformes commerciales reposent essentiellement sur des contenus sponsorisés, des publicités, des achats intégrés et des abonnements. 

Comment tester et évaluer la performance des algorithmes de recommandation ?   

La plupart des algorithmes de recommandation sont issus de la recherche dans le domaine des systèmes de recommandation. Pour cela, la communauté peut s’appuyer sur différents jeux de données servant à évaluer leurs algorithmes, tels que : 

  • MovieLens (Harper et Konstan, 2015) : jeu de données permettant d’expérimenter des algorithmes de recommandation de films. 
  • LastFM (Bertin-Mahieux et al., 2011) : dédié à la recommandation de musique, 
  • CiteULike (Wang et al., 2013) : dédié à la recommandation de ressources bibliographiques
  • Delicious (Rossi et Ahmed, 2015) : dédié à la recommandation de pages web. 

L’évaluation exploitant ces jeux de données statiques est dite « offline ». Ce type de jeux de données permet d’anticiper, avec plus ou moins de biais, les performances d’un algorithme de recommandation s’il était placé en conditions réelles. La méthode de recommandation off-line consiste notamment à prédire « en laboratoire » les préférences futures d’un utilisateur à partir de l’expression implicite ou explicite de ses préférences passées.

Il existe aussi des plateformes mises à disposition de la communauté de recherche permettant d’effectuer une évaluation « online » d’algorithmes, c’est-à-dire une évaluation impliquant des utilisateurs en temps réel. Nous pouvons par exemple citer la plateforme de recommandation on-line NewsREEL (Hopfgartner et al., 2016) qui propose aux équipes de recherche d’évaluer leurs algorithmes de recommandation d’articles d’actualité par l’intermédiaire de différents journaux en ligne. Ce sera aussi le cas de la future plateforme de recommandation Renewal développée par Octopeek et le Laboratoire Interdisciplinaire des Sciences du Numérique (LISN). 

Quels sont les biais de l’évaluation off-line ?

La méthode d’évaluation off-line des systèmes de recommandation présente l’avantage de tester facilement et rapidement la performance des algorithmes à partir de jeux de données passés. Mais étant décorrelée de la satisfaction « réelle » des utilisateurs, celle-ci comporte un certain nombre de biais qui peuvent altérer les résultats et qui doivent être compensés.

La vue partielle des intérêts d’un utilisateur

L’historique de consommation de contenus d’un utilisateur ne correspond en réalité qu’à un sous-ensemble de ses intérêts existants et potentiels. Le fait qu’un utilisateur ne dispose que d’un temps limité implique qu’il ne consommera pas nécessairement des contenus couvrant tous ses centres d’intérêt existants. Autrement dit, les jeux de données qui serviront à l’évaluation des algorithmes de recommandation ne sont peut-être qu’une vue « partielle » de l’ensemble des intérêts de l’utilisateur. 

Ensuite, la loi du moindre effort implique que les habitudes de consommation auront tendance à limiter sa découverte d’intérêts nouveaux. Il se peut donc que les jeux de données utilisés ne soient qu’une vue « partielle » des intérêts que l’utilisateur pourrait avoir. L’historique d’un utilisateur n’est donc jamais aussi diversifié qu’il pourrait l’être. Or, les systèmes de recommandation « off-line » se basent sur les items historiques, et recommandent, en conséquence, uniquement des items similaires à ceux appartenant à un sous-ensemble restreint d’intérêts.

Le risque du phénomène de bulles de filtre

Le phénomène de « bulles de filtre » est l’isolement des utilisateurs lorsqu’ils consomment de l’information filtrée et personnalisée par des systèmes (Résultats des moteurs de recherche, systèmes de recommandation, fil d’actualité sur les réseaux sociaux, etc.). De plus, comme dans une chambre d’écho, ce phénomène tendrait à s’auto-alimenter. En effet, plus un individu lira de recommandations sur un sujet en particulier, plus le système de recommandation considérera ce sujet comme pertinent pour les recommandations suivantes, restreignant ainsi les lectures de l’individu à ce seul sujet. 

Le phénomène de bulle de filtres est aussi lié au biais cognitif de confirmation correspondant à une tendance des individus à ne chercher, retenir et diffuser que des arguments et opinions confirmant leurs croyances préconçues. Si une opinion est en accord avec les croyances d’un individu, alors celui-ci pourra plus facilement l’adopter tandis que la considération d’une opinion divergente nécessitera de résoudre des incohérences. Un individu aura donc tendance à consulter uniquement du contenu qui renforce son propre point de vue sans remise en cause par des opinions divergentes. 

Ces phénomènes de bulles de filtres ne sont pas des phénomènes souhaitables, car elles peuvent nuire au libre-arbitre des individus et à la démocratie. Elles peuvent aussi engendrer un risque de désinformation par la consultation continue de fausses nouvelles. Dans la lecture de l’actualité, l’utilisation de médias personnalisés a montré par exemple être corrélée à des phénomènes tels que la « ségrégation idéologique » (Flaxman et al., 2016).

La compensation par la diversité, la nouveauté et la sérendipité

Les systèmes de recommandations s’efforceront donc de compenser ces phénomènes par l’introduction de trois notions : 

  • la diversité : proposer des contenus suffisamment différents pour éviter le phénomène de bulle de filtre tout en maximisant les chances de proposer à l’utilisateur au moins un contenu pertinent. Le principe de diversification de la liste de contenus proposés permet aussi de pallier l’ambiguïté de certaines requêtes, par exemple « Orange » pour l’entreprise ou la couleur. 
  • la nouveauté : proposer des contenus similaires qui n’ont pas encore été consommés (nouveauté dite « absolue ») ou suffisamment distants des contenus que l’utilisateur a déjà consommés (nouveauté dite « relative »). Il est par exemple possible d’améliorer la nouveauté relative par la promotion de contenus peu populaires, dits long-tail, comme le proposent Park et Tuzhilin (2008).
  • la sérendipité : proposer des contenus intéressants (ou pertinent), nouveaux et inattendus (ou surprenant) que l’utilisateur n’aurait pas découverts de lui-même. Elle se différencie de la nouveauté par la notion de « pertinence » par rapport aux intérêts de l’utilisateur.  

Quels sont les avantages de l’évaluation on-line ?

L’évaluation online consiste à mesurer la satisfaction observée de l’utilisateur à partir de ses interactions sur une liste de recommandations, lorsque l’évaluation offline consiste à estimer la satisfaction de l’utilisateur à partir de ses interactions supposées sur une liste de recommandations. Or, dans une interaction en temps réel entre un système de recommandation et un utilisateur, la nature même de l’interaction (par exemple la consommation parmi un nombre limité de contenus) et son contexte (par exemple l’utilisation du système dans une démarche de « découverte » de nouveaux intérêts) n’aboutira pas nécessairement aux décisions « supposées » de l’utilisateur lors de l’exploitation de données statiques.

L’évaluation on-line n’est pour autant pas exempte de difficultés à surmonter. Tout l’enjeu est de réussir à mesurer la satisfaction « réelle » de l’utilisateur. Par exemple, la seule mesure statistique basée sur le taux de clics (ou « click-through rate », abrégée CTR) ne tient pas compte du fait que les utilisateurs aient lu les articles cliqués ou non. Elle ne permet pas non plus de certifier que les utilisateurs aient trouvé les recommandations pertinentes. 

L’évaluation on-line devra donc se tourner vers des indicateurs plus difficiles à collecter, comme la notion de « temps de lecture » (dwell time). Ce qui est le cas notamment dans la plateforme Renewal, développée par Octopeek. Nous considérons qu’un article a été apprécié lorsqu’il a été cliqué et lu suffisamment longtemps selon un seuil défini à l’avance. Afin d’éviter les faux positifs lorsque, par exemple, l’utilisateur reste sur une page web d’article sans la consulter, nous considérons uniquement le temps d’activité, c’est-à-dire le temps de scrolling sur la page de l’article. Nous appelons ce retour de pertinence positif le « Click-and-Read ».

Pour tester les performances d’un système de recommandation, les deux démarches off-line et on-line apparaissent comme complémentaires. L’utilisation des systèmes off-line permet aux chercheurs de tester et d’ajuster leur algorithme de recommandation dans un laps de temps très court, quand les plateformes on-line permettent de se confronter aux interactions réelles des utilisateurs finaux. 

Pour en savoir plus sur les méthodes d’évaluation on-line, et notamment sur la plateforme Renewal développée par Octopeek, lisez notre article « Comment favoriser les challenges d’algorithmes de recommandation en temps réel ? ».