Quel avenir pour la Data Science ?

Avenir du métier de la Data Science

#HumanData

Explosion de la demande ? ou explosion en plein vol ? (Avenir radieux ou radié ?)

Discipline peu connue il y a quelques années, la data science se trouve au cœur de la révolution de l’Intelligence Artificielle (AI) et connait actuellement une forte demande sur le marché de l’emploi mondial. Classé par beaucoup d’analystes comme le job le plus attractif / attirant / sexy et le plus demandé du 21ème siècle. On estime à plus de 10 millions les nouveaux postes en Data Science qui seront ouverts dans les cinq prochaines années.

Or et depuis peu de temps, on entend de plus en plus des voix qui annoncent la fin des Data Scientists tandis que d’autres prédisent une transformation radicale de ce métier.

Avenir radieux ou mort programmée du métier de Data Scientist ?

Quels arguments associés aux menaces qui pèsent sur ce métier et comment cette discipline pourra exister dans le futur et, si oui, sous quelle forme.

Ce métier supposé prometteur est-il donc en danger ? Pour mieux répondre à cette question, commençons d’abord par introduire la data science et son environnement.

La Data Science ?

Depuis plusieurs années, nous vivons une véritable révolution digitale assistée par l’Intelligence Artificielle. Elle concerne tous les secteurs et touche tous les aspects de notre vie : l’économie, l’éducation, la sécurité, la santé…

Il n’y aura pas un pays, un secteur de l’économie ou un individu qui ne sera pas impacté directement ou indirectement par cette révolution.

Les enjeux sont énormes. En effet, on estime de 10% à 20% la part de l’Intelligence Artificielle dans le PIB mondial dans les 10 prochaines années.

Comme les révolutions industrielles précédentes, celle-ci aura des impacts sur les métiers existants mais qui seront largement compensés par le volume de création de nouveaux emplois crées.

La data science est née avec cette révolution. Elle est considérée comme le cerveau de cette révolution, la Data étant son essence.

Les Data Scientists, quant à eux, sont les opérateurs et les agents de cette révolution. En tant que tels, ils sont supposés être à l’abri du « tsunami » provoqué par cette dernière, du moins c’est ce qu’il semblerait.

La data science est un champ multidisciplinaire et consiste à extraire des connaissances à partir des données. Ces données sont de plus en plus importantes (Big Data), et se présentent sous format structuré et non structuré.

Le métier du Data Scientist transforme les données brutes en information décisionnelles « intelligentes » et met en place des modèles d’intelligence artificielle. Ces modèles sont capables de gérer une grande volumétrie de données et d’identifier des « patterns » dans ces données. Ces modèles ouvrent des perspectives qui étaient inaccessibles auparavant et les champs d’application sont innombrables. Il s’agit là d’une vraie révolution par rapport à la programmation classique.

Cette discipline peut être perçue comme le fruit de la rencontre entre plusieurs disciplines : Big Data, Mathématiques, Machine Learning, Statistiques, Deep Learning, Informatique …

Menace venant de l’AutoML et des plateformes No Code/ Low Code

Alors que les Data Scientists commençaient à s’imposer comme le pilier de la révolution IA et que les écoles et universités se sont mises à former en masse des Data Scientists pour répondre à la demande accrue du marché, un nouveau courant disrupteur voyait le jour à l’intérieur de cette révolution : l’Automatisation du Machine Learning.

Ce mouvement d’automatisation avait commencé il y a plusieurs années et s’est fortement accéléré depuis 2018. Il s’agit d’un ensemble d’outils de plus en plus puissants capables de générer automatiquement des modèles d’IA et de trouver les paramètres optimaux du modèle à partir des données d’entrées fournies.

Ces outils ont connu une avancée majeure, menée par la recherche académique et industrielle. Ils produisent aujourd’hui des modèles capables d’égaler, voire même de dépasser dans certains cas des modèles conçus manuellement par des Data Scientists !

Dernièrement, ces outils se sont multipliés très rapidement… Parmi les plus connus, on peut citer : Google AutoML, DataRobot, Microsoft Azure ML, AWS Sagemaker Autopilot, TPOT, H2O, Auto-sklearn et AutoGluon.

Certains d’entre eux proposent même de l’Auto Deep Learning (AutoDL), souvent appelé dans la littérature scientifique Neural Architecture Search (NAS).

De ce fait, une question légitime s’impose, à quoi sert un Data Scientist si la machine est en mesure de sélectionner automatiquement parmi les algorithmes de Machine Learning le ou les modèles qui conviennent le mieux aux données d’entrées ?

D’autant plus que ces outils vont très loin. Ils sont en effet capables de faire des recherches très avancées et très rapides parmi un large panel d’algorithmes de Machine Learning tout en entrainant, en tunant automatiquement et intelligemment ces algorithmes avec une recherche très avancée des hyperparamètres de bout en bout, à la fois sur le modèle mais aussi sur les données d’entrées.

Ce mouvement d’automatisation s’inscrit dans une vague plus large du No Code / Low Code avec une accélération ces derniers mois. Ce sont des plateformes qui génèrent automatiquement le code et qui commencent à couvrir presque toute la chaine de traitement de données : Data Collect/Connect, Data Preparation, EDA, création des modèles, déploiement des modèles …

Tous les métiers autour de la Data sont désormais concernés par cette révolution : Data Engineer, Data Analyst, Business Engineer, Data Scientist …

L’AutoML est une forme avancée du No-Code. En effet, les outils AutoML ne s’arrêtent pas à la génération automatique du code du modèle mais ils entrainent aussi ce dernier pour trouver le modèle optimal.

Assistons-nous donc à une révolution qui tue ses propres enfants ? Les Data Scientists ont-ils conçu eux-mêmes l’arme qui va servir à leur extinction par la suite ?

Impact de l’automatisation sur le paysage de l’Intelligence Artificielle

Ce mouvement d’automatisation n’est pas nouveau. Depuis l’aube du temps, l’humain a toujours cherché à automatiser des taches manuelles pour se concentrer sur des activités plus créatives et innovantes et s’ouvrir ainsi de nouveaux horizons.

L’IA n’échappe donc pas à cette règle. Les outils d’automatisation d’IA permettent d’accélérer son adoption dans l’entreprise et d’éviter des tâches répétitives et fastidieuses sans valeur ajoutée : collecte des données, préparation, pré-analyse et exploration des données.

A titre d’exemple, 80% du temps d’un Data Scientist est consommé par des taches manuelle laborieuses, qui malgré leur importance, peuvent parfaitement être automatisées. La création et l’entrainement des modèles ne constituent pas plus de 20 %.

L’AutoML va donc accélérer l’adoption de l’IA dans les entreprises et notamment pour les petites et moyennes entreprises qui n’ont pas les moyens de payer des Data Scientists (ressources rares et chères).

Par conséquent, le coût de l’IA connaitra une forte baisse et le temps de mise en place des modèles IA sera aussi drastiquement réduit.

Avec l’AutoML et les outils No-Code, un simple programmeur sans background IA peut créer sa propre application IA.

Plus loin, ces outils seront de plus en plus accessibles à n’importe quel individu qui veut créer sa propre application IA. On parle désormais des « Citoyens Data Scientists ».

Impact de l’automatisation sur le métier des Data Scientists

Comme déjà évoqué, l’automatisation est un processus naturel dans l’évolution de l’humain, la data science n’échappe donc pas à cette règle.

Cette automatisation n’a jamais donc remplacé l’humain. Au contraire, ces sont des outils très puissants qui nous ont permis d’aller plus loin dans l’innovation.

En effet, la machine n’a pas de conscience et est démunie d’une intelligence propre. Elle n’est pas capable de se rendre compte des erreurs qu’elle peut commettre et ne peut pas aussi sortir du cadre pour lequel elle a été conçue.

Elle n’est pas non plus capable d’interagir avec le métier pour comprendre ses problématiques et de les traduire fidèlement dans un modèle. De plus, elle n’est pas capable de restituer les résultats du modèle au métier et de les traduire en éléments actionnables qui serviront à prendre des décisions stratégiques importantes.

L’Intelligence Artificielle est le fruit de la recherche et de l’innovation et les Data Scientists devraient être au cœur de cette l’innovation. Or pendant longtemps, ces Data Scientists passaient la grande majorité de leur temps dans des tâches répétitives sans valeur ajoutée. Beaucoup des projets ont échoué à cause du délais imprévus des projets IA et d’un R.O.I qui n’est pas au rendez-vous.

Ces outils vont donc aider les Data Scientists à revenir vers leur cœur de métier : l’innovation et l’expertise.

Plus que jamais, on demandera à un Data Scientist de trouver des solutions innovantes pour des problèmes complexes nécessitant une réflexion de haut niveau dont la machine ne sera pas capable. Les cas d’usage simples seront délégués aux outils AutoML.

L’expertise du Data Scientist servira toujours à optimiser un modèle déjà fonctionnel pour gratter quelques points de précisions supplémentaires. En effet, avec les outils d’automatisation désormais disponibles, il est relativement simple d’obtenir des modèles avec des performances correctes pour une tâche donnée. Ceci dit, l’intervention du Data Scientist restera nécessaire si le métier juge nécessaire d’améliorer le modèle davantage pour répondre à ses contraintes.

Voici les besoins qui ne peuvent être remplis par des outils d’automatisation et sur lesquels les Data Scientists seront particulièrement attendus :

Expertise métier

Un aspect souvent négligé dans le processus de recrutement des Data Scientists, l’expertise métier est indispensable pour trouver des modèles performants répondant aux exigences métier. Le Data Scientist doit être capable de comprendre et de s’approprier les problématiques métiers et de les traduire fidèlement dans tout le processus de traitement des données : de la collecte de donnée jusqu’à la création des modèles et la restitution des résultats.

Innovation

L’innovation est un facteur différenciant essentiel pour un Data Scientist par rapport aux outils d’automatisation. Le data Scientist doit être au cœur de l’innovation et chercher des solutions innovantes « out of the box » pour répondre à des enjeux complexes inaccessibles par un simple usage d’un outil d’automatisation de Machine Learning.

Expertise technique

Plus que jamais, le Data Scientist sera attendu sur l’expertise technique de plus en plus pointue pour créer des applications IA nécessitant une grande performance et une maitrise des contraintes métier assez complexes, besoin pour lequel l’AutoML seul ne sera pas au rendez-vous.

Pendant des années, le marché du travail était très tolérant dans le recrutement des Data Scientists vu la rareté de ce type de profil, et le manque d’outils d’automatisation démocratisant l’usage de l’IA. Ce temps est révolu.

Désormais, le Data Scientist doit maitriser toutes les disciplines en relation avec la data science ainsi que leurs évolutions et nouveautés. Ce profil doit faire preuve d’une bonne maitrise des outils et notamment les outils d’automatisation et de génération de code.

Biais statistique

C’est un sujet épineux même pour les experts aguerris et souvent source d’erreurs dans le processus de modélisation. Les exemples des modèles IA biaisés sont nombreux. Par exemple, le modèle de recrutement d’Amazon qui défavorisait les femmes à cause d’un biais statistique introduit dans les données d’entrainement utilisées. En effet, le jeu de donnée était basé sur un historique de 10 ans composé majoritairement de candidats hommes.

Le Data Scientist est donc le garant pour éviter les biais statistiques qui peuvent être introduits à tout moment dans la chaine de traitement de données.

Interpretabilté / explicabilité des modèles IA – IA éthique / Trusted AI

Pour des raisons d’éthique et de transparence nécessaires dans certains secteurs, il ne suffit pas uniquement de générer des modèles performants mais il faut surtout pouvoir les expliquer.

Aussi pour des raisons légales, certains modèles IA très performants en mode boite noire ne sont pas utilisables. Par exemple, un modèle IA qui refuse d’octroyer un prêt bancaire sans pourvoir argumenter ce refus est tout simplement illégal.

Expliquer le résultat d’un modèle IA permet également de mieux comprendre ses prédictions et de prendre les décisions en connaissance de cause et de pouvoir ainsi améliorer l’environnement dans lequel les modèles opèrent.

D’un côté, l’interprétabilité permet de mieux comprendre le modèle lui-même et donc de l’améliorer pour atteindre des précisons plus élevées. De l’autre côté, l’explicabilité permet de comprendre les décisions prise par le modèle et de rendre ces résultats actionnables pour le métier. Par exemple, pour un modèle qui prédit une panne dans un système complexe, il est plus intéressant d’identifier aussi les composants défaillants pour pouvoir anticiper la panne et remplacer les éléments défectueux. Dans le contexte médical par exemple, il est peu intéressant d’avoir un modèle IA qui prédit pour un patient une maladie presque certaine dans les années à venir sans déterminer l’origine de celle-ci pour pouvoir faire de la prévention.

L’interprétabilité et l’explicabilité sont deux sujets de plus en plus importants. Plus que jamais les Data Scientists doivent maitriser ces techniques qui sont en constante évolution. Nous parlons aujourd’hui d’IA éthique, de transparence et de confiance en IA.

Intégration modèle IA /Architect IA en monde No Code / Low Code

Avec des outils de génération de code en mode No Code / Low Code et avec l’AutoML, les Data Scientists coderont de moins en moins. Ils seront plus en mode Intégration/Adaptation des modèles existants (adaptation des super cerveaux pré-entrainés) et/ou des modèles générés automatiquement par des outils AutoML. De ce fait, on s’approche de plus en plus d’une discipline d’ingénierie.

R&D : Les Data Scientists trouveront naturellement leur place dans la recherche et développement. Ils aideront à enrichir les bibliothèques ML avec des nouveaux algorithmes ML ou avec des nouvelles variantes plus performantes et plus optimisées. Parmi les directions de recherche actuelles les plus prometteuses, nous pouvons citer : Deep Learning non supervisé, Multi-modalité en Deep Learning, génération automatique des réseaux de neurones, Explicabilité en Deep Learning, Trusted IA …

Ce beau métier qu’est la Data Science a encore un avenir devant lui. Les outils d’automatisation de Machine Learning ne sont pas une menace pour ce métier. Bien au contraire, ils vont décharger les Data Scientists des tâches fastidieuses et les aider à explorer de nouveaux horizons en IA pour trouver des solutions à des problèmes plus complexes qui nécessitent plus d’innovation et d’expertise. Ils seront donc les premiers à adopter ces outils pour aboutir à ce qu’on appelle aujourd’hui le « Data Scientist Augmenté ». La position des Data Scientists sera encore plus renforcée dans l’organisation avec plus d’efficacité, plus d’innovation et une rentabilité au rendez-vous.