Les prérequis de la Data Science : l’analyse mathématique (4/5)

L’étude des fondements théoriques de la Data Science peut être une expérience décourageante, surtout pour les débutants n’ayant pas le corps de connaissances requis. Afin d’alléger ce fardeau, cet article donne un aperçu du de l’analyse en mathématiques, l’un des piliers sur lesquels reposent de nombreux algorithmes populaires aujourd’hui, ainsi que quelques exemples d’application dans l’apprentissage automatique et des ressources pour se mettre à niveau dans ce domaine.

Si vous êtes un débutant et que vous cherchez à affiner vos compétences en mathématiques pour vos futurs travaux pratiques ou de recherche en sciences des données, je vous déconseille de vous plonger dans la théorie de l’analyse (ou dans tout autre domaine des mathématiques) avant de commencer à faire des exercices pratiques. Bien que cette série d’articles soit intitulée « prérequis des sciences de données », elle n’implique pas forcément la nécessité de couvrir tous les concepts présentés avant de commencer à travailler sur des projets concrets. Malgré sa prévalence dans l’enseignement de l’apprentissage automatique, l’approche top-down est en fait nuisible pour les débutants, simplement parce que la plupart des gens peinent à gérer la frustration d’apprendre des concepts théoriques déconnectés, ce qui les pousse éventuellement à abandonner à mi-chemin, bien avant d’atteindre les parties amusantes et intéressantes de la science des données. En outre, la littérature scientifique et la plupart des travaux de recherche sur les méthodes d’enseignement soutiennent également l’approche « bottom-up » de l’apprentissage et de l’éducation en général. Ainsi, lorsque vous en avez assez des exercices de mathématiques interminables, n’hésitez pas à les mettre de côté et lancer votre éditeur de texte ou votre environnement de programmation préféré pour jouer avec du code et voir comment les choses fonctionnent en pratique. Cela vous permettra non seulement de remettre à zéro votre compteur de frustration, mais aussi de compléter vos connaissances et votre compréhension.

Qu’est-ce l’analyse mathématique ?

Comme mentionné précédemment, l’analyse est un sujet central de l’apprentissage automatique et de la science des données. Il s’agit d’une branche des mathématiques qui étudie le changement continu, de la même manière que la géométrie étudie les formes et l’algèbre étudie la généralisation des opérations arithmétiques [Wikipédia]. Il existe deux grandes sous-branches de l’analyse : le calcul différentiel, qui traite des taux de variation instantanés (représentés analytiquement par des dérivées et géométriquement par des tangentes de courbes), et le calcul intégral, qui s’intéresse davantage aux quantités accumulées et aux surfaces sous les courbes. Alors pourquoi ce domaine est-il réellement nécessaire en science des données ? La plupart des algorithmes d’apprentissage automatique sont formulés comme un problème d’optimisation dans lequel nous cherchons à minimiser une fonction de coût ou à maximiser une fonction de récompense. Le calcul différentiel joue un rôle clé dans les routines d’optimisation étant donné que les dérivés informent sur les taux de changement, et donc, aident à identifier les points stationnaires ou critiques. Ainsi, des concepts tels que les dérivées partielles et les gradients sont d’une importance particulière. Quant au calcul intégral, il est surtout utilisé dans les méthodes basées sur les probabilités avec des variables aléatoires continues. La somme discrète que vous utiliseriez dans le cas d’une variable discrète se transforme en une intégrale pour les variables aléatoires continues. Heureusement, les prérequis en analyse nécessaires pour effectuer la plupart des travaux de science des données sont limités, mais les quelques concepts fondamentaux à connaitre doivent être bien compris.

Des connaissances de niveau débutant à intermédiaire en analyse (calcul différentiel et intégral) sont souhaitées pour être opérationnel en science des données.

Concepts fondamentaux de l’analyse mathématique

  1. Calcul différentiel : Limites, Continuité, Dérivées, Dérivées Partielles, Règle de Dérivation en Chaîne, Formule de Taylor, Gradient, Matrice Hessienne, Matrice Jacobienne.
  2. Calcul intégral : Sommes de Riemann, Techniques d’Intégration.

Pour aller plus loin en analyse mathématique

Afin de monter en compétences, ou tout simplement se lancer dans l’apprentissage de l’analyse mathématique, nous vous proposons quelques ressources, classées par type de source.

Playlists YouTube

Chaîne : 3Blue1Brown

Playlist : Essence of Calculus 

Description : Cette chaîne a pour but d’expliquer des notions mathématiques de manière simple et digestible à l’aide de visualisations intuitives. C’est l’une des meilleures chaînes de YouTube pour présenter et expliquer des concepts mathématiques difficiles à un public initié ou non. Tout comme la playlist « Essence of Linear Algebra », celle-ci contient 12 vidéos d’environ 15 minutes chacune et peut vous apporter une compréhension intuitive d’algèbre linéaire au-delà des formulations mathématiques complexes. Ces vidéos peuvent être utiles même aux étudiants qui ont déjà étudié l’analyse à un niveau avancé. Elle vise principalement à fournir une compréhension conceptuelle des concepts fondamentaux tels que la continuité, les limites, les dérivées et les intégrales. Toutefois, cette liste n’est pas suffisante à elle seule. Vous devez également être exposés à quelques formules et équations, car c’est ainsi que la théorie de l’apprentissage automatique est écrite et communiquée. C’est pourquoi je suggère d’associer cette playlist à un livre ou un cours en ligne complémentaires sur le calcul différentiel et intégral, et de consolider ces connaissances par des exercices pratiques.

Livres

Auteur : James Stewart

Titre : Calculus Early Transcendentals 

Description : Ceci est le manuel standard pour les cours de calcul différentiel/intégral dans les universités. La dernière édition (8e) comprend environ 1400 pages. Il va donc sans dire qu’il s’agit d’un ouvrage très complet qui vous apportera suffisamment de savoir sur cette discipline. Évidemment, vous n’êtes pas obligés de couvrir tous les chapitres, il vous suffit simplement de sélectionner ceux qui vous intéressent le plus pour compléter vos connaissances. Cet ouvrage est détaillé, très bien écrit, illustré de figures colorées et clairement organisé.

Auteur : Michael Spivak

Title : Calculus

Description : Une autre ressource excellente consacrée au calcul différentiel et intégral. Celui-ci est beaucoup plus court que le premier (environ 600 pages) mais couvre quand même les fondements de cette matière. Vous trouverez peut-être qu’il manque en termes d’analyse de fonctions à plusieurs variables, un sujet important dans l’apprentissage automatique, car nous traitons généralement des données à grande dimension. 

Auteur : Marc Peter

Title : Mathematics for Machine Learning

Description : Si vous vous souvenez bien, ce même livre a été mentionné dans des articles précédents. Bien entendu, il comporte également un chapitre sur l’analyse vectorielle. Combiné avec quelques chapitres de Calculus de Michael Spivak, il devrait vous donner un bel aperçu des connaissances nécessaires dans ce domaine. Ce livre peut être téléchargé en version PDF à partir de la page GitHub qui lui est associée.

MOOC

Institution: Massachusetts Institute of Technology (MIT)

Name : Single Variable Calculus

Description : Ce cours, MIT OCW 18.01, enseigne la première partie de l’analyse et couvre la différenciation et l’intégration des fonctions à une variable. Dans le jargon universitaire, ce cours est généralement appelé Calculus 1 et 2 respectivement. Le cours est conçu spécialement pour les autodidactes et comporte des cours vidéo, des notes de cours, des devoirs et des examens, y compris leurs solutions.

Institution : Massachusetts Institute of Technology (MIT)

Name : Multivariable Calculus

Description : Comme vous l’avez peut-être deviné, il s’agit de la deuxième partie du cours d’analyse de MIT (MIT OCW 18.02), qui couvre la différenciation et l’intégration des fonctions à plusieurs variables. Dans le jargon universitaire, on parle généralement de « Calculus 3 ». Ce cours en ligne, combiné avec le précédent, devrait être votre principale ressource pour apprendre suffisamment sur le calcul différentiel et intégral. Ces connaissances vous seront utiles pour comprendre les engrenages mathématiques des techniques de data science et des algorithmes d’apprentissage automatique.

Dans un prochain billet, nous vous proposerons d’aborder le cinquième prérequis : la programmation.