Les prérequis de la Data Science : probabilité (1/5)

La probabilité constitue le pilier de nombreuses techniques de la science des données, ce qui en fait un préalable obligatoire si l’on souhaite approfondir nos connaissances dans ce domaine passionnant.

La science des données est un domaine interdisciplinaire et omniprésent qui vise à transformer les données en informations utiles. En tant que telle, elle s’inspire de différents domaines et disciplines scientifiques, et se situe à l’intersection des mathématiques appliquées, de l’intelligence artificielle, de la recherche d’informations, des bases de données et de bien d’autres encore.

Dans ce billet, nous passerons en revue ce qu’est la probabilité, le rôle important qu’elle joue dans la science des données, les concepts fondamentaux qui doivent être appris et enfin, nous présenterons une liste de ressources pour les étudier et monter en compétences.

Qu’est-ce la probabilité ?

La théorie des probabilités est une branche des mathématiques consacrée à l’étude des phénomènes aléatoires. Elle attribue une mesure pour quantifier la probabilité que des événements se produisent, qui est généralement estimée par un échantillonnage aléatoire répété. La probabilité nous permet de raisonner efficacement dans des situations où il est impossible d’être certain. Elle est très utilisée en statistique et constitue également la base de nombreux algorithmes d’apprentissage automatique (par exemple, les modèles graphiques probabilistes) et d’autres techniques de la science des données.


Pour être opérationnel en Data Science, il est souhaitable d’avoir des connaissances en probabilité (niveau débutant à intermédiaire minimum).

Concepts fondamentaux des probabilités

  1. Fondements : Analyse Combinatoire, Axiomes des Probabilités, Évènements, Espace des Observables.
  2. Probabilité Conditionnelle : Probabilité Conditionnelle, Indépendance, Règle de Bayes.
  3. Variables Aléatoires : Variables aléatoires discrètes/continues, Espérance, Variance, Moments d’Ordre Supérieur, Fonction de Distribution Cumulative (CDF), fonction de densité/masse de probabilité (PDF, PMF), Lois de Probabilité Usuelles (Bernoulli, Binomiale, Poisson, Exponentielle, Uniforme, Normale), Distributions Conjointes.
  4. Théorèmes Limite :  Loi Faible des Grands Nombres, Loi Forte des Grands Nombres, Théorème Central Limite (CLT)

Pour aller plus loin

Afin de monter en compétences, ou tout simplement se lancer dans l’apprentissage des probabilités, nous vous proposons quelques ressources, classées par type de source.

YouTube Playlists

Chaîne: mathematicaimonk

Playlist: Probability Primer

Description: Cette chaîne est consacrée aux mathématiques du cycle supérieur. Probability Primer est une playlist de 43 courtes vidéos qui couvriront la plupart des concepts décrits ci-dessus. Vous pouvez regarder les premières vidéos et décider si vous appréciez la façon dont l’instructeur explique les leçons.

Chaîne: Khan Academy

Playlist: Probability

Description: La Khan Academy est une organisation à but non lucratif dont la mission est de fournir un enseignement de qualité partout et gratuitement. Elle dispose d’une chaîne Youtube et d’un site web. Probability est une playlist de 41 courtes vidéos qui fournit une bonne introduction aux probabilités et à l’analyse combinatoire. Elle est fortement recommandée par la communauté.

Livres

Auteur: Sheldon Ross

Titre: A first Course in Probability

Description: Ce livre est le manuel de référence pour la plupart des cours universitaires de probabilité. C’est un livre très complet avec de nombreux exercices (certains d’entre eux peuvent être relativement avancés et nécessitent une bonne intuition mathématique). Il existe également un résumé du livre au format PDF qui peut être utilisé comme un rappel sur les probabilités. Il est très recommandé par la communauté des sciences des données (en particulier pour les personnes ayant une formation antérieure en mathématiques). Une version PDF du livre est disponible en ligne.

Auteur: Kevin Murphy

Titre: Machine Learning A Probabilistic Perspective

Description: Il s’agit d’un livre très populaire sur l’apprentissage automatique, et l’un des manuels recommandés dans de nombreux programmes d’études supérieures. Murphy commence par présenter en une trentaine de pages la plupart des concepts de probabilité que vous devez connaître pour bien avancer en machine learning. C’est un excellent résumé, qui est spécialement conçu pour l’apprentissage machine. Une version PDF du livre est disponible en ligne.

MOOC

Institution: Massachusetts Institute of Technology (MIT)

Titre: Introduction to Probability — The Science of Uncertainty

Description: Ce cours est organisé par EDX et enseigné par John Tsitsiklis et Patrick Jaillet, tous deux professeurs au département de génie électrique et d’informatique de l’université MIT. Envisagez ce cours si vous souhaiter vous plonger plus profondément dans le monde des probabilités. Il s’agit d’une excellente ressource, qui a reçu de nombreux avis positifs et qui s’inspire d’un cours universitaire du MIT sur les probabilités. Cependant, il est quelque peu difficile et beaucoup plus long que les autres MOOCs. Il couvre également plus que ce dont un débutant en sciences des données a besoin pour commencer son parcours. Le cours nécessite environ 16 semaines de travail à raison de 12 heures par semaine.

Dans un prochain billet, nous vous proposerons d’aborder le second pré-requis : les statistiques.