Les prérequis de la Data Science : probabilité (1/5)
#HumanDataLa probabilité constitue le pilier de nombreuses techniques de la science des données, ce qui en fait un préalable obligatoire si l’on souhaite approfondir nos connaissances dans ce domaine passionnant.
La science des données est un domaine interdisciplinaire et omniprésent qui vise à transformer les données en informations utiles. En tant que telle, elle s’inspire de différents domaines et disciplines scientifiques, et se situe à l’intersection des mathématiques appliquées, de l’intelligence artificielle, de la recherche d’informations, des bases de données et de bien d’autres encore.
Dans ce billet, nous passerons en revue ce qu’est la probabilité, le rôle important qu’elle joue dans la science des données, les concepts fondamentaux qui doivent être appris et enfin, nous présenterons une liste de ressources pour les étudier et monter en compétences.
Qu’est-ce la probabilité ?
La théorie des probabilités est une branche des mathématiques consacrée à l’étude des phénomènes aléatoires. Elle attribue une mesure pour quantifier la probabilité que des événements se produisent, qui est généralement estimée par un échantillonnage aléatoire répété. La probabilité nous permet de raisonner efficacement dans des situations où il est impossible d’être certain. Elle est très utilisée en statistique et constitue également la base de nombreux algorithmes d’apprentissage automatique (par exemple, les modèles graphiques probabilistes) et d’autres techniques de la science des données.
Concepts fondamentaux des probabilités
- Fondements : Analyse Combinatoire, Axiomes des Probabilités, Évènements, Espace des Observables.
- Probabilité Conditionnelle : Probabilité Conditionnelle, Indépendance, Règle de Bayes.
- Variables Aléatoires : Variables aléatoires discrètes/continues, Espérance, Variance, Moments d’Ordre Supérieur, Fonction de Distribution Cumulative (CDF), fonction de densité/masse de probabilité (PDF, PMF), Lois de Probabilité Usuelles (Bernoulli, Binomiale, Poisson, Exponentielle, Uniforme, Normale), Distributions Conjointes.
- Théorèmes Limite : Loi Faible des Grands Nombres, Loi Forte des Grands Nombres, Théorème Central Limite (CLT)
Pour aller plus loin
Afin de monter en compétences, ou tout simplement se lancer dans l’apprentissage des probabilités, nous vous proposons quelques ressources, classées par type de source.
YouTube Playlists
Chaîne: mathematicaimonk
Playlist: Probability Primer
Description: Cette chaîne est consacrée aux mathématiques du cycle supérieur. Probability Primer est une playlist de 43 courtes vidéos qui couvriront la plupart des concepts décrits ci-dessus. Vous pouvez regarder les premières vidéos et décider si vous appréciez la façon dont l’instructeur explique les leçons.
Chaîne: Khan Academy
Playlist: Probability
Description: La Khan Academy est une organisation à but non lucratif dont la mission est de fournir un enseignement de qualité partout et gratuitement. Elle dispose d’une chaîne Youtube et d’un site web. Probability est une playlist de 41 courtes vidéos qui fournit une bonne introduction aux probabilités et à l’analyse combinatoire. Elle est fortement recommandée par la communauté.
Livres
Auteur: Sheldon Ross
Titre: A first Course in Probability
Description: Ce livre est le manuel de référence pour la plupart des cours universitaires de probabilité. C’est un livre très complet avec de nombreux exercices (certains d’entre eux peuvent être relativement avancés et nécessitent une bonne intuition mathématique). Il existe également un résumé du livre au format PDF qui peut être utilisé comme un rappel sur les probabilités. Il est très recommandé par la communauté des sciences des données (en particulier pour les personnes ayant une formation antérieure en mathématiques). Une version PDF du livre est disponible en ligne.
Auteur: Kevin Murphy
Titre: Machine Learning A Probabilistic Perspective
Description: Il s’agit d’un livre très populaire sur l’apprentissage automatique, et l’un des manuels recommandés dans de nombreux programmes d’études supérieures. Murphy commence par présenter en une trentaine de pages la plupart des concepts de probabilité que vous devez connaître pour bien avancer en machine learning. C’est un excellent résumé, qui est spécialement conçu pour l’apprentissage machine. Une version PDF du livre est disponible en ligne.
MOOC
Institution: Massachusetts Institute of Technology (MIT)
Titre: Introduction to Probability — The Science of Uncertainty
Description: Ce cours est organisé par EDX et enseigné par John Tsitsiklis et Patrick Jaillet, tous deux professeurs au département de génie électrique et d’informatique de l’université MIT. Envisagez ce cours si vous souhaiter vous plonger plus profondément dans le monde des probabilités. Il s’agit d’une excellente ressource, qui a reçu de nombreux avis positifs et qui s’inspire d’un cours universitaire du MIT sur les probabilités. Cependant, il est quelque peu difficile et beaucoup plus long que les autres MOOCs. Il couvre également plus que ce dont un débutant en sciences des données a besoin pour commencer son parcours. Le cours nécessite environ 16 semaines de travail à raison de 12 heures par semaine.
Dans un prochain billet, nous vous proposerons d’aborder le second pré-requis : les statistiques.