Les prérequis de la Data Science : statistiques (2/5)

#HumanData

Les statistiques permettent au praticien de tirer des conclusions sur les caractéristiques d’une population en analysant un échantillon de celle-ci, qui est généralement lié aux produits et aux clients de l’entreprise.

La Data Science est devenue aujourd’hui un terme très général, chaque partie en adoptant sa propre définition, en fonction de son contexte et de ses objectifs commerciaux. Alors que le marché de l’emploi dans le domaine des données continue à mûrir, certains rôles clés ayant des exigences et des visions spécifiques ont commencé à voir le jour, tous issus du même domaine d’origine. Cette tendance ouvre la voie au profil spécialiste, éclipsant ainsi le profil généraliste des sciences des données. L’une de ces variantes, appelée Data Scientist – Product Analytics, ou autrement, Data Scientist de type A (A pour analyse) est de loin la plus répandue. Ce profil peut être associé à celui d’un statisticien qui utilise des outils technologiques plus sophistiqués et qui a une grande expérience dans le traitement des jeux de données relativement larges et nécessitant un effort important de nettoyage.

Dans ce billet, nous passerons en revue ce qu’est la statistique, le rôle important qu’elle joue dans la science des données, les concepts fondamentaux qui doivent être maitrisés, et enfin, nous fournirons une liste de ressources pour les couvrir.

Qu’est-ce la statistique ?

La statistique est la branche des mathématiques qui étudie la collecte, l’organisation, l’analyse et l’interprétation des données. Elle est particulièrement utile lorsque nous devons tirer des conclusions sur une population en analysant un échantillon fini issu de celle-ci. La statistique et la probabilité sont deux disciplines universitaires liées mais distinctes. L’analyse statistique utilise souvent des distributions de probabilités et des théorèmes, et les deux sujets sont généralement étudiés ensemble. Les statistiques, ainsi que les probabilités, se retrouvent littéralement partout dans la science des données, de l’analyse et de la visualisation des données à l’apprentissage automatique et à la modélisation statistique.

Pour être opérationnel en Data Science, il est souhaitable d’avoir des connaissances en statistiques (niveau intermédiaire minimum).

Concepts fondamentaux des statistiques

Statistiques descriptives : Tendance centrale (moyenne, médiane, mode), Dispersion (variance, écart-type, centiles, intervalle interquartile), Forme (coefficient d’asymétrie, kurtosis), Dépendance (corrélation de Pearson, corrélation de Spearman, corrélation de Kendall), Graphiques (diagramme à barres, Box Plot, Histogramme, Nuage de Points …).
Statistique inférentielle : Théorie statistique (population, échantillon, statistique, distribution d’échantillonnage, estimation de la densité), Inférence fréquentiste (estimation ponctuelle, intervalles de confiance, test d’hypothèse), Inférence bayésienne (probabilité bayésienne, intervalles de crédibilité, estimateurs bayésiens).
Analyse de régression : Régression linéaire (méthode des moindres carrés ordinaire, modèle linéaire général, régression bayésienne), analyse (erreurs et résidus, Q-Q plot, Validation, Interprétation), modèles linéaires généralisés (famille exponentielle).
Plan d’Expériences
Biais & Paradoxes : Paradoxe de Simpson, Paradoxe de Freedman, Biais du Survivant, Sophisme du Joueur, Biais de Sélection …

Pour aller plus loin en statistiques

Afin de monter en compétences, ou tout simplement se lancer dans l’apprentissage des statistiques, nous vous proposons quelques ressources, classées par type de source.

YouTube

Chaîne : Khan Academy

Playlist: Statistics

Description : Une autre playlist de la Khan Academy proposant 67 vidéos d’environ 10 minutes chacune. La liste de lecture fournit une base solide en statistiques (à la fois descriptives et inférentielles). Elle vous apprendra la plupart des concepts que vous devez savoir sur les statistiques pour vous lancer dans la science des données. Il est fortement recommandé de la compléter par des exercices pratiques pour vous aider à pérenniser toutes les informations en mémoire.

Livres

Auteur: Allen Downey

Titre: Think Stats

Description: Un très bon livre d’introduction aux statistiques appliquées utilisant la programmation python. Pour chaque concept, une intuition est fournie ainsi qu’une explication de son utilité. Ensuite, l’auteur expose la formulation mathématique et la transforme en code python (en partant de zéro). Le livre est de nature appliquée, évite les mathématiques lourdes et vous fournit essentiellement une connaissance pratique des statistiques sans trop détailler les preuves et les équations. Il est également très apprécié par la communauté scientifique des données. La version PDF du livre est disponible gratuitement en ligne.

Auteur: Allen Downey

Titre: Think Bayes

Description: Un autre livre du même auteur, qui est également très recommandé par la communauté. Il devrait vous initier aux différents concepts de la statistique bayésienne, et affiner votre pensée bayésienne, dont vous aurez besoin pour l’analyse des données et l’apprentissage machine. De même, le livre s’appuie sur le python pour coder le tout à partir de zéro. Une version PDF est disponible gratuitement en ligne.

Author: Casella & Berger

Title: Statistical Inference

Description: Ceci est l’un des meilleurs livres sur les statistiques inférentielles qui existent. Il est utilisé comme manuel pour les cours de statistiques dans de nombreuses universités. Cependant, c’est aussi un livre très théorique avec des formulations mathématiques, des théorèmes et des preuves. Si vous recherchez un traitement solide de l’inférence statistique, vous ne pouvez pas vous tromper avec celui-ci. Cependant, gardez à l’esprit que ce livre n’est pas destiné à être lu de bout en bout, mais plutôt à être utilisé comme référence. Une version PDF est disponible en ligne

MOOC

Institution: Duke University

Titre: Statistics with R Specialization

Description: Ce cours est organisé par Coursera et enseigné par Mine Çetinkaya-Rundel, professeure au département des sciences statistiques de l’université de Duke. Cette spécialisation comprend 5 cours (introduction à la probabilité et aux données avec R, statistiques inférentielles, régression linéaire et modélisation, statistiques bayésiennes et statistiques avec R Capstone) qui couvrent la plupart des concepts présentés précédemment. Le cours a obtenu une note étonnante de 4,5/5,0 sur 8665 participants (à ce jour).

Dans un prochain billet, nous vous proposerons d’aborder le troisième prérequis : l’algèbre linéaire.