Les prérequis de la Data Science : l’algèbre linéaire (3/5)

#HumanData

Si la Data Science était Sherlock Holmes, l’algèbre linéaire serait Watson. Ce fidèle acolyte est souvent négligé par les professionnels, et constituera le sujet principal de cet article.

L’algèbre linéaire est à l’origine de nombreux algorithmes et techniques dans le monde de la science des données, de la réduction de la dimension aux réseaux de neurones profonds. Malheureusement, de nombreux praticiens ont tendance à ne pas s’intéresser à cette discipline, soit parce que les mathématiques sont trop avancées, soit parce qu’ils jugent qu’elle ne mérite pas l’investissement en temps. Cette opinion, bien qu’erronée, est tout à fait compréhensible. Après tout, pourquoi se donnerait-on la peine de nous informer sur les vecteurs et les matrices alors que nous pouvons simplement importer une bibliothèque d’apprentissage automatique et l’utiliser pour entrainer n’importe quel algorithme avec un minimum de lignes de code ?

La réponse réside dans le niveau compréhension. Il y a une différence majeure entre le fait de pouvoir utiliser un algorithme d’apprentissage automatique comme une boîte noire en écrivant quelques lignes de code et le fait d’avoir une compréhension approfondie de son fonctionnement interne. Cette dernière situation permet au praticien de savoir quand utiliser une méthode, comment l’employer et surtout, comment interpréter correctement ses résultats. Une bonne maitrise de l’algèbre linéaire est donc essentielle pour développer une intuition des algorithmes d’apprentissage automatique, et savoir contraster leurs points forts et leurs points faibles.

Dans cet esprit, découvrons ensemble cette branche fascinante des mathématiques.

Qu’est-ce l’algèbre linéaire ?

L’algèbre linéaire est la discipline la plus importante à connaître pour bien avancer dans le domaine d’apprentissage automatique. Avant d’être transmises à un algorithme, les données doivent généralement être représentées sous forme de tableau avec des valeurs numériques, où les lignes représentent les instances d’une entité (par exemple, un client) et les colonnes décrivent les caractéristiques ou attributs spécifiques de l’entité en question (par exemple, l’âge ou le salaire pour l’entité client). Dans cette forme structurée, les lignes peuvent être considérées comme des vecteurs dans un espace vectoriel, ou des points de données dans un espace géométrique où chaque colonne ou attribut représente une dimension dudit espace. L’ensemble des lignes forme une matrice, et il se trouve que l’Algèbre Linéaire est la branche des Mathématiques qui étudie les vecteurs, les matrices, leurs caractéristiques et les opérations permettant de les manipuler.

Outre les raisons théoriques, la connaissance de l’algèbre linéaire nous permet également de coder nos algorithmes en partant de zéro et d’apporter des modifications personnalisées à leur fonctionnement interne si nécessaire. Cerise sur le gâteau, elle nous permet également de vectoriser efficacement certaines parties de notre code, en remplaçant les itérations de boucles par des multiplications matricielles, afin d’accélérer considérablement son exécution. La raison derrière cette astuce réside dans le fait que les bibliothèques de bas niveau soient bien optimisées pour les opérations matricielles.

Pour être opérationnel en Data Science, il est souhaitable d’avoir des connaissances en algèbre linéaire (de niveau intermédiaire à niveau avancé).

Linear Algebra Concepts

Introduction aux Vecteurs : Vecteurs, Combinaisons Linéaires, Indépendance, Produit Scalaire, Normes, Matrices, Inverse, Transposée, Déterminant, Rang …
Espaces Vectoriels et Sous-Espaces : Espaces Vectoriels, Bases, Dimension, Noyau/Image d’une matrice…
Orthogonalité : Produit Scalaire, Orthogonalité, Projections, Bases Orthonormées et Procédé de Gram-Schmidt.
Réduction des Endomorphismes : Valeurs Propres, Vecteurs Propres, Matrices Symétriques, Matrices Définies Positives, Diagonalisation Matricielle, Théorème Spectral, Décomposition en Valeurs Singulières (SVD), Décomposition LU et résolution des Systèmes d’Équations Linéaires, Décomposition de Cholesky, Décomposition QR …

Pour aller plus loin en algèbre linéaire

Afin de monter en compétences, ou tout simplement se lancer dans l’apprentissage des statistiques, nous vous proposons quelques ressources, classées par type de source.

YouTube Playlists

Chaine: 3Blue1Brown

Playlist: Essence of Linear Algebra

Description: Cette chaîne a pour but d’expliquer les mathématiques de manière simple et digestible à l’aide de visualisations intuitives. C’est l’une des meilleures chaînes de YouTube pour présenter et expliquer des concepts mathématiques difficiles à un public initié ou non. La playlist contient 15 vidéos d’environ 12 minutes chacune et peut vous apporter une compréhension intuitive d’algèbre linéaire au-delà des formulations mathématiques complexes. Ces vidéos peuvent être utiles même aux étudiants qui ont déjà étudié l’algèbre linéaire à un niveau avancé. Elle vise principalement à fournir une compréhension conceptuelle des constructions mathématiques telles que les matrices, les applications linéaires, les valeurs propres, les vecteurs propres, les espaces vectoriels, les déterminants, les produits scalaires etc. Toutefois, cette liste n’est pas suffisante à elle seule. Vous devez également être exposé à quelques formules et équations, car c’est ainsi que la théorie de l’apprentissage automatique est écrite et communiquée. C’est pourquoi je suggère d’associer cette playlist à un livre ou un cours en ligne sur l’algèbre linéaire, et de consolider ces connaissances par des exercices pratiques.

Livres

Auteur: Marc Peter

Titre: Mathematics for Machine Learning

Description: C’est un livre impressionnant qui couvre la plupart des concepts mathématiques nécessaires à l’apprentissage automatique. Il a été spécifiquement écrit dans ce but. Il comporte notamment des chapitres détaillés sur l’algèbre linéaire (du chapitre 2 au chapitre 5). L’une des choses que j’apprécie le plus dans ce livre est la richesse des exemples qu’il contient, ainsi que les figures illustratives qu’il emploie. De plus, les auteurs ont un style d’écriture très clair et concis qui rend la lecture du livre possible même pour les non-mathématiciens. Enfin, il comporte une section d’exercices à la fin de chaque chapitre pour tester votre compréhension. Il s’agit d’une bonne ressource pour des connaissances condensées et peut être trouvé en ligne au format PDF.

Auteur: Gilbert Strang

Titre: Introduction to Linear Algebra

Description: Il s’agit sans doute de l’un des meilleurs livres d’introduction à l’algèbre linéaire qui existent et il est recommandé comme manuel dans de nombreux cours universitaires. Gilbert Strang est un professeur de MIT qui enseigne le cours d’algèbre linéaire. Les mathématiques contenues dans le livre ne sont pas très rigoureuses, ce qui le rend accessible à des publics ayant différents niveaux. Ce livre couvre bien plus que nécessaire en algèbre linéaire pour comprendre les mathématiques qui actionnent l’apprentissage automatique. Le professeur Gilbert est également connu pour son style d’enseignement : il explique les concepts de manière simple, en se concentrant d’abord sur l’intuition avant de fournir la formulation mathématique et la preuve, le cas échéant. Il s’agit d’un livre complet d’environ 550 pages qui nécessitera un peu de temps pour parcourir de bout en bout. Une version PDF du livre est disponible en ligne.

Auteur: Sheldon Axler

Titre: Linear Algebra Done Right

Description: Encore un autre livre fantastique qui reçoit beaucoup d’attention. Il ne fait que 250 pages, mais couvre la plupart des concepts dont vous aurez besoin. C’est aussi le seul livre d’introduction que j’ai trouvé qui commence par les espaces vectoriels, ce qui, à mon sens, est la meilleure façon d’enseigner l’Algèbre Linéaire. Comme mentionné précédemment, étant donné un ensemble de données structuré, chaque ligne peut être considérée comme un vecteur dans un espace vectoriel à M dimensions, où M est le nombre de colonnes du jeu de données. Cette façon de représenter les données aide à mieux comprendre de nombreux algorithmes ML tels que l’ACP, grâce au concept de la dimension intrinsèque des données, ou de façon équivalente, le rang de la matrice de données.

MOOC

Institution: Massachusetts Institute of Technology (MIT)

Titre: Linear Algebra

Description: Comme vous l’avez peut-être deviné, il s’agit du véritable cours d’algèbre linéaire que le professeur Gilbert enseigne au MIT. Il est constitué de 34 cours magistraux d’environ 40 minutes chacun, qui couvrent les mêmes sujets que ceux mentionnés dans le livre. C’est un cours relativement long pour lequel il faudra prévoir environ 25 heures rien que pour terminer le visionnage des vidéos. Si vous aimez le style d’enseignement du professeur Gilbert, je vous recommande de lire le livre et de vous référer à l’explication correspondante dans ses vidéos de cours lorsque vous rencontrez un concept difficile à comprendre.

Dans un prochain billet, nous vous proposerons d’aborder le troisième prérequis : les calculs.