Feuille de route 2018 (2A)#

Page principale du cours

Plan#

Les cours et séances se déroulent sur 8 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans Les notions qu’il faut avoir comprises ou vues. Un compte slack python-ensae-2a.slack.com a été créé pour faciliter les échanges, annonces et questions. Une compétition sera ouverte le premier jour et fermée à la dernière session où les résultas et les idées seront discutées.

Séance

Voie stat

Voie éco

11/9 (1) amphi

Séance 1

18/9 (2) TD/amphi

Séance 2 - stat, Séance 2 - éco

Rappels et exercices sur la manipulation des données avec pandas, numpy, matplotlib, scikit-learn, notion de prédicteur, transformeurs, pipelines, stacking

Rappels et exercices sur le langage Python, manipulation des données avec pandas

25/9 (3) TD/amphi

Séance 3 - stat, Séance 3 - éco, deux exposés

ACP, réduction de dimension variables catégorielles, textuelles, mention de catboost

Suite et fin des exercices pandas et représentations graphiques variées, fin des exercices sur pandas, numpy, visualisation avec matplotlib, cartographie

2/10 (4) TD/amphi

Séance 4 - stat, Séance 4 - éco deux exposés

Ranking, détection d’anomalies, clustering, valeurs manquantes, imbalanced classification, recommandation, test A/B

Premiers pas avec scikit-learn, ACP, Regréssion linéaire, Logit, classification binaire, scraping avec un exemple sur la récupération d’image 2018-10-02_scraping_recuperer_images

9/10 (5) TD/amphi

Séance 5 - stat, Séance 5 - éco, deux exposés

Machine learning crypté, séries temporelles, apprentissage par renforcement, algorithme du bandit, auto-learning

Variables textuelles, clustering, détection d’anomalies, graphes et recommandations

16/10 (6) TD/amphi

Séance 6, deux exposés

  • Propriétés des modèles mathématiques, modèles linéaires, modèles ensemblistes, modèles dérivables, gradient, feature importance, parallélisme, boosting (Xavier Dupré)

  • Interprétation des modèles de machine learning (Gaël Varoquaux), notes : Understanding and diagnosing your machine-learning models

23/10 (7) amphi

Séance 7, deux exposés

  • notion de deep learning sans en faire, application au texte, et aux images, transfer learning, exemples avec un moteur de recherche d’images (Xavier Dupré)

  • Ethique et algorithmes avec (Frédéric Bardolle)

6/11 (8) TD

Séance 8 - stat, Séance 8 - éco, deux exposés

Notion d’algorithmes, écrire du code efficace en Python, avec pandas, numpy, discussion sur les projets

Travailler le texte, de la récupération à l’exploitation (2/2), Exercice de webscraping, API, NLP

Prérequis#

Intervenants#

Xavier Dupré, Anne Muller, Elodie Royant, Antoine Ly, Eliot Barril, Frédéric Bardolle, Gaël Varoquaux.

Notes#

Liens, notebooks prévus pour les séances pratiques.

Séance 1#

Séance 2 - stat#

8h30 - TD

Lectures conseillées

Les cours de Gaël Varoquaux Machine learning, cours de Gaël Varoquaux, les notebooks d’exercices associées à ces lectures.

10h15 - modèle complexe avec scikit-learn

Séance 2 - éco#

8h30 - amphi

10h15 - TD

Vérifier que les trois notebooks ont été exécutés, exécuter trois notebooks, 1A.1 - D’une structure de données à l’autre, 1A.1 - Histogramme et dictionnaire, 2A.ml - Features ou modèle

Séance 3 - stat#

8h30 - TD

10h30 - amphi

Séance 3 - éco#

8h30 - amphi

10h30 - TD

Séance 4 - stat#

8h30 - cours

10h15 - TD

Lectures pour ce TD :

Séance 4 - éco#

8h30 - TD

Notebooks pour s’exercer :

10h15 - cours

Expression régulière et scrapping, 2018-10-02 - Scraping, récupérer une image depuis LeMonde.

Séance 5 - stat#

8h30 - cours

10h15 - TD

Séance 5 - éco#

8h30 - TD

10h15 - cours

  • ACP

  • Traitement des variables catégorielles

  • Graphes et recommandations

Séance 6#

Propriétés des modèles mathématiques

Autour du linéaire

Illustrations des propriétés mathématiques

Lectures annexes

Librairies random forest

10h15 - Gaël Varoquaux

Interprétation des modèles de machine learning

Notes : Understanding and diagnosing your machine-learning models.

Séance 7#

Ethique dans les données par Frédéric Bardolle

Dilemmes

Séance 8 - stat#

Séance 8 - éco#

Notebook

Lectures