2022-03-08 Année 2022, séance 5

Séance découpée en trois parties.

Exercice

On veut créer une classe d’arbre de décision qui fonctionne comme un arbre de décision mais génère une erreur si la distribution des feuilles prédites s’éloigne de celle observée durant l’apprentissage.

Partie I : réseaux de neurones et transfer learning

Quelques éléments techniques.

  • CPU, GPU

  • double, float

  • dense, sparse

  • json, xml, yml

  • encoding

  • graphes, graphes sociaux, communautés

Partie II : données massives

Que faire quand les données sont énormes et qu’on n’a pas de cluster ?

Partie III : variables textuelles

Catégorie et texte

  • webscrapping, html, javascript

  • catégories, dirty-cat (rappel)

  • convertir du texte libre en variable numérique, n-grammes

  • traitement de phrase, tfidf

  • text embedding

  • word2vec, gloves, gensim, spacy

  • séries temporelles

Projet

  • Mois d’avril (début 28/3, rendu 15/5, note 30/6)

  • Modalités précisées en fin de mois

Exercice

Trouver les adresses identiques après la fusion de deux bases de données. Comment utiliser du machine learning ?