.. blogpost:: :title: Année 2022, séance 5 :keywords: python :date: 2022-03-08 :categories: plan Séance découpée en trois parties. **Exercice** On veut créer une classe d'arbre de décision qui fonctionne comme un arbre de décision mais génère une erreur si la distribution des feuilles prédites s'éloigne de celle observée durant l'apprentissage. **Partie I : réseaux de neurones et transfer learning** * machine learning et `deep learning `_ * réseau de neurones profond, `pytorch `_ * `onnx `_, `onnxruntime `_ * utilisation de modèles de deep learning avec scikit-learn Quelques éléments techniques. * CPU, GPU * double, float * dense, sparse * json, xml, yml * encoding * graphes, graphes sociaux, communautés **Partie II : données massives** Que faire quand les données sont énormes et qu'on n'a pas de cluster ? * `pandas `_ * `sqlite3 `_ * `streaming `_ * `streaming machine learning `_ * `river `_ **Partie III : variables textuelles** Catégorie et texte * webscrapping, html, javascript * catégories, `dirty-cat `_ (rappel) * convertir du texte libre en variable numérique, n-grammes * traitement de phrase, tfidf * text embedding * word2vec, gloves, gensim, spacy * séries temporelles **Projet** * Mois d'avril (début 28/3, rendu 15/5, note 30/6) * Modalités précisées en fin de mois **Exercice** Trouver les adresses identiques après la fusion de deux bases de données. Comment utiliser du machine learning ?