2022-02-07 Année 2022, séance 2#

Séance découpée en trois parties.

Partie I : programmation et exercice

  • installer un package

  • mettre à jour un package

  • réfléchir au problème suivant

Un base de données contient une variable catégorielle. Malheureusement, elle est renseignée de façon imparfaite car elle contient des erreurs de syntaxe. Exemple : ['comptabilité', 'datascience', 'data science', 'pilote', 'pilotage', 'auteur', 'autrice', ...]. Que peut-on faire pour nettoyer cette variable ?

Voir aussi dirty-cat.

Partie II : classes

Partie III : scikit-learn

Exercice : créer son propre prédicteur

Implémentation un transformeur qui transforme les catégories comme suggéré lors de la première partie.