2022-02-07 Année 2022, séance 2#
Séance découpée en trois parties.
Partie I : programmation et exercice
installer un package
mettre à jour un package
réfléchir au problème suivant
Un base de données contient une variable catégorielle.
Malheureusement, elle est renseignée de façon
imparfaite car elle contient des erreurs de syntaxe.
Exemple :
['comptabilité', 'datascience', 'data science',
'pilote', 'pilotage', 'auteur', 'autrice', ...]
.
Que peut-on faire pour nettoyer cette variable ?
Voir aussi dirty-cat.
Partie II : classes
Créer une classe qui code du texte
Partie III : scikit-learn
Un régresseur chez scikit-learn
Design de scikit-learn
prédicteur, transformer, cluster
Exercice : créer son propre prédicteur
Implémentation un transformeur qui transforme les catégories comme suggéré lors de la première partie.