2018-11-15 dirty-cat(égories)#
Je suis assis à côté de Gaël Varoquaux qui me raconte son dernier papier sur dirty-cat pour traiter des colonnes catégorielles avec beaucoup de catégories et qui se ressemblent :
Charleville
Charleville-Mérières
…
Paris
Pari
Paris 18
…
En pratique, beaucoup de data-scientist diraient qu’ils faut d’abord nettoyer les données avec de les transformer en variables numériques. Une autre option consiste à utiliser un SimilarityEncoder qui encode les catégories de telle façon que deux catégories proches au niveau caractères seront proches une fois encodées.