2018-11-15 dirty-cat(égories)#

Je suis assis à côté de Gaël Varoquaux qui me raconte son dernier papier sur dirty-cat pour traiter des colonnes catégorielles avec beaucoup de catégories et qui se ressemblent :

  • Charleville

  • Charleville-Mérières

  • Paris

  • Pari

  • Paris 18

En pratique, beaucoup de data-scientist diraient qu’ils faut d’abord nettoyer les données avec de les transformer en variables numériques. Une autre option consiste à utiliser un SimilarityEncoder qui encode les catégories de telle façon que deux catégories proches au niveau caractères seront proches une fois encodées.

https://nostarch.com/malwaredatascience