Classification multi-classe et jeu mal balancé

Plus il y a de classes, plus la classification est difficile car le nombre d'exemples par classe diminue. Voyons cela plus en détail sur des jeux artificiels produits mar make_blobs.

découverte

Le premier jeu de données est une simple fonction linéaire sur deux variables d'ordre de grandeur différents.

Mettons le jour dans une fonction pour plusieurs modèles :

La stratégie OneVsOne a l'air d'être plus performante. La régression logistique implémente la stratégie OneVsRest. On ne l'évalue plus.

évolution en fonction du nombre de classes

On pourrait se dire que c'est parce que le nombre d'exemples par classes décroît. Voyons cela.

évolution en fonction de la variance

Un peu mieux mais cela décroît toujours. Peut-être que la courbe dépend de la confusion entre les classes ?

évolution en fonction de la dimension

Et en fonction du nombre de dimensions :

retour sur le nombre de classes

un dernier jeu sûr

On construit un dernier jeu pour lequel le taux de classification devrait être 100%.

La régression logistique n'est pas le meilleur modèle lorsque le nombre de classes est élevé et la dimension de l'espace de variables faible.