Prédiction de la note des vins

Le notebook compare plusieurs de modèles de régression.

On normalise les données.

Cette façon de faire est complètement erronnée car il est peu probable que la même normalisation soit apppliquée sur les trois bases. La normalisation doit être estimée sur la base d'apprentissage et appliquée sur la base de test. Reprenons.

On récupère beaucoup de modèles implémentés dans scikit-learn pour la régression.

On filtre les valeurs inférieures à -1.

L'estimateur RANSACRegressor produit un $R^2$ très négatif. Regardons plus en détail.

Essayons de voir avec la densité.

Pas facile à voir. Essayons de voir autrement en triant les prédictions et les valeurs attendues par ordre.

Le modèle est plutôt agité.

Pour s'assurer que les résultats sont fiables, il faut recommencer avec une validation croisée.

Le modèle RANSAC est conçu pour apprendre un modèle linéaire et réduire l'ensemble d'apprentissage aux points non aberrants. Dans notre cas, vu le peu d'exemples pour les notes élevées, il est très probable que celles-ci disparaissent des observations choisies pour estimer le modèle : le modèle choisit d'évincer les exemples pour lesquels l'erreur est la plus grande en considérant que cela est une indication du fait qu'ils sont aberrants. Malgré cela, sa faible capacité à prévoir vient du fait que la majorité des vins ont une note entre 4 et 6 et que finalement, il y a peu de différences : ils sont tous moyens et la différence s'explique par d'autres facteurs comme le juge ayant donné la note.