Plus proches voisins - projection

On projette le jeu de données initiale selon les premiers axes d'une analyse en composantes principales (ACP).

On utilise la classe PCA.

On regarde la variance expliquée par chaque axe : la valeur propre.

Le premier explique une grande part de la variance, trop grande. C'est louche. Regardons les coordonnées du premier axe.

Il est quasiment égal à une seule coordonnées. Cela suppose que les variables ont des échelles différentes.

La valeur moyenne de chaque variable ressemble étrangement aux coordonnées du premier axe de l'ACP. Il faut normaliser les données avec normalize.

C'est beaucoup mieux.

L'alcool, l'acidité, le dioxyde, le pH semble jouer un rôle plus grand que les autres variables. On projette maintenant les observations.

Premier graphe selon les couleurs.

Autre façon de tracer le même graphe.

Avec le troisième axe.

On représente maintenant les notes des vins.

Les vins rouges et blancs apparaissent comme très différents, cela vaudra sans doute le coup de faire deux modèles si la performance n'est pas assez bonne. Les bonnes notes ne se détache pas particulièremnt sur ces graphes. Le problème est peut-être simple mais ce ne sont pas ces graphes qui vont nous le dire.