FAQ#

Les bases de train et test sont-elles homogènes ?

Les bases de train et test sont-elles homogènes ?

Lors d’une compétition, on dispose le plus souvent d’un jeu d’apprentissage $(X_t, Y_t)$ et d’un jeu qui sert à évaluer les participants qui ne connaissent que $X_e$ . Seul le jury connaît les $Y_e$ correspondant. Les bases de train et test sont-elles homogènes ? Pour répondre à cette question, on apprend un classifieur qui est appris sur une base réordonnée aléatoirement à partir de $(X_t \cup X_e, (x_i \in X_e)_i)$ . Autrement dit, on essaye de construire un classifieur qui prédit si l’observation $x_i$ appartient au jeu d’apprentissage ou à celui d’évaluation. Si le classifieur n’y parvient pas, alors les deux bases sont homogènes.

Que faire dans les deux bases ne sont pas homogènes ?

Une option consiste à utiliser le classifieur $C_e$ précédent pour déterminer les observations de la base d’apprentissage qui sont proches de la base d’évaluation (le classifieur les classes dans $X_e$ ) et de les surpondérer pour estimer le modèle $M_c$ lié à au problème de la compétition. On peut choisir comme pondération le score de classification du modèle $C_e$ . Cela revient à corriger l’erreur d’apprenissage en construisant un estimateur de l’erreur que le modèle ferait sur la base d’évaluation :

$E(X_e, M_c) = \mathbb{E}( E(X, M_c) | X \in X_e ) \sim \sum_i e(x_i, M_c) \mathbb{P}(x_i \in X_e)$

Par extension, si les bases d’apprentissage et d’évaluation ont été construites de telle sorte qu’elles soient homogènes, un modèle capable de bien prédire l’appartenance d’une observation à l’une des deux bases fait nécessaire du surapprentissage (ou overfitting). Il en sera de même si le modèle est utilisé pour prédire autre chose.

Séries temporelles

Dans le cas des séries temporelles, le découpage apprentissage / évaluation est très souvent temporel. Les données passées sont utilisées pour l’apprentissage, les données futures pour l’évaluation. S’il est possible de construire un classifier capable de déterminer si une observation $x_i$ fait partie du passé ou du futur, cela signifie certainement qu’il est préférable de prétraiter la série pour enlever une tendance.

(original entry : ensae201611.rst, line 144)

Links

Contents

Information

Previous topic

Next topic

FAQ#