Régression logistique

La régression logistique est le modèle prédictif le plus simple et celui qu’on préfère quand il marche car il est facilement interprétable à l’inverse des modèles non linéaires qui gardent leurs secrets si on s’en tient seulement à leurs coefficients. Concrètement, on dispose d’un nuage de point (X_i, y_i)X_i \in \R^d est un vecteur de dimension d et y_i \in \acc{0, 1} un entier binaire. Le problème de la régression linéaire consiste à construire une fonction prédictive \hat{y_i} = f(X_i) = <X_i, \beta> = X_i \beta\beta est un vecteur de dimension d (voir classification). Le signe de la fonction f(X_i) indique la classe de l’observation X_i et la valeur \frac{1}{1 + e^{f(X)}} la probabilité d’être dans la classe 1.