2A.ml - 2016 - Compétition ENSAE - Premiers modèles#
Links: notebook
, html, python
, slides, GitHub
Une compétition était proposée dans le cadre du cours Python pour un Data Scientist à l’ENSAE. Ce notebook facilite la prise en main des données et propose de mettre en oeuvre un modèle logit.
from jyquickhelper import add_notebook_menu
add_notebook_menu()
La première étape constiste à mettre en forme les données pour que les fonctions des modules statsmodels et skitlearn fonctionnent comme on le souhaite
from pyensae.datasource import download_data
download_data("ensae_competition_2016.zip",
url="https://github.com/sdpython/ensae_teaching_cs/raw/master/_doc/competitions/2016_ENSAE_2A/")
['ensae_competition_test_X.txt', 'ensae_competition_train.txt']
import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np
fichier_train = "./ensae_competition_train.txt"
fichier_test = "./ensae_competition_test_X.txt"
df = pd.read_csv(fichier_train, header=[0,1], sep="\t", index_col=0)
c:python36_x64libsite-packagesstatsmodelscompatpandas.py:56: FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future version. Please use the pandas.tseries module instead. from pandas.core import datetools
Mise en forme des données pour la régression#
Pour mieux analyser les données présentes dans la base de données, il faut passer par quelques manipulations.
Par exemple, il faut transformer les variables SEX, EDUCATION, MARRIAGE en indictatrices afin qu’elles ne soient pas prise en compte comme des variables continues dans le modèle.
#### Gender dummies
df['X2'] = df['X2'].applymap(str)
gender_dummies = pd.get_dummies(df['X2'] )
### education dummies
df['X3'] = df['X3'].applymap(str)
educ_dummies = pd.get_dummies(df['X3'] )
#### marriage dummies
df['X4'] = df['X4'].applymap(str)
mariage_dummies = pd.get_dummies(df['X4'] )
### On va aussi supprimer les multi index de la table
df.columns = df.columns.droplevel(0)
#### on aggrège ensuite les 3 tables ensemble
data = df.join(gender_dummies).join(educ_dummies).join(mariage_dummies)
data.head(n=2)
LIMIT_BAL | SEX | EDUCATION | MARRIAGE | AGE | PAY_0 | PAY_2 | PAY_3 | PAY_4 | PAY_5 | ... | EDUCATION_1 | EDUCATION_2 | EDUCATION_3 | EDUCATION_4 | EDUCATION_5 | EDUCATION_6 | MARRIAGE_0 | MARRIAGE_1 | MARRIAGE_2 | MARRIAGE_3 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 180000 | 1 | 2 | 1 | 47 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
1 | 110000 | 2 | 2 | 1 | 35 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
2 rows × 37 columns
Régression logistique en utilisant statsmodels#
Pour notre premier modèle, nous allons voir comment fonctionne le module statsmodels
Par défaut, la regression logit n’a pas de beta zéro pour le module statsmodels : il faut donc l’ajouter
# première étape pour ce module, il faut ajouter à la main le beta zéro - l'intercept
data['intercept'] = 1.0
data.rename(columns = {'default payment next month' : "Y"}, inplace = True)
data.columns
Index(['LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0', 'PAY_2',
'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6', 'Y',
'SEX_1', 'SEX_2', 'EDUCATION_0', 'EDUCATION_1', 'EDUCATION_2',
'EDUCATION_3', 'EDUCATION_4', 'EDUCATION_5', 'EDUCATION_6',
'MARRIAGE_0', 'MARRIAGE_1', 'MARRIAGE_2', 'MARRIAGE_3', 'intercept'],
dtype='object')
# variable = ['AGE', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4',
# 'BILL_AMT5', 'BILL_AMT6', 'LIMIT_BAL', 'PAY_0',
# 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'PAY_AMT1', 'PAY_AMT2',
# 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6', 'SEX_1',
# 'EDUCATION_0', 'EDUCATION_1', 'EDUCATION_2', 'EDUCATION_3',
# 'EDUCATION_4', 'EDUCATION_5', 'MARRIAGE_0', 'MARRIAGE_1',
# 'MARRIAGE_2', 'intercept']
train_cols = ["SEX_1", "AGE", "MARRIAGE_0", 'PAY_0','intercept']
# Cette cellule n'est nécessaire que si vous utilisez scipy 1.0 avec statsmodels 0.8.
from pymyinstall.fix import fix_scipy10_for_statsmodels08
fix_scipy10_for_statsmodels08()
logit = sm.Logit(data['Y'], data[train_cols].astype(float))
# fit the model
result = logit.fit()
print(result.summary())
Optimization terminated successfully.
Current function value: 0.475306
Iterations 6
Logit Regression Results
==============================================================================
Dep. Variable: Y No. Observations: 22500
Model: Logit Df Residuals: 22495
Method: MLE Df Model: 4
Date: Wed, 01 Nov 2017 Pseudo R-squ.: 0.1008
Time: 20:48:54 Log-Likelihood: -10694.
converged: True LL-Null: -11893.
LLR p-value: 0.000
==============================================================================
coef std err z P>|z| [0.025 0.975]
------------------------------------------------------------------------------
SEX_1 0.1093 0.035 3.144 0.002 0.041 0.177
AGE 0.0076 0.002 4.202 0.000 0.004 0.011
MARRIAGE_0 -0.8095 0.527 -1.536 0.124 -1.842 0.223
PAY_0 0.7304 0.016 44.554 0.000 0.698 0.763
intercept -1.7150 0.067 -25.435 0.000 -1.847 -1.583
==============================================================================
Prédiction sur la base de test#
On va prédire les probabilités de défaut de paiement sur notre base de test.
Il faut commencer par transformer la base de test comme on l’a fait pour la base de train.
data_test = pd.read_csv(fichier_test, header=[0,1], sep="\t", index_col=0)
#### Gender dummies
data_test['X2'] = data_test['X2'].applymap(str)
gender_dummies_test = pd.get_dummies(data_test['X2'] )
### education dummies
data_test['X3'] = data_test['X3'].applymap(str)
educ_dummies_test = pd.get_dummies(data_test['X3'] )
#### marriage dummies
data_test['X4'] = data_test['X4'].applymap(str)
mariage_dummies_test = pd.get_dummies(data_test['X4'] )
### On va aussi supprimer les multi index de la table
data_test.columns = data_test.columns.droplevel(0)
#### on aggrège ensuite les 3 tables ensemble
data_test = data_test.join(gender_dummies_test).join(educ_dummies_test).join(mariage_dummies_test)
data_test['intercept'] = 1.0
data_test[train_cols].head()
SEX_1 | AGE | MARRIAGE_0 | PAY_0 | intercept | |
---|---|---|---|---|---|
0 | 0 | 35 | 0 | 0 | 1.0 |
1 | 0 | 55 | 0 | -1 | 1.0 |
2 | 1 | 33 | 0 | 0 | 1.0 |
3 | 1 | 23 | 0 | 0 | 1.0 |
4 | 1 | 42 | 0 | -2 | 1.0 |
Maintenant que la base de test est également transformée, nous allons appliqué les résultats de notre modèle à cette table en utilisant la fonction predict
data_test['prediction_statsmodel'] = result.predict(data_test[train_cols])
data_test['prediction_statsmodel'].describe()
count 7500.000000
mean 0.220305
std 0.136834
min 0.025511
25% 0.114870
50% 0.194184
75% 0.225708
max 0.988777
Name: prediction_statsmodel, dtype: float64
On trouve un taux moyen de défaut de 22%, ce qui est très proche du taux observé dans la base de train
# puis on l'exporte
data_test['prediction_statsmodel'].to_csv("./answer.csv", index=False)
Regression logistique en utilisant Scikit-learn#
A présent, nous allons utiliser le module scikit learn pour estimer le même modèle que précédemment et comparer les résultats.
Ici pas besoin d’ajouter une variable égale à 1 (l’intercept) car Scikit learn considère qu’il y a un intercept par défaut.
from sklearn import linear_model
logistic = linear_model.LogisticRegression()
print("l'estimation des coefficients", logistic.fit(data[train_cols], data['Y']).coef_, "\n")
print("l'intercept : ", logistic.fit(data[train_cols], data['Y']).intercept_)
l'estimation des coefficients [[ 0.10899192 0.00751036 -0.56310513 0.72994068 -0.85555264]]
l'intercept : [-0.85555264]
A la différence de statsmodels, Scikit-learn ne propose pas une belle table de résultat : seulement les arrays qui contiennent les coefficients
Pour le détail des p-value et intervalles de confiance, il faudra les recalculer à la main.
Par contre, la fonction de prédiction existe et elle renvoit la probabilité de Y = 0 et Y = 1
logistic.predict_proba(data_test[train_cols])
array([[ 0.80972784, 0.19027216],
[ 0.88370325, 0.11629675],
[ 0.79482709, 0.20517291],
...,
[ 0.80972784, 0.19027216],
[ 0.88899819, 0.11100181],
[ 0.79667299, 0.20332701]])
# pour calculer la moyenne du taux de défaut prédit
logistic.predict_proba(data_test[train_cols]).mean(axis=0)
# on trouve à nouveau 22%
array([ 0.77965411, 0.22034589])