2A.ml - Réduction d’une forêt aléatoire - énoncé#
Links: notebook
, html, python
, slides, GitHub
Le modèle Lasso permet de sélectionner des variables, une forêt aléatoire produit une prédiction comme étant la moyenne d’arbres de régression. Et si on mélangeait les deux ?
from jyquickhelper import add_notebook_menu
add_notebook_menu()
%matplotlib inline
Datasets#
Comme il faut toujours des données, on prend ce jeu Diabetes.
from sklearn.datasets import load_diabetes
data = load_diabetes()
X, y = data.data, data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)
Q1 : caler une forêt aléatoire#
Q2 : calculer soi-même la moyenne des prédictions des arbres de la forêt aléatoire#
C’est peut-être inutile mais ça permet de s’assurer que la prédiction d’une forêt aléatoire est bien issue de la moyenne des prédictions d’un ensemble d’arbre de régression.
A priori, c’est la même chose.
Q3 : Pondérer les arbres à l’aide d’une régression linéaire#
La forêt aléatoire est une façon de créer de nouvelles features, 100 exactement qu’on utilise pour caler une régression linéaire. A vous de jouer.
Q4 : Que se passe-t-il si on remplace la régression linéaire par un Lasso ?#
Petit rappel : le Lasso est une façon de sélectionner les variables.