2A.ml - Réduction d’une forêt aléatoire - énoncé¶
Links: notebook
, html, PDF
, python
, slides, GitHub
Le modèle Lasso permet de sélectionner des variables, une forêt aléatoire produit une prédiction comme étant la moyenne d’arbres de régression. Et si on mélangeait les deux ?
from jyquickhelper import add_notebook_menu
add_notebook_menu()
%matplotlib inline
Datasets¶
Comme il faut toujours des données, on prend ce jeu Boston.
from sklearn.datasets import load_boston
data = load_boston()
X, y = data.data, data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)
Q2 : calculer soi-même la moyenne des prédictions des arbres de la forêt aléatoire¶
C’est peut-être inutile mais ça permet de s’assurer que la prédiction d’une forêt aléatoire est bien issue de la moyenne des prédictions d’un ensemble d’arbre de régression.
A priori, c’est la même chose.
Q3 : Pondérer les arbres à l’aide d’une régression linéaire¶
La forêt aléatoire est une façon de créer de nouvelles features, 100 exactement qu’on utilise pour caler une régression linéaire. A vous de jouer.
Q4 : Que se passe-t-il si on remplace la régression linéaire par un Lasso ?¶
Petit rappel : le Lasso est une façon de sélectionner les variables.