2A.ml - Réduction d’une forêt aléatoire - énoncé#

Links: notebook, html, python, slides, GitHub

Le modèle Lasso permet de sélectionner des variables, une forêt aléatoire produit une prédiction comme étant la moyenne d’arbres de régression. Et si on mélangeait les deux ?

from jyquickhelper import add_notebook_menu
add_notebook_menu()
%matplotlib inline

Datasets#

Comme il faut toujours des données, on prend ce jeu Diabetes.

from sklearn.datasets import load_diabetes
data = load_diabetes()
X, y = data.data, data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

Q1 : caler une forêt aléatoire#

Q2 : calculer soi-même la moyenne des prédictions des arbres de la forêt aléatoire#

C’est peut-être inutile mais ça permet de s’assurer que la prédiction d’une forêt aléatoire est bien issue de la moyenne des prédictions d’un ensemble d’arbre de régression.

A priori, c’est la même chose.

Q3 : Pondérer les arbres à l’aide d’une régression linéaire#

La forêt aléatoire est une façon de créer de nouvelles features, 100 exactement qu’on utilise pour caler une régression linéaire. A vous de jouer.

Q4 : Que se passe-t-il si on remplace la régression linéaire par un Lasso ?#

Petit rappel : le Lasso est une façon de sélectionner les variables.

Q5 : Tracer l’évolution de la performance et du nombre d’arbres en fonction de alpha#