.. _td2atreeselectionenoncerst: ================================================ 2A.ml - Réduction d’une forêt aléatoire - énoncé ================================================ .. only:: html **Links:** :download:`notebook `, :downloadlink:`html `, :download:`python `, :downloadlink:`slides `, :githublink:`GitHub|_doc/notebooks/td2a_ml/td2a_tree_selection_enonce.ipynb|*` Le modèle Lasso permet de sélectionner des variables, une forêt aléatoire produit une prédiction comme étant la moyenne d’arbres de régression. Et si on mélangeait les deux ? .. code:: ipython3 from jyquickhelper import add_notebook_menu add_notebook_menu() .. contents:: :local: .. code:: ipython3 %matplotlib inline Datasets -------- Comme il faut toujours des données, on prend ce jeu `Diabetes `__. .. code:: ipython3 from sklearn.datasets import load_diabetes data = load_diabetes() X, y = data.data, data.target .. code:: ipython3 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y) Q1 : caler une forêt aléatoire ------------------------------ Q2 : calculer soi-même la moyenne des prédictions des arbres de la forêt aléatoire ---------------------------------------------------------------------------------- C’est peut-être inutile mais ça permet de s’assurer que la prédiction d’une forêt aléatoire est bien issue de la moyenne des prédictions d’un ensemble d’arbre de régression. A priori, c’est la même chose. Q3 : Pondérer les arbres à l’aide d’une régression linéaire ----------------------------------------------------------- La forêt aléatoire est une façon de créer de nouvelles features, 100 exactement qu’on utilise pour caler une régression linéaire. A vous de jouer. Q4 : Que se passe-t-il si on remplace la régression linéaire par un Lasso ? --------------------------------------------------------------------------- Petit rappel : le `Lasso `__ est une façon de sélectionner les variables. Q5 : Tracer l’évolution de la performance et du nombre d’arbres en fonction de alpha ------------------------------------------------------------------------------------