

Machine learning, cours de Gaël Varoquaux#
Gaël Varoquaux est un des concepteurs de scikit-learn. Les cours nécessitent quelques notions mathématiques et informatiques.
machine learning et scikit-learn (tutoriels sur scikit-learn),
Quelques extraits. Par définition les plus proches voisins ne font pas d’erreur sur la base d’apprentissage, l’apprentissage consiste à forcer le modèle à faire des erreurs. Overfitting et régularisation. Erreur L2 et pénalisation L1. RandomizedPCA, GridSearch, LassoCV. Choosing the right estimator.
Les notes de lectures (Gaël Varoquaux) sont disponibles sur GitHub et reprise ici :
- License for sklearn_ensae_course
- 2A.ML101.0: What is machine learning?
- 2A.ML101.1: Introduction to data manipulation with scientific Python
- 2A.ML101.2: Basic principles of machine learning with scikit-learn
- 2A.ML101.3: Supervised Learning: Classification of Handwritten Digits
- 2A.ML101.4: Supervised Learning: Regression
- 2A.ML101.5: Measuring prediction performance
- 2A.ML101.6: Unsupervised Learning: Dimensionality Reduction and Visualization
- 2A.ML101.7: Example from Image Processing
- 2A.ML101.8: Parameter selection, Validation & Testing
La série d’articles suivante est tirée de Freakeconometrics revient sur les propriétés des modèles de classification et régression illustrées avec le langage R : Séries d’articles sur les modèles linéaires. Enfin, les deux notebooks suivant regroupent les termes principaux, ceux qu’il faut avoir retenus si on veut comprendre le machine learning.
Notebooks
- 2A.ml - Statistiques descriptives avec scikit-learn
- 2A.ml - Statistiques descriptives avec scikit-learn - correction
- 2A.ml - Arbres de décision / Random Forest
- 2A.ml - Arbres de décision / Random Forest - correction
- 2A.ml - Machine Learning et Marketting
- 2A.ml - Machine Learning et Marketting - correction
- 2A.ml - Classification binaire avec features textuelles
- 2A.ml - Classification binaire avec features textuelles - correction
- Rappels sur scikit-learn et le machine learning
- Rappels sur scikit-learn et le machine learning (correction)
MOOC - cours
Lectures
API design for machine learning software: experiences from the scikit-learn project
10+2 Data Science Methods that Every Data Scientist Should Know in 2016 (2016/06)
Complete Guide to Parameter Tuning in XGBoost (with codes in Python) (2016/08)
XGBoost: A Scalable Tree Boosting System, Tianqi Chen, Carlos Guestrin
ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms?
Time for a Change: a Tutorial for Comparing Multiple Classifiers Through Bayesian Analysis
Unbiased Measurement of Feature Importance in Tree-Based Methods
Livres
The Elements of Statistical Learning : la bible que tout le monde recommande :
Comprendre
Modules
Et quelques autres comme :