|
Base d’apprentissage et de test |
Le modèle est estimé sur une base d’apprentissage et évalué sur une base de test. |
|
Classification de phrases avec word2vec |
Le texte est toujours délicat à traiter. La langue est importante et plus le vocabulaire est étendu, plus il faut de données. Le problème qui suit est classique, on cherche à catégoriser des phrases en sentiment positif ou négatif. Ce pourrait être aussi classer des spams. Le problème le plus simple : une phrase, un label. |
|
Classification multi-classe |
On cherche à prédire la note d’un vin avec un classifieur multi-classe. |
|
Classification multi-classe et jeu mal balancé |
Plus il y a de classes, plus la classification est difficile car le nombre d’exemples par classe diminue. Voyons cela plus en détail sur des jeux artificiels produits mar make_blobs. |
|
Classification multi-classe et stacking |
On cherche à prédire la note d’un vin avec un classifieur multi-classe puis à améliorer le score obtenu avec une méthode dite de stacking. |
|
Classifications et courbes ROC |
La courbe ROC est une façon de visualiser la performance d’un classifieur ou plutôt sa pertinence. Voyons comment. |
|
Des mots aux sacs de mots |
La tokenisation consiste à découper un texte en token, l’approche sac de mots consiste à compter les occurences de chaque mot dans chaque document de la base de données. |
|
Découpage stratifié apprentissage / test |
Lorsqu’une classe est sous-représentée, il y a peu de chances que la répartition apprentissage test conserve la distribution des classes. |
|
Factorisation de matrice et recommandations |
Le notebook utilise la factorisation de matrice pour calculer des recommandations sur la base movielens. On utilise le jeu de données ml-latest-small.zip. |
|
Hashing et catégories |
Le hashing est utilise lorsque le nombre de catégories est trop grand. |
|
Interprétation de la note d’un vin |
Le notebook explore différentes façons d’interpréter la prédiction de la note d’un vin. |
|
Intuition derrière l’érosion des modèles |
La plupart des modèles de machine learning doivent être rafraîchi régulièrement. Quelques intuitions derrière ce phénomène. |
|
Jeu de données avec des catégories |
Le jeu de données Adult Data Set ne contient presque que des catégories. Ce notebook explore différentes moyens de les traiter. |
|
Normalisation |
La normalisation des données est souvent inutile d’un point de vue mathématique. C’est une autre histoire d’un point de vue numérique où le fait d’avoir des données qui se ressemblent améliore la convergence des algorithmes et la précision des calculs. Voyons cela sur quelques exemples. |
|
Plus proches voisins |
On cherche à prédire la note d’un vin avec un modèle des plus proches voisins. |
|
Plus proches voisins - projection |
On projette le jeu de données initiale selon les premiers axes d’une analyse en composantes principales (ACP). |
|
Plus proches voisins - évaluation |
Comment évaluer la pertinence d’un modèle des plus proches voisins. |
|
Plusieurs modèles, données disjointes |
On cherche à prédire la note d’un vin mais on suppose que cette qualité est dépendante de la couleur et qu’il faudrait appliquer des modèles différents selon la couleur. |
|
Prédiction d’une durée |
Ce notebook cherche à prédire la durée de stockage de paquets préparés par un magasin. Chaque paquet met plus ou moins de temps à être préparé. Si la commande arrive le soir et ne peut être finie avant la fin de la journée, elle est reportée sur la journée suivante. C’est la particularité de ce jeu de données. |
|
Prédiction de la note des vins |
Le notebook compare plusieurs de modèles de régression. |
|
Random Walk with Restart (système de recommandations) |
Si la méthode de factorisation de matrices est la méthode la plus connue pour faire des recommandations, ce n’est pas la seule. L’algorithme Random Walk with Restart s’appuie sur l’exploration locale des noeuds d’un graphe et produit des résultats plus facile à intepréter.)*. |
|
Ranking et search engine |
C’est un petit exemple de ranking avec un très petit jeu de données, trop petit pour que le modèle soit performant, mais le code peut être réutilisé pour des exemples de taille raisonnable. C’est à dire probablement pas pour apprendre un moteur de recherche. |
|
Régression logistique en 2D |
Prédire la couleur d’un vin à partir de ses composants. |
|
Régression logistique et convexité |
La régression logistique est un modèle de classification binaire, simple à interpréter mais limité dans la gamme des problèmes qu’il peut résoudre. Limité comment ? |
|
Régression logistique et courbe ROC |
Prédire la couleur d’un vin à partir de ses composants et visualiser la performance avec une courbe ROC. |
|
Régression polynômiale et pipeline |
Le notebook compare plusieurs de modèles de régression polynômiale. |
|
Sélection des hyper-paramètres |
Le modèle des plus proches voisins KNeighborsRegressor est paramétrable. Le nombre de voisins est variables, la prédiction peut dépendre du plus proche voisins ou des $k$ plus proches proches. Comment choisir $k$ ? |
|
Tokenisation |
La tokenisation consiste à découper un texte en token, le plus souvent des mots. Le notebook utilise un extrait d’un article du monde. |
|
Traitement amélioré des catégories |
Ce notebook présenté des encoding différents de ceux implémentées dans scikit-learn. |
|
Traitement des catégories |
Ce notebook présente différentes options pour gérer les catégories au format entier ou texte. |
|
Validation croisée (cross-validation) |
Il est acquis qu’un modèle doit être évalué sur une base de test différente de celle utilisée pour l’apprentissage. Mais la performance est peut-être juste l’effet d’une aubaine et d’un découpage particulièrement avantageux. Pour être sûr que le modèle est robuste, on recommence plusieurs fois. On appelle cela la validation croisée ou cross validation. |