ENSAE 14/11/2016#
Source: Blog Kaggle.
Présentation#
Librairies#
VLFeat : Vision Lab Features Library
MXNet Tutorial and Hand Written Digit Recognition : deep learning with MXNet
XGBFIR : Xgbfir is a XGBoost model dump parser, which ranks features as well as feature interactions by different metrics.
libFM : Library for factorization machines
pywFM : pywFM is a Python wrapper for Steffen Rendle’s libFM
Idées / algorithmes#
Les bases de train et test sont-elles homogènes ? : une idée simple pour vérifier cette hypothèse et corriger l’apprentissage et façon à coller au plus près des données d’évaluation, lire Adversarial validation, part one.
RANSAC : abréviation pour RANdom SAmple Consensus, scikit-learn/RANSAC
Normalized compression distance : mesure la proximité entre deux séquences d’objets
Ad Click Prediction: a View from the Trenches (FTRL-Proximal online learning algorithm)
Liens#
09/2016 - The Allen AI Science Challenge : Is your model smarter than an 8th grader?
09/2016 - Predicting Red Hat Business Value: Classify customer potential
09/2016 - TalkingData Mobile User Demographics: Get to know millions of mobile device users
08/2016 - Grupo Bimbo Inventory Demand : Maximize sales and minimize returns of bakery goods
07/2016 - Facebook V: Predicting Check Ins : Identify the correct place for check ins
07/2016 - Avito Duplicate Ads Detection : Can you detect duplicitous duplicate ads?
06/2016 - Draper Satellite Image Chronology : Can you put order to space and time? Le jeu de données est consitué d’images satellites prises aux mêmes endroits sur une durée de cinq jours. Elles sont mélangées. Il faut retrouver leur ordre chronologique.
04/2016 - Home Depot Product Search Relevance : Predict the relevance of search results on homedepot.com
04/2016 - Yelp Restaurant Photo Classification : Predict attribute labels for restaurants using user-submitted photos
02/2016 - Homesite Quote Conversion : Which customers will purchase a quoted insurance plan?
12/2015 - Second Annual Data Science Bowl : Transforming How We Diagnose Heart Disease
12/2015 - How Much Did It Rain? II : Predict hourly rainfall using data from polarimetric radars
10/2015 - Truly Native? : Predict which web pages served by StumbleUpon are sponsored
08/2015 - Liberty Mutual Group: Property Inspection Prediction : Quantify property hazards before time of inspection
07/2015 - ECML/PKDD 15: Taxi Trajectory Prediction (I) : Predict the destination of taxi trips based on initial partial trajectories
07/2013 - Facebook Recruiting III - Keyword Extraction : Identify keywords and tags from millions of text questions
FAQ#
Les bases de train et test sont-elles homogènes ?
Lors d’une compétition, on dispose le plus souvent d’un jeu d’apprentissage et d’un jeu qui sert à évaluer les participants qui ne connaissent que . Seul le jury connaît les correspondant. Les bases de train et test sont-elles homogènes ? Pour répondre à cette question, on apprend un classifieur qui est appris sur une base réordonnée aléatoirement à partir de . Autrement dit, on essaye de construire un classifieur qui prédit si l’observation appartient au jeu d’apprentissage ou à celui d’évaluation. Si le classifieur n’y parvient pas, alors les deux bases sont homogènes.
Que faire dans les deux bases ne sont pas homogènes ?
Une option consiste à utiliser le classifieur précédent pour déterminer les observations de la base d’apprentissage qui sont proches de la base d’évaluation (le classifieur les classes dans ) et de les surpondérer pour estimer le modèle lié à au problème de la compétition. On peut choisir comme pondération le score de classification du modèle . Cela revient à corriger l’erreur d’apprenissage en construisant un estimateur de l’erreur que le modèle ferait sur la base d’évaluation :
Par extension, si les bases d’apprentissage et d’évaluation ont été construites de telle sorte qu’elles soient homogènes, un modèle capable de bien prédire l’appartenance d’une observation à l’une des deux bases fait nécessaire du surapprentissage (ou overfitting). Il en sera de même si le modèle est utilisé pour prédire autre chose.
Séries temporelles
Dans le cas des séries temporelles, le découpage apprentissage / évaluation est très souvent temporel. Les données passées sont utilisées pour l’apprentissage, les données futures pour l’évaluation. S’il est possible de construire un classifier capable de déterminer si une observation fait partie du passé ou du futur, cela signifie certainement qu’il est préférable de prétraiter la série pour enlever une tendance.