.. _l-hackathon-2015:
Hackathon ENSAE / La Croix-Rouge / DataForGood / Microsoft - 2015
=================================================================
.. index:: Microsoft, ENSAE, Hackathon, Croix-Rouge, DataForGood, 2015
.. image:: logo_hackathon.png
:width: 300
The hackathon was sponsored by `Microsoft `_,
the participants were
`ENSAE `_'s students
and they worked on data from La `Croix-Rouge `_.
See `Hackathon `_,
`photos `_,
`vidéo `_.
.. contents::
:local:
Hackathon
+++++++++
Données et challenge
^^^^^^^^^^^^^^^^^^^^
.. toctree::
:maxdepth: 2
hackathon_2015_croix_rouge_schema
hackathon_2015_croix_rouge_objectives
Autres données
^^^^^^^^^^^^^^
* `dataforgoodfr/croixrouge `_
* `Description des tables INSEE `_
* Geocoding using Bing Maps : `python-omgeo `_
* Geocoding using Google Maps : `google-maps-services-python `_
Documentation
+++++++++++++
.. _l-cr-pwd:
Comment démarrer ?
^^^^^^^^^^^^^^^^^^
Les tables sont grandes, plus de 10 Go, il est quasiment impossible de les charger en mémoire.
Votre ordinateur n'est pas assez puissant mais ce n'est pas un problème,
il suffit de démarrer une machine virtuelle sur Azure, assez puissante,
pour commencer à regarder les données.
Vous pouvez regarder la section suivante pour voir comment faire.
.. toctree::
:maxdepth: 2
hackathon_2015_startup
Helpers, notebooks and passwords
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
The two following notebooks requires access to an Azure Blob Storage.
The credentials to access it can be stored in environment variable ``CRCREDENTIALS``
with following format::
**
Encrypted data available in this module can be accessed setting up
environment variable ``PWDCROIXROUGE`` with with password.
.. toctree::
:maxdepth: 1
../notebooks/upload_donnees
../notebooks/database_schemas
../notebooks/download_data_azure
../notebooks/process_clean_files
Cheat Sheets
^^^^^^^^^^^^
.. toctree::
:maxdepth: 1
../notebooks/chsh_graphs
../notebooks/chsh_files
../notebooks/chsh_dates
../notebooks/chsh_pip_install
Un peu plus sur Azure
^^^^^^^^^^^^^^^^^^^^^
* `La bible du hackatonien sur Azure `_
* `Provision the Microsoft Data Science Virtual Machine `_
* `SQL DataWarehouse, Azure Machine Learning, Jupyter, Power BI `_
* `Azure PASS `_
* `SQL DataWarehouse, Azure Machine Learning, Jupyter, Power BI `_
Fusion des données de la La Croix Rouge avec d'autres
+++++++++++++++++++++++++++++++++++++++++++++++++++++
* `geocoder `_
* `dataforgoodfr/croixrouge `_
* `Description des tables INSEE `_
* Geocoding using Bing Maps : `geopy `_ (fonction uniquement en Python 2.7)
Après la compétition
++++++++++++++++++++
Take Away
^^^^^^^^^
* Article paru dans `Variance `_ :
`Le premier hackathon organisé par l'ENSAE et Microsoft sur les données de la Croix-Rouge `_
La définition de la problématique décrite comme une compétition était identique pour
tous les participants puisqu'il fallait produire le même type résultat à savoir
une prédiction à 15 jours du nombre de bénéficiaires attendus dans chaque unité
de distribution. Mais les différents chemins suivis, les études menées sur les données pour
valider telle ou telle hypothèse ont tout autant apporté d'enseignements dans la
façon d'aborder le problème que la qualité de la prédiction finale. Cette phase
exploratoire *en parallèle*, ludique, qui n'était ni l'application d'un cours,
ni un travail au sens où il n'y avait pas d'obligation de résultats, a produit
beaucoup d'idées qui seront assemblées lors de la conception du modèle
prédictif final.
Quelques enseignements tirés du hackathon qui donne un aperçu des paramètres
pris en compte par les participants pour construire leur modèle de prédiction.
Un groupe a étudié la récurrence de certains bénéficiaires, si on restreint la
population à ces candidats réguliers, la prédiction est nettement meilleure.
Un centre peut fermer temporairement, les bénéficiaires se répartissent ailleurs,
chez la Croix-Rouge ou chez une autre association. C'est pourquoi il apparaît
plus simple de prédire d'abord sur de grandes régions puis de propager la
prédiction centre par centre. Ce même procédé d'agglomération peut être utilisé pour le
temps : on prédit d'abord à la semaine puis on répartit cette prédiction pour chaque
jour de la semaine. Les séries agrégées sont moins bruitées.
Vidéo
^^^^^
.. youtube:: https://www.youtube.com/watch?v=Y1UKAbbExn8
.. image:: croix_rouge_gd_rvb.jpg
:width: 200
.. image:: MSFT_logo_rgb_C-Gray.png
:width: 200
Photos
^^^^^^
.. image:: h2015_1.jpg
:width: 600
.. image:: h2015_2.jpg
:width: 600
.. image:: h2015_3.jpg
:width: 600
.. image:: h2015_4.jpg
:width: 600
Un visage après une nuit quasiment sans dormir :
.. image:: xd_image.png
:width: 200
Agenda
^^^^^^
Lieu : `Centre de Conference Microsoft `_
Agenda vendredi 27 novembre
* 14h00 - Introduction Pierre-Louis Xech
* 14h05 - Julien Pouget, directeur de l'ENSAE
* 14h15 - Kenji Takeda
* 14h25 - Jean-François Recco, Lauriane Nicol - BioCycle - le monde caritatif et l'importance des données
* 14h35 - Laurent Monnet - Croix-Rouge - présentation et enjeux
* 14h50 - DataForGood - un peu plus sur les données
* 15h05 - Question / Réponses
* 15h25 - tutorials - début du hackathon
* 15h30 - Xavier Dupré - accès aux données
* 15h40 - Benjamin Guinebertière - Azure tutorial
Agenda samedi 28 novembre
* 17h00 - fin du hackathon
* 17h20 - jury
* 18h20 - délibération
* 18h40 - remise des prix
* 20h00 - afterwork