.. index:: ressources, événements, source de données, données
.. _l-ressources:
Ressources, Evénements, Source de données
=========================================
.. index:: Croix-Rouge, opendata, data.gouv.fr, quandl, wikipedia, Letor, WordNet, ImageNet, données, OpenWeatherMap, sources de données
.. contents::
:local:
.. _l-datasources:
Source de données
+++++++++++++++++
**annuaire de données**
* `Data Sources on the Web (MRAN) `_
* `Awesome Public Datasets `_
* `Wikidata `_
* `Where can I find large datasets open to the public? (Quora) `_
**API**
* `données vélib `_
* `API SNCF `_
* `Bing Maps API `_
* `API Geocoding `_ (voir également le module `geopy `_)
* `Dark Sky API `_ (météo, temps passé et futur, payant)
**Jeux de données**
* *banque* `Home Mortgage Disclouse Act `_ (voir `Introducing Blaze - HMDA Practice `_
* *cinéma* `IMDB 5000 Movie Dataset `_
* *climat* `OpenWeatherMap `_
* *climat* `Land-Based Datasets and Products `_,
`Daily Global Weather Measurements, 1929-2009 (NCDC, GSOD) `_,
voir aussi `Daily Global Weather Measurements (http://spatial-analyst.net/) `_
* *climat* `Pangeo Data Catalog `_
* *code* `Evénements GitHub `_ : tous les commit sur GitHub chaque jour (~15.000 commit par jour)
* *consommation* `World Food Facts `_
* *deep*: `Microsoft Research Open Data `_
* *finance* `Daily News for Stock Market Prediction `_
* *images* `ImageNet `_, base de données d'images avec leur contenu
* *ML* `Kaggle Datasets `_
* *ML* `Data Gouv pour le Machine Learning `_
* *ML* `UCI Machine Learning Repository `_
(collection de jeux de données classés par type de problème - régression, classification, ...)
Les jeux **UCI** apparaissent dans de nombreux scientifiques.
* *ML* `Data Science at Microsoft Research `_
* *ML* `Microsoft Research Letor `_
* *ML* `Public data sets for testing and prototyping `_,
`Use the sample datasets in Azure Machine Learning Studio `_
* *ML* `Data Science for Research `_
* *ML* `Ensembles de données publics AWS (Amazon) `_, `AWS Public Data Sets `_
* *ML* `Data Analysis, Modeling and Machine Learning Group `_
* *ML* `List of datasets for machine learning research `_
* *ML-big-santé* `Imagerie médicale, photo de cancers `_
* *ML-big* `Pascal Large Scale Learning Challenge `_
* *ML-big* `170 millions courses de taxi à New-York `_
(via l'article `Building Azure ML Models on the NYC Taxi Dataset `_)
* *ML-deep*: `Open Data for Deep Learning `_
* *ML-graphes* `Stanford Large Network Dataset Collection `_
* *ML-image* `Labeled Faces in the Wild `_ : 1323 images, 5749 personnes, 1680 personnes avec 2 ou plus d'images,
lire `How well do facial recognition algorithms cope with a million strangers? `_
* *ML-recommandations*: `GroupLens Datasets `_
* *ML-text* `urls, spam, ... `_, jeux de données utilisés
comme benchmark pour la libraire `libsvm `_
* *musique* `Semantic Artist Similarity Dataset `_
* *musique* `The Music Matrix – Exploring tags in the Million Song Dataset `_
* *musique* `Audio Content Analysis Datasets `_
* *musique* projets, librairies Python, données sur la musique `LabROSA (Columbia) `_,
`librosa `_, `Music Similarity `_,
`Million Song Dataset `_
* *ONG* `Données Croix-Rouge sur les dons reçus `_
* *politique* `Hillary Clinton's Emails `_
* *santé* `Dépenses d'assurance maladie hors prestations hospitalières par caisse primaire/département `_ (1 Go),
`La démographie des médecins (RPPS) `_
* *santé* `Epidemium `_ : challenge big data sur le cancer (voir `Les challenges `_),
le site référence également un nombre important de jeux de données autour des thèmes liés à la santé `data.epidemium `_
* *santé* `Global Disease Monitoring and Forecasting with Wikipedia `_
* *santé* `MIMIC `_ : base de données de 40.000 patients passés par un service de réanimations,
contient les résultats de plusieurs dizaines de tests par patient, des traitements qui leur ont
été données.
* *santé* `TransPlant `_
* *social* `HappyMeal `_
* *sports* `European Soccer Database `_
* *texte* `soTweet: Studying Twitter at Scale `_: base de 500 millions de tweets et 23 milliards de liens
* *texte* `WordNet `_, base de données anglaises sur le vocabulaire, la grammaire, les synonymes...
* *texte* `dump wikipedia `_
* *texte* `SQuAD The Stanford Question Answering Dataset `_
* *texte* `Multi-Domain Sentiment Dataset (version 2.0) `_
* *vidéo* `Jiku `_, vidéo d'événements, de concerts
* *vidéo* `YouTube 8M `_, 8 millions de vidéo YouTube par Google
* *vidéo* `YouTube 1M Sports `_, 1 millions de vidéo annotées
* autres pistes: `Where can I find large datasets open to the public? `_
**Graphiques, cartes**
* `Geonames `_
**moteurs de recherches sur les données**
* `data.gouv.fr `_, `INSEE `_
* `opendata Paris `_ (presque toutes les villes ont maintenant un site open data, il suffit de chercher avec un moteur de recherche `opendata + ville `_ pour le trouver)
* `data-publica `_
* `data.epidemium `_
* `Quandl `_ (et son module python `quandl `_, `quandl/API `_,)
* `Datahub `_
* `AWS Public Data Sets `_ (Amazon)
(voir `Using Public Data Sets `_ et
`boto `_)
* `UN ComTrade `_ : United Nations Commodity Trade Statistics Database
* `MusicBrainz Database `_
**annuaire de données**
* `Data Sources on the Web (MRAN) `_
* `Awesome Public Datasets `_
* `Wikidata `_
Compétition, Codes
++++++++++++++++++
.. index:: stackoverflow
Code
^^^^
* `nullege `_ : moteur de recherche dédié au code Python
* `stackoverflow `_ : forum d'échanges sur des questions de code
* `stackexchange `_ : liste de forums d'échanges autour de sujets scientifiques appliqués, dont
`datascience stackexchange `_,
`mathoverflow `_,
`tex, latex `_,
`Web Apps `_,
`Computer Science Theory `_,
`Scientific Computation `_,
`Computer Science `_,
`Chess `_,
`Open Data `_,
`Software Recommendations `_,
`forum sur la langue française `_
Puzzle, Enigme, Jeux
^^^^^^^^^^^^^^^^^^^^
* `Code Golf `_
* `Puzzle Stack Exchange `_
* `Google Code Jam `_
* `HackerRank `_
* `Coding Game `_
.. index:: Kagle, datascience, challenge, compétition
Compétitions Machine Learning
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
* `datascience.net `_
* `kaggle `_
* `Data Challenges Paris `_
* `Challenge Data (MVA) `_ :
compétitions supervisées par les professeurs du master
`MVA `_.
.. index:: meetup, Data Tuesday, Data For Good
Evénements, Médias
++++++++++++++++++
Evénements réguliers
^^^^^^^^^^^^^^^^^^^^
* `Data Tuesday `_
* `Big Data Meetup Paris `_, voir aussi `search page `_
* `Paris Startup Job Fair `_ (a lieu régulièrement au `104 à Paris `_)
* `Paris Datageeks `_
* `Data For Good - FR `_
.. index:: conférence, communauté, pydata, pycon, pyvideo, tutoral, vidéo
Conférences, Communautés
^^^^^^^^^^^^^^^^^^^^^^^^
* `PyCon `_
* `PyData `_
.. index:: Agoranov, Microsoft, TekTos, numa
Incubateurs
+++++++++++
* `Agoranov `_ (Paris)
* `Microsoft Spark `_ (Paris)
* `TekTos `_
* `Le Top des incubateurs et accélérateurs de start-up à Paris `_
* `numa `_ (Paris)