Trois exercices pour manipuler les donner, manipulation de texte, données vélib.
from jyquickhelper import add_notebook_menu
add_notebook_menu()
Les données sont téléchargeables à cette adresse : td2a_eco_exercices_de_manipulation_de_donnees.zip. Le code suivant permet de les télécharger automatiquement.
from pyensae.datasource import download_data
files = download_data("td2a_eco_exercices_de_manipulation_de_donnees.zip",
url="https://github.com/sdpython/ensae_teaching_cs/raw/master/_doc/notebooks/td2a_eco/data/")
files
['.\\Players_WC2014.xlsx', '.\\velib_t1.txt', '.\\velib_t2.txt', '.\\villes.txt']
Durée : 20 minutes
Players_WC2014.xlsx
Durée : 40 minutes
Importer la base des villes villes.xls
Les noms de variables et les observations contiennent des espaces inutiles (exemple : 'MAJ ') : commnecer par nettoyer l'ensemble des chaines de caractères (à la fois dans les noms de colonnes et dans les observations)
Trouver le nombre de codes INSEE différents (attention aux doublons)
Comment calculer rapidement la moyenne, le nombre et le maximum pour chaque variable numérique ? (une ligne de code)
Compter le nombre de villes dans chaque Region et en faire un dictionnaire où la clé est la région et la valeur le nombre de villes
Représenter les communes en utilisant
Durée : 30 minutes
Importer les données sous la forme d'un dataFrame
velib_t1.txt
- avec les données des stations à un instant $t$velib_t2.txt
- avec les données des stations à un instant $t + 1$Représenter la localisation des stations vélib dans Paris
Comparer pour une station donnée l'évolution de la disponibilité (en fusionnant les deux bases $t$ et $t+1$)