2A.eco - Mise en pratique des séances 1 et 2 - Utilisation de pandas et visualisation#
Links: notebook
, html, python
, slides, GitHub
Trois exercices pour manipuler les donner, manipulation de texte, données vélib.
from jyquickhelper import add_notebook_menu
add_notebook_menu()
Données#
Les données sont téléchargeables à cette adresse : td2a_eco_exercices_de_manipulation_de_donnees.zip. Le code suivant permet de les télécharger automatiquement.
from pyensae.datasource import download_data
files = download_data("td2a_eco_exercices_de_manipulation_de_donnees.zip",
url="https://github.com/sdpython/ensae_teaching_cs/raw/master/_doc/notebooks/td2a_eco/data/")
files
['.\Players_WC2014.xlsx', '.\velib_t1.txt', '.\velib_t2.txt', '.\villes.txt']
Exercice 1 - manipulation des textes#
Durée : 20 minutes
Importer la base de données relatives aux joueurs de la Coupe du Monde 2014 >>
Players_WC2014.xlsx
Déterminer le nombre de joueurs dans chaque équipe et créer un dictionnaire { équipe : Nombre de joueurs}
Déterminer quels sont les 3 joueurs qui ont couvert le plus de distance. Y a t il un biais de sélection ?
Parmis les joueurs qui sont dans le premier décile des joueurs plus rapides, qui a passé le plus clair de son temps à courrir sans la balle ?
Exercice 2 - Les villes#
Durée : 40 minutes
Importer la base des villes villes.xls
Les noms de variables et les observations contiennent des espaces inutiles (exemple : ‘MAJ’) : commnecer par nettoyer l’ensemble des chaines de caractères (à la fois dans les noms de colonnes et dans les observations)
Trouver le nombre de codes INSEE différents (attention aux doublons)
Comment calculer rapidement la moyenne, le nombre et le maximum pour chaque variable numérique ? (une ligne de code)
Compter le nombre de villes dans chaque Region et en faire un dictionnaire où la clé est la région et la valeur le nombre de villes
Représenter les communes en utilisant
matplotlib
une librairie de cartographie (ex : folium)
Exercice 3 - Disponibilité des vélibs#
Durée : 30 minutes
Importer les données sous la forme d’un dataFrame
velib_t1.txt
- avec les données des stations à un instantvelib_t2.txt
- avec les données des stations à un instant
Représenter la localisation des stations vélib dans Paris
représenter les stations en fonction du nombre de places avec un gradient
Comparer pour une station donnée l’évolution de la disponibilité (en fusionnant les deux bases
et
)
représenter les stations qui ont connu une évolution significative (plus de 5 changements) avec un gradient de couleurs