:orphan: .. _l-notebooks: Galleries de notebooks ====================== :ref:`l-notebooks-coverage` .. contents:: :depth: 1 :local: Découvertes +++++++++++ Quelques notebooks autour de modules très utiles. .. toctree:: :maxdepth: 1 :hidden: notebooks/pandas_start notebooks/geopandas .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/pandas_start.thumb.png :target: notebooks/pandas_start.html - :ref:`pandasstartrst` - Un Data Frame est un objet qui est présent dans la plupart des logiciels de traitements de données, c’est une matrice à 2 dimensions, chaque colonne a un type et toutes les cellules de cette colonne sont de ce type (nombre, dates, texte). Une cellule peut contenir une valeur manquante. On peut considérer chaque colonne comme les variables d’une table (pandas.Dataframe - cette page contient toutes les méthodes de la classe). * - .. image:: /notebooks/geopandas.thumb.png :target: notebooks/geopandas.html - :ref:`geopandasrst` - geopandas est devenu le point d'entrée à tout traitement lié aux coordonnées géographiques. Examens +++++++ Solutions des exercices servant à l'évaluation de ce cursus. .. toctree:: :maxdepth: 1 :hidden: notebooks/solution_2017 notebooks/enonce_2017 notebooks/solution_2016 .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/solution_2017.thumb.png :target: notebooks/solution_2017.html - :ref:`solution2017rst` - Le répertoire data contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d'un notebook envoyé en pièce jointe d'un mail. * - .. image:: /notebooks/enonce_2017.thumb.png :target: notebooks/enonce_2017.html - :ref:`enonce2017rst` - Le répertoire data contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d'un notebook envoyé en pièce jointe d'un mail. * - .. image:: /notebooks/solution_2016.thumb.png :target: notebooks/solution_2016.html - :ref:`solution2016rst` - Solution de l'énoncé noté d'avril 2016 (lecture de gros fichiers avec pandas). Voir examens. Exemples ++++++++ Quelques astuces récurrentes. .. toctree:: :maxdepth: 1 :hidden: notebooks/basic_example notebooks/tables_avec_guillemets .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/basic_example.thumb.png :target: notebooks/basic_example.html - :ref:`basicexamplerst` - Exemple très simple permettant de créer un dataframe. * - .. image:: /notebooks/tables_avec_guillemets.thumb.png :target: notebooks/tables_avec_guillemets.html - :ref:`tablesavecguillemetsrst` - Le fichier de données à gérer contient quelques désagrément avec des guillements qui gênent la lecture lorsqu'on applique les exemples donnés par la documentation de pandas. Exercices +++++++++ Exerices pour pratiquer. .. toctree:: :maxdepth: 1 :hidden: notebooks/seance_6_fevrier notebooks/seance_6_mars notebooks/pyramide_bigarree .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/seance_6_fevrier.thumb.png :target: notebooks/seance_6_fevrier.html - :ref:`seance6fevrierrst` - ## numpy * - .. image:: /notebooks/seance_6_mars.thumb.png :target: notebooks/seance_6_mars.html - :ref:`seance6marsrst` - ## régression * - .. image:: /notebooks/pyramide_bigarree.thumb.png :target: notebooks/pyramide_bigarree.html - :ref:`pyramidebigarreerst` - Ce notebook est la réponse à l'exercice proposé lors de l'article de blog qui consiste à afficher des boules de trois couleurs différentes de sorte qu'aucune boule n'est de voisine de la même couleur : tracer une pyramide bigarrée. Internet ++++++++ Automatisation de traitements avec des données récupérées depuis Internet. .. toctree:: :maxdepth: 1 :hidden: notebooks/wikipedia_stats_correction2 notebooks/wikipedia_stats_correction notebooks/wikipedia_stats_enonce .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/wikipedia_stats_correction2.thumb.png :target: notebooks/wikipedia_stats_correction2.html - :ref:`wikipediastatscorrection2rst` - Récupération de données wikipedia Correction effectué le 4 octobre 2016. * - .. image:: /notebooks/wikipedia_stats_correction.thumb.png :target: notebooks/wikipedia_stats_correction.html - :ref:`wikipediastatscorrectionrst` - Parallélisation de la récupération de fichiers de données depuis wikipédia. * - .. image:: /notebooks/wikipedia_stats_enonce.thumb.png :target: notebooks/wikipedia_stats_enonce.html - :ref:`wikipediastatsenoncerst` - On s'instéresse aux statistiques de consultations de Wikipédia : pageviews. Ce TD commence par récupération des données avant de s'intéresser aux séries temporelles. nlp --- .. toctree:: :maxdepth: 1 :hidden: notebooks/reconstruction_synonymes_correction notebooks/reconstruction_synonymes_enonce .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/reconstruction_synonymes_correction.thumb.png :target: notebooks/reconstruction_synonymes_correction.html - :ref:`reconstructionsynonymescorrectionrst` - On s'intéresse la construction automatiquement de synonymes. En résumé : * - .. image:: /notebooks/reconstruction_synonymes_enonce.thumb.png :target: notebooks/reconstruction_synonymes_enonce.html - :ref:`reconstructionsynonymesenoncerst` - Ce notebook est plus un jeu. On récupère d'abord des synonymes via la base WOLF. On ne garde que les synonymes composé d'un seul mot. On prend ensuite un texte quelconque qu'on découpe en phrase. Pour chaque phrase qu'on rencontre, on remplace des mots au hasard par leur synonymes. Chaque phrase sera présente une fois à l'identique et plusieurs fois avec des synonymes différents. L'objectif est alors de proposer une méthode pour reconstruire la base de synonymes. Supports pour les sessions réalisées à l'Institut des actuaiaires +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Simulation de population, études statistiques, machine learning, à partir de données publiques. .. toctree:: :maxdepth: 1 :hidden: notebooks/seance5_cube_multidimensionnel_correction notebooks/seance5_cube_multidimensionnel_enonce notebooks/seance5_sql_multidimensionnelle_correction notebooks/seance5_sql_multidimensionnelle_enonce notebooks/seance5_approche_fonctionnelle_correction notebooks/seance5_approche_fonctionnelle_enonce notebooks/election_carte_electorale_correction notebooks/election_carte_electorale notebooks/seance4_projection_population_correction notebooks/seance4_projection_population_enonce notebooks/seance6_graphes_correction notebooks/seance6_graphes_enonce notebooks/seance6_graphes_ml_correction notebooks/seance6_graphes_ml_enonce notebooks/population_recuperation_donnees notebooks/2017_session6 notebooks/bigdata_ways .. list-table:: :header-rows: 0 :widths: 3 5 15 * - .. image:: /notebooks/seance5_cube_multidimensionnel_correction.thumb.png :target: notebooks/seance5_cube_multidimensionnel_correction.html - :ref:`seance5cubemultidimensionnelcorrectionrst` - Manipulation de tables de mortalités façon OLAP, correction des exercices. * - .. image:: /notebooks/seance5_cube_multidimensionnel_enonce.thumb.png :target: notebooks/seance5_cube_multidimensionnel_enonce.html - :ref:`seance5cubemultidimensionnelenoncerst` - Ce notebook aborde différentes solutions pour traiter les données qu'on représente plus volontiers en plusieurs dimensions. Le mot-clé associé est OLAP ou cube OLAP. Mondrian est une solution open source, cubes est écrit en python. Kylin propose ce service sur des données stockées sur Hadoop. L'objectif est ici de découvrir pas d'explorer ces solutions. * - .. image:: /notebooks/seance5_sql_multidimensionnelle_correction.thumb.png :target: notebooks/seance5_sql_multidimensionnelle_correction.html - :ref:`seance5sqlmultidimensionnellecorrectionrst` - Correction de la séance sur l'utilisation du SQL depuis un notebook. * - .. image:: /notebooks/seance5_sql_multidimensionnelle_enonce.thumb.png :target: notebooks/seance5_sql_multidimensionnelle_enonce.html - :ref:`seance5sqlmultidimensionnelleenoncerst` - Ce notebook propose l'utilisation de SQL avec SQLite pour manipuler les données depuis un notebook (avec le module sqlite3. * - .. image:: /notebooks/seance5_approche_fonctionnelle_correction.thumb.png :target: notebooks/seance5_approche_fonctionnelle_correction.html - :ref:`seance5approchefonctionnellecorrectionrst` - Correction de l'approche fonctionnelle. Elle s'appuie principalement sur des itérateurs et le module cytoolz. * - .. image:: /notebooks/seance5_approche_fonctionnelle_enonce.thumb.png :target: notebooks/seance5_approche_fonctionnelle_enonce.html - :ref:`seance5approchefonctionnelleenoncerst` - L'approche fonctionnelle est une façon de traiter les données en ne conservant qu'une petite partie en mémoire. D'une manière générale, cela s'applique à tous les calculs qu'on peut faire avec le langage SQL. Le notebook utilisera des données issues d'une table de mortalité extraite de table de mortalité de 1960 à 2010 (*le lien est cassé car data-publica ne fournit plus ces données, le notebook récupère une copie*) qu'on récupère à l'aide de la fonction table_mortalite_euro_stat. * - .. image:: /notebooks/election_carte_electorale_correction.thumb.png :target: notebooks/election_carte_electorale_correction.html - :ref:`electioncarteelectoralecorrectionrst` - Bidouiller les cartes électorales n'est pas facile mais il n'est pas nécessaire d'être très efficace pour orienter la décision dans un sens ou dans l'autre. L'idée principale consiste à bouger des électeurs d'une circoncription à l'autre pour favoriser les candidats d'un seul parti. Il faut que ces candidats sont élus avec une majorité suffisante tandis que les candidats adversaires doivent l'être avec une grande majorité. C'est une façon de donner plus d'importance aux voix d'un seul parti car elles annulent celles des autres. L'objectif visé est la préparation d'une prochaine élection à partir des résultats de la précédente sans que cela se voit trop. Mais nous pourrions essayer de faire basculer les résultats d'une élection dans un camp ou dans l'autre. * - .. image:: /notebooks/election_carte_electorale.thumb.png :target: notebooks/election_carte_electorale.html - :ref:`electioncarteelectoralerst` - D'après wikipédia, le Gerrymandering est un terme politique nord-américain pour désigner le découpage des circonscriptions électorales ayant pour objectif de donner l’avantage à un parti, un candidat, ou un groupe donné. Et c'est ce que nous allons faire dans cette séance. C'est un problème tout-à-fait d'actualité : Primaire de la droite : 10 228 bureaux de vote stratégiquement répartis. * - .. image:: /notebooks/seance4_projection_population_correction.thumb.png :target: notebooks/seance4_projection_population_correction.html - :ref:`seance4projectionpopulationcorrectionrst` - Evolution d'une population à partir des tables de mortalités et d'une situation initiale. * - .. image:: /notebooks/seance4_projection_population_enonce.thumb.png :target: notebooks/seance4_projection_population_enonce.html - :ref:`seance4projectionpopulationenoncerst` - On souhaite ici faire évoluer une population à partir de table de mortalité et d'une situation initiale. Dans ce type d'exercice, on fait souvent un grand nombre de recherche internet pour trouver la fonction qui permet d'aller vite. Avec la pratique, on retient le nom de ces méthodes. La correction propose une solution mais il n'existe pas une façon unique de répondre à ces questions. * - .. image:: /notebooks/seance6_graphes_correction.thumb.png :target: notebooks/seance6_graphes_correction.html - :ref:`seance6graphescorrectionrst` - Correction des exercices sur les graphes avec matplotlib. * - .. image:: /notebooks/seance6_graphes_enonce.thumb.png :target: notebooks/seance6_graphes_enonce.html - :ref:`seance6graphesenoncerst` - Ce notebook introduit matplotlib et d'autres modules Python qui permettent de tracer des graphes et bâtis sur la même logique que matplotlib. * - .. image:: /notebooks/seance6_graphes_ml_correction.thumb.png :target: notebooks/seance6_graphes_ml_correction.html - :ref:`seance6graphesmlcorrectionrst` - Correction (en cours de rédaction) des exercices autour des graphes courants en machine learning. * - .. image:: /notebooks/seance6_graphes_ml_enonce.thumb.png :target: notebooks/seance6_graphes_ml_enonce.html - :ref:`seance6graphesmlenoncerst` - Ce notebook propose une série de graphes qu'on utilise fréquemment dans un notebook lorsqu'on fait du machine learning. Cela comprend notamment la courbe ROC pour les problèmes de classification. * - .. image:: /notebooks/population_recuperation_donnees.thumb.png :target: notebooks/population_recuperation_donnees.html - :ref:`populationrecuperationdonneesrst` - Ce notebook donne quelques exemples de codes qui permettent de récupérer les données utilisées par d'autres notebooks. Le module actuariat_python est implémenté avec Python 3. Pour les utilisateurs de Python 2.7, il suffira de recopier le code chaque fonction dans le notebook (suivre les liens insérés dans le notebook). * - .. image:: /notebooks/2017_session6.thumb.png :target: notebooks/2017_session6.html - :ref:`2017session6rst` - Découverte des trois problèmes de machine learning exposé dans l'article Machine Learning - session 6. * - .. image:: /notebooks/bigdata_ways.thumb.png :target: notebooks/bigdata_ways.html - :ref:`bigdatawaysrst` - Découverte de plusieurs façons de calculer des statistiques sur des fichiers volumineux. .. toctree:: :hidden: all_notebooks_coverage