.. _td2aecosqlrst:

=================================
2A.eco - Python et la logique SQL
=================================


.. only:: html

    **Links:** :download:`notebook <td2a_eco_sql.ipynb>`, :downloadlink:`html <td2a_eco_sql2html.html>`, :download:`python <td2a_eco_sql.py>`, :downloadlink:`slides <td2a_eco_sql.slides.html>`, :githublink:`GitHub|_doc/notebooks/td2a_eco/td2a_eco_sql.ipynb|*`


`SQL <https://fr.wikipedia.org/wiki/Structured_Query_Language>`__ permet
de créer des tables, de rechercher, d’ajouter, de modifier ou de
supprimer des données dans les bases de données. Un peu ce que vous
ferez bientôt tous les jours. C’est un langage de management de données,
pas de nettoyage, d’analyse ou de statistiques avancées.

.. code:: ipython3

    from jyquickhelper import add_notebook_menu
    add_notebook_menu()


.. contents::
    :local:


Les instructions SQL s’écrivent d’une manière qui ressemble à celle de
phrases ordinaires en anglais. Cette ressemblance voulue vise à
faciliter l’apprentissage et la lecture. Il est néanmoins important de
respecter un ordre pour les différentes instructions.

Dans ce TD, nous allons écrire des commandes en SQL via Python.

Pour plus de précisions sur SQL et les commandes qui existent,
rendez-vous là `SQL, PRINCIPES DE
BASE <http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/ext2a/sql_doc.html>`__.

Se connecter à une base de données
----------------------------------

A la différence des tables qu’on utilise habituellement, la base de
données n’est pas visible directement en ouvrant Excel ou un éditeur de
texte. Pour avoir une vue de ce que contient la base de données, il est
nécessaire d’avoir un autre type de logiciel.

Pour le TD, nous vous recommandans d’installer SQLLiteSpy (disponible à
cette adresse
`SqliteSpy <http://www.yunqa.de/delphi/products/sqlitespy/index>`__ ou
`sqlite_bro <https://pypi.python.org/pypi/sqlite_bro>`__ si vous voulez
voir à quoi ressemble les données avant de les utiliser avec Python.

.. code:: ipython3

    import sqlite3
    # on va se connecter à une base de données SQL vide
    # SQLite stocke la BDD dans un simple fichier
    filepath = "./DataBase.db"
    open(filepath, 'w').close() #crée un fichier vide
    CreateDataBase = sqlite3.connect(filepath)
    
    QueryCurs = CreateDataBase.cursor()

La méthode
`cursor <https://docs.python.org/3.5/library/sqlite3.html#sqlite3.Connection.cursor>`__
est un peu particulière :

Il s’agit d’une sorte de tampon mémoire intermédiaire, destiné à
mémoriser temporairement les données en cours de traitement, ainsi que
les opérations que vous effectuez sur elles, avant leur transfert
définitif dans la base de données. Tant que la méthode
`commit <https://docs.python.org/3.5/library/sqlite3.html#sqlite3.Connection.commit>`__
n’aura pas été appelée, aucun ordre ne sera appliqué à la base de
données.

--------------

A présent que nous sommes connectés à la base de données, on va créer
une table qui contient plusieurs variables de format différents - ID
sera la clé primaire de la base - Nom, Rue, Ville, Pays seront du text -
Prix sera un réel

.. code:: ipython3

    # On définit une fonction de création de table
    def CreateTable(nom_bdd):
        QueryCurs.execute('''CREATE TABLE IF NOT EXISTS ''' + nom_bdd + '''
        (id INTEGER PRIMARY KEY, Name TEXT,City TEXT, Country TEXT, Price REAL)''')
    
    # On définit une fonction qui permet d'ajouter des observations dans la table    
    def AddEntry(nom_bdd, Nom,Ville,Pays,Prix):
        QueryCurs.execute('''INSERT INTO ''' + nom_bdd + ''' 
        (Name,City,Country,Price) VALUES (?,?,?,?)''',(Nom,Ville,Pays,Prix))
        
    def AddEntries(nom_bdd, data):
        """ data : list with (Name,City,Country,Price) tuples to insert
        """
        QueryCurs.executemany('''INSERT INTO ''' + nom_bdd + ''' 
        (Name,City,Country,Price) VALUES (?,?,?,?)''',data)
        
        
    ### On va créer la table clients
    
    CreateTable('Clients')
    
    AddEntry('Clients','Toto','Munich','Germany',5.2)
    AddEntries('Clients',
        [('Bill','Berlin','Germany',2.3),
        ('Tom','Paris','France',7.8),
        ('Marvin','Miami','USA',15.2),
        ('Anna','Paris','USA',7.8)])
    
    # on va "commit" c'est à dire qu'on va valider la transaction. 
    # > on va envoyer ses modifications locales vers le référentiel central - la base de données SQL
    
    CreateDataBase.commit()

Voir la table
~~~~~~~~~~~~~

Pour voir ce qu’il y a dans la table, on utilise un premier Select où on
demande à voir toute la table

.. code:: ipython3

    QueryCurs.execute('SELECT * FROM Clients')
    Values = QueryCurs.fetchall()
    print(Values)


.. parsed-literal::
    [(1, 'Toto', 'Munich', 'Germany', 5.2), (2, 'Bill', 'Berlin', 'Germany', 2.3), (3, 'Tom', 'Paris', 'France', 7.8), (4, 'Marvin', 'Miami', 'USA', 15.2), (5, 'Anna', 'Paris', 'USA', 7.8)]


Passer en pandas
~~~~~~~~~~~~~~~~

Rien de plus simple : plusieurs manières de faire

.. code:: ipython3

    import pandas as pd
    # méthode SQL Query
    df1 = pd.read_sql_query('SELECT * FROM Clients', CreateDataBase)
    print("En utilisant la méthode read_sql_query \n", df1.head(), "\n")
    
    
    #méthode DataFrame en utilisant la liste issue de .fetchall()
    df2 = pd.DataFrame(Values, columns=['ID','Name','City','Country','Price'])
    print("En passant par une DataFrame \n", df2.head())


.. parsed-literal::
    En utilisant la méthode read_sql_query 
        id    Name    City  Country  Price
    0   1    Toto  Munich  Germany    5.2
    1   2    Bill  Berlin  Germany    2.3
    2   3     Tom   Paris   France    7.8
    3   4  Marvin   Miami      USA   15.2
    4   5    Anna   Paris      USA    7.8 
    En passant par une DataFrame 
        ID    Name    City  Country  Price
    0   1    Toto  Munich  Germany    5.2
    1   2    Bill  Berlin  Germany    2.3
    2   3     Tom   Paris   France    7.8
    3   4  Marvin   Miami      USA   15.2
    4   5    Anna   Paris      USA    7.8


Comparaison SQL et pandas
-------------------------

SELECT
~~~~~~

En SQL, la sélection se fait en utilisant des virgules ou \* si on veut
sélectionner toutes les colonnes

.. code:: ipython3

    # en SQL
    QueryCurs.execute('SELECT ID,City FROM Clients LIMIT 2')
    Values = QueryCurs.fetchall()
    print(Values)


.. parsed-literal::
    [(1, 'Munich'), (2, 'Berlin')]


En pandas, la sélection de colonnes se fait en donnant une liste

.. code:: ipython3

    #sur la table
    df2[['ID','City']].head(2)


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ID</th>
          <th>City</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>0</th>
          <td>1</td>
          <td>Munich</td>
        </tr>
        <tr>
          <th>1</th>
          <td>2</td>
          <td>Berlin</td>
        </tr>
      </tbody>
    </table>
    </div>


WHERE
~~~~~

En SQL, on utilise WHERE pour filtrer les tables selon certaines
conditions

.. code:: ipython3

    QueryCurs.execute('SELECT * FROM Clients WHERE City=="Paris"')
    print(QueryCurs.fetchall())


.. parsed-literal::
    [(3, 'Tom', 'Paris', 'France', 7.8), (5, 'Anna', 'Paris', 'USA', 7.8)]


Avec Pandas, on peut utiliser plusieurs manières de faire : - avec un
booléen - en utilisant la méthode ‘query’

.. code:: ipython3

    df2[df2['City'] == "Paris"]


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ID</th>
          <th>Name</th>
          <th>City</th>
          <th>Country</th>
          <th>Price</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2</th>
          <td>3</td>
          <td>Tom</td>
          <td>Paris</td>
          <td>France</td>
          <td>7.8</td>
        </tr>
        <tr>
          <th>4</th>
          <td>5</td>
          <td>Anna</td>
          <td>Paris</td>
          <td>USA</td>
          <td>7.8</td>
        </tr>
      </tbody>
    </table>
    </div>


.. code:: ipython3

    df2.query('City == "Paris"')


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ID</th>
          <th>Name</th>
          <th>City</th>
          <th>Country</th>
          <th>Price</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>2</th>
          <td>3</td>
          <td>Tom</td>
          <td>Paris</td>
          <td>France</td>
          <td>7.8</td>
        </tr>
        <tr>
          <th>4</th>
          <td>5</td>
          <td>Anna</td>
          <td>Paris</td>
          <td>USA</td>
          <td>7.8</td>
        </tr>
      </tbody>
    </table>
    </div>


Pour mettre plusieurs conditions, on utilise : - & en Python, AND en SQL
- \| en python, OR en SQL

.. code:: ipython3

    QueryCurs.execute('SELECT * FROM Clients WHERE City=="Paris" AND Country == "USA"')
    print(QueryCurs.fetchall())


.. parsed-literal::
    [(5, 'Anna', 'Paris', 'USA', 7.8)]


.. code:: ipython3

    df2.query('City == "Paris" & Country == "USA"')
    
    df2[(df2['City'] == "Paris") & (df2['Country'] == "USA")]


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ID</th>
          <th>Name</th>
          <th>City</th>
          <th>Country</th>
          <th>Price</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>4</th>
          <td>5</td>
          <td>Anna</td>
          <td>Paris</td>
          <td>USA</td>
          <td>7.8</td>
        </tr>
      </tbody>
    </table>
    </div>


GROUP BY
--------

En pandas, l’opération GROUP BY de SQL s’effectue avec une méthode
similaire :
`groupby <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html>`__

`groupby <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html>`__
sert à regrouper des observations en groupes selon les modalités de
certaines variables en appliquant une fonction d’aggrégation sur
d’autres variables.

.. code:: ipython3

    QueryCurs.execute('SELECT Country, count(*)  FROM Clients GROUP BY Country')
    print(QueryCurs.fetchall())


.. parsed-literal::
    [('France', 1), ('Germany', 2), ('USA', 2)]


Attention, en pandas, la fonction
`count <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.count.html?highlight=count#pandas.core.groupby.DataFrameGroupBy.count>`__
ne fait pas la même chose qu’en SQL.
`count <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.count.html?highlight=count#pandas.core.groupby.DataFrameGroupBy.count>`__
s’applique à toutes les colonnes et compte toutes les observations non
nulles.

.. code:: ipython3

    df2.groupby('Country').count()


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>ID</th>
          <th>Name</th>
          <th>City</th>
          <th>Price</th>
        </tr>
        <tr>
          <th>Country</th>
          <th></th>
          <th></th>
          <th></th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>France</th>
          <td>1</td>
          <td>1</td>
          <td>1</td>
          <td>1</td>
        </tr>
        <tr>
          <th>Germany</th>
          <td>2</td>
          <td>2</td>
          <td>2</td>
          <td>2</td>
        </tr>
        <tr>
          <th>USA</th>
          <td>2</td>
          <td>2</td>
          <td>2</td>
          <td>2</td>
        </tr>
      </tbody>
    </table>
    </div>


Pour réaliser la même chose qu’en SQL, il faut utiliser la méthode
`size <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.size.html?highlight=size#pandas.core.groupby.DataFrameGroupBy.size>`__.

.. code:: ipython3

    df2.groupby('Country').size()


.. parsed-literal::
    Country
    France     1
    Germany    2
    USA        2
    dtype: int64


On peut aussi appliquer des fonctions plus sophistiquées lors d’un
`groupby <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html>`__

.. code:: ipython3

    QueryCurs.execute('SELECT Country, AVG(Price), count(*)  FROM Clients GROUP BY Country')
    print(QueryCurs.fetchall())


.. parsed-literal::
    [('France', 7.8, 1), ('Germany', 3.75, 2), ('USA', 11.5, 2)]


Avec pandas, on peut appeler les fonctions classiques de
`numpy <http://www.numpy.org/>`__

.. code:: ipython3

    import numpy as np
    df2.groupby('Country').agg({'Price': np.mean, 'Country': np.size})


.. raw:: html

    <div>
    <table border="1" class="dataframe">
      <thead>
        <tr style="text-align: right;">
          <th></th>
          <th>Price</th>
          <th>Country</th>
        </tr>
        <tr>
          <th>Country</th>
          <th></th>
          <th></th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <th>France</th>
          <td>7.80</td>
          <td>1</td>
        </tr>
        <tr>
          <th>Germany</th>
          <td>3.75</td>
          <td>2</td>
        </tr>
        <tr>
          <th>USA</th>
          <td>11.50</td>
          <td>2</td>
        </tr>
      </tbody>
    </table>
    </div>


Ou utiliser des fonctions
`lambda <https://docs.python.org/3/tutorial/controlflow.html#lambda-expressions>`__.

.. code:: ipython3

    # par exemple calculer le prix moyen et le multiplier par 2
    df2.groupby('Country')['Price'].apply(lambda x: 2*x.mean())


.. parsed-literal::
    Country
    France     15.6
    Germany     7.5
    USA        23.0
    Name: Price, dtype: float64


.. code:: ipython3

    QueryCurs.execute('SELECT Country, 2*AVG(Price) FROM Clients GROUP BY Country').fetchall()


.. parsed-literal::
    [('France', 15.6), ('Germany', 7.5), ('USA', 23.0)]


.. code:: ipython3

    QueryCurs.execute('SELECT * FROM Clients WHERE Country == "Germany"')
    print(QueryCurs.fetchall())
    QueryCurs.execute('SELECT * FROM Clients WHERE City=="Berlin" AND Country == "Germany"')
    print(QueryCurs.fetchall())
    QueryCurs.execute('SELECT * FROM Clients WHERE Price BETWEEN 7 AND 20')
    print(QueryCurs.fetchall())


.. parsed-literal::
    [(1, 'Toto', 'Munich', 'Germany', 5.2), (2, 'Bill', 'Berlin', 'Germany', 2.3)]
    [(2, 'Bill', 'Berlin', 'Germany', 2.3)]
    [(3, 'Tom', 'Paris', 'France', 7.8), (4, 'Marvin', 'Miami', 'USA', 15.2), (5, 'Anna', 'Paris', 'USA', 7.8)]


Enregistrer une table SQL sous un autre format
----------------------------------------------

On utilise le package csv, l’option ‘w’ pour ‘write’.

On crée l’objet “writer”, qui vient du package csv.

Cet objet a deux méthodes : - writerow pour les noms de colonnes : une
liste - writerows pour les lignes : un ensemble de liste

.. code:: ipython3

    data = QueryCurs.execute('SELECT * FROM Clients')
    
    import csv
    
    with open('./output.csv', 'w') as file:
        writer = csv.writer(file)
        writer.writerow(['id','Name','City','Country','Price'])
        writer.writerows(data)

On peut également passer par un DataFrame pandas et utiliser .to_csv()

.. code:: ipython3

    QueryCurs.execute('''DROP TABLE Clients''')
    QueryCurs.close()

Exercice
========

Dans cet exercice, nous allons manipuler les tables de la base de
données World.

Avant tout, télechargez le fichier et connectez vous à la base de
données en utilisant
`sqlite3 <https://docs.python.org/3/library/sqlite3.html?highlight=sqlite3#module-sqlite3>`__
et
`connect <https://docs.python.org/3/library/sqlite3.html?highlight=sqlite3#sqlite3.connect>`__.

Familiarisez vous avec la base de données : - quelles sont les tables ?
- quelles sont les variables de ces tables ? - utilisez la fonction
PRAGMA pour obtenir des informations sur les tables

Question 1
----------


-  Quels sont les 10 pays qui ont le plus de langues ?
-  Quelle langue est présente dans le plus de pays ?


Question 2
----------


-  Quelles sont les différentes formes de gouvernements dans les pays du
   monde ?
-  Quels sont les 3 gouvernements où la population est la plus
   importante ?


Question 3
----------

-  Combien de pays ont Elisabeth II à la tête de leur gouvernement ?

-  Quelle proporition des sujets de Sa Majesté ne parlent pas anglais ?

   -  78 % ou 83% ?


Question 4 - passons à Pandas
-----------------------------

Créer une DataFrame qui contient les informations suivantes par pays : -
le nom - le code du pays - le nombre de langues parlées - le nombre de
langues officielles - la population - le GNP - l’espérance de vie

**Indice : utiliser la commande pd.read_sql_query**

Que dit la matrice de corrélation de ces variables ?