%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')
import pyensae
from pyquickhelper.helpgen import NbImage
from jyquickhelper import add_notebook_menu
add_notebook_menu()

Populating the interactive namespace from numpy and matplotlib


NbImage("cube1.png")


NbImage("cube2.png")


from actuariat_python.data import table_mortalite_euro_stat 
table_mortalite_euro_stat()

'mortalite.txt'


import os
os.stat("mortalite.txt")

os.stat_result(st_mode=33206, st_ino=73183493945221205, st_dev=2797837379, st_nlink=1, st_uid=0, st_gid=0, st_size=104871002, st_atime=1445699900, st_mtime=1445699915, st_ctime=1445699900)


import pandas
df = pandas.read_csv("mortalite.txt", sep="\t", encoding="utf8", low_memory=False)
df.head()


from actuariat_python.data import table_mortalite_euro_stat 
table_mortalite_euro_stat()
import pandas
df = pandas.read_csv("mortalite.txt", sep="\t", encoding="utf8", low_memory=False)
df.columns

Index(['annee', 'valeur', 'age', 'age_num', 'indicateur', 'genre', 'pays'], dtype='object')


df2 = df[["annee", "age_num","indicateur","pays","genre","valeur"]].dropna().reset_index(drop=True)
df.columns, df2.columns

(Index(['annee', 'valeur', 'age', 'age_num', 'indicateur', 'genre', 'pays'], dtype='object'),
 Index(['annee', 'age_num', 'indicateur', 'pays', 'genre', 'valeur'], dtype='object'))


df2.head()


df2["indicateur"] = df2["indicateur"].astype(str)
df2["genre"] = df2["genre"].astype(str)
df2["pays"] = df2["pays"].astype(str)


df2.dtypes

annee           int64
age_num       float64
indicateur     object
pays           object
genre          object
valeur        float64
dtype: object


piv = df2.pivot_table(index=["annee", "age_num","pays","genre"],
                columns=["indicateur"],
               values="valeur")
piv.head()


piv.dtypes

indicateur
DEATHRATE     float64
LIFEXP        float64
PROBDEATH     float64
PROBSURV      float64
PYLIVED       float64
SURVIVORS     float64
TOTPYLIVED    float64
dtype: object


import xarray
ds = xarray.Dataset.from_dataframe(piv)
ds

<xarray.Dataset>
Dimensions:     (age_num: 84, annee: 54, genre: 3, pays: 54)
Coordinates:
  * annee       (annee) int64 1960 1961 1962 1963 1964 1965 1966 1967 1968 ...
  * age_num     (age_num) float64 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 ...
  * pays        (pays) object 'AM' 'AT' 'AZ' 'BE' 'BG' 'BY' 'CH' 'CY' 'CZ' ...
  * genre       (genre) object 'F' 'M' 'T'
Data variables:
    DEATHRATE   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    LIFEXP      (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBDEATH   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBSURV    (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PYLIVED     (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    SURVIVORS   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    TOTPYLIVED  (annee, age_num, pays, genre) float64 nan nan nan nan nan ...


ds.sel(pays=["FR"])

<xarray.Dataset>
Dimensions:     (age_num: 84, annee: 54, genre: 3, pays: 1)
Coordinates:
  * annee       (annee) int64 1960 1961 1962 1963 1964 1965 1966 1967 1968 ...
  * age_num     (age_num) float64 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 ...
  * pays        (pays) object 'FR'
  * genre       (genre) object 'F' 'M' 'T'
Data variables:
    DEATHRATE   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    LIFEXP      (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBDEATH   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBSURV    (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PYLIVED     (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    SURVIVORS   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    TOTPYLIVED  (annee, age_num, pays, genre) float64 nan nan nan nan nan ...


ds.sel(pays=["FR", "BE"])

<xarray.Dataset>
Dimensions:     (age_num: 84, annee: 54, genre: 3, pays: 2)
Coordinates:
  * annee       (annee) int64 1960 1961 1962 1963 1964 1965 1966 1967 1968 ...
  * age_num     (age_num) float64 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 ...
  * pays        (pays) object 'FR' 'BE'
  * genre       (genre) object 'F' 'M' 'T'
Data variables:
    DEATHRATE   (annee, age_num, pays, genre) float64 nan nan nan 0.00159 ...
    LIFEXP      (annee, age_num, pays, genre) float64 nan nan nan 73.7 68.2 ...
    PROBDEATH   (annee, age_num, pays, genre) float64 nan nan nan 0.00159 ...
    PROBSURV    (annee, age_num, pays, genre) float64 nan nan nan 0.9984 ...
    PYLIVED     (annee, age_num, pays, genre) float64 nan nan nan 9.732e+04 ...
    SURVIVORS   (annee, age_num, pays, genre) float64 nan nan nan 9.739e+04 ...
    TOTPYLIVED  (annee, age_num, pays, genre) float64 nan nan nan 7.179e+06 ...


ds.sel(pays="FR", annee=2000)

<xarray.Dataset>
Dimensions:     (age_num: 84, genre: 3)
Coordinates:
    annee       int64 2000
  * age_num     (age_num) float64 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 ...
    pays        object 'FR'
  * genre       (genre) object 'F' 'M' 'T'
Data variables:
    DEATHRATE   (age_num, genre) float64 0.00043 0.00046 0.00044 0.00021 ...
    LIFEXP      (age_num, genre) float64 82.3 74.7 78.5 81.3 73.7 77.6 80.3 ...
    PROBDEATH   (age_num, genre) float64 0.00043 0.00046 0.00044 0.00021 ...
    PROBSURV    (age_num, genre) float64 0.9996 0.9995 0.9996 0.9998 0.9997 ...
    PYLIVED     (age_num, genre) float64 9.957e+04 9.944e+04 9.951e+04 ...
    SURVIVORS   (age_num, genre) float64 9.959e+04 9.947e+04 9.953e+04 ...
    TOTPYLIVED  (age_num, genre) float64 8.196e+06 7.432e+06 7.817e+06 ...


(ds.sel(pays="FR", annee=2010, genre="T")["LIFEXP"] - 
 ds.sel(pays="FR", annee=2000, genre="T")["LIFEXP"]).to_dataframe().head()


(ds.sel(pays="FR", annee=2010, genre=["F","M"])["LIFEXP"] - 
 ds.sel(pays="UK", annee=2010, genre=["F","M"])["LIFEXP"]).to_dataframe().head()


ds.sel(annee=2010,age_num=1,genre="T")["LIFEXP"].to_dataframe() \
            .sort_values("LIFEXP", ascending=False) \
            .plot(y="LIFEXP", kind="bar", figsize=(16,6), ylim=[65,85])

<matplotlib.axes._subplots.AxesSubplot at 0x1bf22320>


ds.sel(annee=2010,genre="T",pays="FR")["LIFEXP"].plot()

[<matplotlib.lines.Line2D at 0x1539ca58>]


ds.assign(LIFEEXP_add = ds.LIFEXP-1)

<xarray.Dataset>
Dimensions:      (age_num: 84, annee: 54, genre: 3, pays: 54)
Coordinates:
  * annee        (annee) int64 1960 1961 1962 1963 1964 1965 1966 1967 1968 ...
  * age_num      (age_num) float64 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 ...
  * pays         (pays) object 'AM' 'AT' 'AZ' 'BE' 'BG' 'BY' 'CH' 'CY' 'CZ' ...
  * genre        (genre) object 'F' 'M' 'T'
Data variables:
    DEATHRATE    (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    LIFEXP       (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBDEATH    (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBSURV     (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PYLIVED      (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    SURVIVORS    (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    TOTPYLIVED   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    LIFEEXP_add  (annee, age_num, pays, genre) float64 nan nan nan nan nan ...


meanp = ds.mean(dim="pays")
ds1, ds2 = xarray.align(ds, meanp, join='outer')


joined = ds1.assign(meanp = ds2["LIFEXP"])


joined.to_dataframe().head()


ds.data_vars

Data variables:
    DEATHRATE   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    LIFEXP      (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBDEATH   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PROBSURV    (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    PYLIVED     (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    SURVIVORS   (annee, age_num, pays, genre) float64 nan nan nan nan nan ...
    TOTPYLIVED  (annee, age_num, pays, genre) float64 nan nan nan nan nan ...


try:
    ds.to_netcdf('mortalite.nc')
except ValueError as e:
    # it breaks with pandas 0.17
    # xarray has to be updated
    print("l'écriture a échoué")
    pass

l'écriture a échoué


import os
if os.path.exists("mortalite.nc"):
    os.stat('mortalite.nc').st_size, os.stat('mortalite.txt').st_size


if os.path.exists("mortalite.nc"):
    ds_lu = xarray.open_dataset('mortalite.nc')
    ds_lu


pays = list(_.values for _ in ds["pays"])
pays[:5]

['AM', 'AT', 'AZ', 'BE', 'BG']


for p in pays[:5]:
    print("enregistre", p)
    d = ds.sel(pays=[p])
    try:
        d.to_netcdf("mortalite_pays_%s.nc" % p)
    except ValueError:
        print("l'écriture a échoué pour", p)

enregistre AM
l'écriture a échoué pour AM
enregistre AT
l'écriture a échoué pour AT
enregistre AZ
l'écriture a échoué pour AZ
enregistre BE
l'écriture a échoué pour BE
enregistre BG
l'écriture a échoué pour BG


import os
if os.path.exists("mortalite_pays_AM.nc"):
    ds_lu2 = xarray.open_mfdataset('mortalite_pays*.nc')
    ds_lu2

			indicateur	DEATHRATE	LIFEXP	PROBDEATH	PROBSURV	PYLIVED	SURVIVORS	TOTPYLIVED
annee	age_num	pays	genre
1960	1	BE	F	0.00159	73.7	0.00159	0.99841	97316	97393	7179465
			M	0.00207	68.2	0.00207	0.99793	96420	96520	6580601
			T	0.00184	70.9	0.00184	0.99816	96856	96945	6874529
		BG	F	0.00652	73.2	0.00650	0.99350	95502	95813	7017023
		BG	M	0.00644	70.0	0.00642	0.99358	94801	95107	6653130

				DEATHRATE	LIFEXP	PROBDEATH	PROBSURV	PYLIVED	SURVIVORS	TOTPYLIVED	meanp
age_num	annee	genre	pays
1	1960	F	AM	NaN	NaN	NaN	NaN	NaN	NaN	NaN	73.52
			AT	NaN	NaN	NaN	NaN	NaN	NaN	NaN	73.52
			AZ	NaN	NaN	NaN	NaN	NaN	NaN	NaN	73.52
			BE	0.00159	73.7	0.00159	0.99841	97316	97393	7179465	73.52
			BG	0.00652	73.2	0.00650	0.99350	95502	95813	7017023	73.52

Cube multidimensionnel - énoncé¶

Représentation¶

Cubes de données avec xarray¶

création¶

sélection¶

Quelques graphes¶

Exercice 1 : que font les lignes suivantes ?¶

Lire, écrire des datasets¶

	annee	valeur	age	age_num	indicateur	genre	pays
0	2009	0.00080	Y01	1	DEATHRATE	F	AM
1	2008	0.00067	Y01	1	DEATHRATE	F	AM
2	2007	0.00052	Y01	1	DEATHRATE	F	AM
3	2006	0.00123	Y01	1	DEATHRATE	F	AM
4	2013	0.00016	Y01	1	DEATHRATE	F	AT

	LIFEXP	genre	pays
age_num
1	2.6	T	FR
2	2.6	T	FR
3	2.6	T	FR
4	2.6	T	FR
5	2.6	T	FR

		LIFEXP	annee
age_num	genre
1	F	2.6	2010
1	M	-0.3	2010
2	F	2.7	2010
2	M	-0.4	2010
3	F	2.7	2010