# 1A.1 - Calculer un chi 2 sur un tableau de contingence

$\chi_2$ et tableau de contingence, avec *numpy*, avec *scipy* ou sans.

In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## formule

Le test du $\chi_2$ ([wikipedia](https://fr.wikipedia.org/wiki/Test_du_%CF%87%C2%B2)) sert à comparer deux distributions. Il peut être appliqué sur un [tableau de contingence](https://fr.wikipedia.org/wiki/Test_du_%CF%87%C2%B2#Test_du_.CF.87.C2.B2_d.27ind.C3.A9pendance) pour comparer la distributions observée avec la distribution qu'on observerait si les deux facteurs du tableau étaient indépendants. On note $M=(m_{ij})$ une matrice de dimension $I \times J$. Le test du $\chi_2$ se calcule comme suit :

* $M = \sum_{ij} m_{ij}$
* $\forall i, \; m_{i \bullet} = \sum_j m_{ij}$
* $\forall j, \; m_{\bullet j} = \sum_i m_{ij}$
* $\forall i,j \; n_{ij} = \frac{m_{i \bullet} m_{\bullet j}}{N}$

Avec ces notations :

$$T = \sum_{ij} \frac{ (m_{ij} - n_{ij})^2}{n_{ij}}$$

La variable aléatoire $T$ suit asymptotiquement une loi du $\chi_2$ à $(I-1)(J-1)$ degrés de liberté ([table](http://www.apprendre-en-ligne.net/random/tablekhi2.html)). Comment le calculer avec [numpy](http://www.numpy.org/) ?

## tableau au hasard

On prend un petit tableau qu'on choisit au hasard, de préférence non carré pour détecter des erreurs de calculs.

In [2]:
import numpy
M = numpy.array([[4, 5, 2, 1],
                 [6, 3, 1, 7],
                 [10, 14, 6, 9]])
M

array([[ 4,  5,  2,  1],
       [ 6,  3,  1,  7],
       [10, 14,  6,  9]])

## calcul avec scipy

Evidemment, il existe une fonction en python qui permet de calculer la statistique $T$ : [chi2_contingency](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.chi2_contingency.html).

In [3]:
from scipy.stats import chi2_contingency
chi2, pvalue, degrees, expected = chi2_contingency(M)
chi2, degrees, pvalue

(6.1685985038926212, 6, 0.40457120905808314)

## calcul avec numpy

In [4]:
N = M.sum()
ni = numpy.array( [M[i,:].sum() for i in range(M.shape[0])] )
nj = numpy.array( [M[:,j].sum() for j in range(M.shape[1])] )
ni, nj, N

(array([12, 17, 39]), array([20, 22,  9, 17]), 68)

Et comme c'est un usage courant, [numpy](http://www.numpy.org/) propose une façon de faire sans écrire une boucle avec la fonction [sum](https://docs.scipy.org/doc/numpy-1.11.0/reference/generated/numpy.sum.html) :

In [5]:
ni = M.sum(axis=1)
nj = M.sum(axis=0)
ni, nj, N

(array([12, 17, 39]), array([20, 22,  9, 17]), 68)

In [6]:
nij = ni.reshape(M.shape[0], 1) * nj / N
nij

array([[  3.52941176,   3.88235294,   1.58823529,   3.        ],
       [  5.        ,   5.5       ,   2.25      ,   4.25      ],
       [ 11.47058824,  12.61764706,   5.16176471,   9.75      ]])

In [7]:
d = (M - nij) ** 2 / nij
d.sum()

6.1685985038926212