Economie Statistique

Machine Learning éthique (fairness)

Toutes les entreprises ont des données. Ce qui a changé récemment est ce ne sont plus seulement des données à caractère personnel, l’ensemble de vos commandes, le montant, mais aussi des données de déplacements. Le téléphone portable et les applications permet à beaucoup plus d’acteurs de collecter ces mêmes données. La législation n’est pas toujours très claire quant à ce qu’on le droit d’en faire et les pays ne partagent pas tous les mêmes règles. De plus, c’est une chose que de fixer une limite, c’est autre chose que de vérifier qu’elle n’a pas été franchie. Des modèles construits avec des données si précises peuvent de retrouver des informations que vous n’avez pourtant pas divulgué. Comment déterminer si un modèle ne produit pas des résultats biaisés envers une partie de la population même avec des données anonymes ? Les articles sont encore peu nombreux à ce sujet et plutôt récents. Il est probable qu’il y en ait un peu plus à l’avenir. Il n’existe pas de certitude quant au caractère éthique d’un modèle. Quelques idées ont néanmoins émergé :

  • La collecte des données est parfois biaisée, les échantillons aléatoires sont rares sur Internet, la collecte est incitative (échange service contre données). Certaines sous-population sont sur-représentées, d’autres sous-représentées. Il faut en tenir compte.

  • Construire un modèle interprétable et de cette façon vérifier son côté éthique : Ideas on interpreting machine learning.

  • Fabriquer de fausses observations pour vérifier que le modèle ne change pas de prédictions quand il ne le devrait pas : Equality of Opportunity in Supervised Learning.

  • Construire deux modèles pour éviter les interactions entre X_1 et X_2, le premier modèle ne voit que X_1, le second ne voit que X_2, puis on combine les prédictions : When Recommendations Systems Go Bad.

  • Construire une partition de la population à étudier pour vérifier que l’appartenance à un sous-groupe n’est pas corrélée à la prédiction ou à l’erreur de prédiction : FairTest: Discovering Unwarranted Associations in Data-Driven Applications.

L’article Equality of Opportunity in Supervised Learning définit l’aspect éthique comme l’invariance d’une loi marginale. On suppose que S est un attribut protégé binaire (exemple : le genre). I sont les entrées du modèle de machine learning, O les sorties. Le modèle est éthique si :

\pr{ O | I, S=0} = \pr{ O | I, S=1}

La connaissance de S ne change pas la prédiction. Cela pose deux problèmes. Le premier est que parfois cette distribution change car cet attribut est corrélé avec un autre qui lui n’est pas protégé. Que décide-t-on dans ce cas ? Le second est l’égalité n’est jamais vérifié sur de vraies données, les deux distributions doivent être proches. Elles peuvent l’être sur l’ensemble de la population tout en ne l’étant pas du tout sur une petite partie de la population. L’article FairTest: Discovering Unwarranted Associations in Data-Driven Applications propose une réponse à ces deux problèmes.

L’article A Reductions Approach to Fair Classification pousse ces concepts jusqu’à définir mathématiquement la parité d’un modèle et l’égalité des chances (voir 2018-10-24 Fairness - fairlearn - classification).

Notebooks

Livres

Lectures mathématiques

Lectures françaises

Lectures

2021-2022

Extraits :

  • Les biais de type 1 sont liés à des classes qui ne reflèteraient pas la réalité du risque, mais seraient motivés par de purs préjugés (critique qui ne remet pas en question le principe du bien-fondé de la classification). Justifiée en amont par le mythe d’une causalité des signes astrologiques sur les accidents par exemple, une classification zodiacale se révèlerait à l’usage comme « biaisée », au sens trivial où le modèle est faux ;

  • Les biais de type 2 sont liés à des classes qui reflètent une réalité statistique avérée (une corrélation avec le risque, donc un modèle exact) mais non causale, ce qui rend leur usage suspect d’un parti-pris et d’un choix arbitraire. C’est le cas par exemple du paramètre homme/femme. Là aussi on admet le bien-fondé d’une classification qui s’appuierait uniquement sur des variables causales, mais la corrélation seule ne donne pas lieu à une explication acceptable ;

  • Les biais de types 3 sont liés à des classes qui reflètent une réalité statistique et causale, mais qui est elle-même le fait de discriminations sociales en amont. Dans ce cas, le modèle est exact mais la classification est intrinsèquement nuisible car elle reproduit et ancre dans la réalité une situation contre laquelle il faut lutter.

2020-2021

2018-2020

Conférences

Sites

Articles

Modules

Modules non maintenu

C’est souvent le cas de code produit par des chercheurs qui écrive le code pour écrire un article scientifique et qui n’a pas vocation à être maintenu par la suite.