Machine Learning éthique (fairness)#

Toutes les entreprises ont des données. Ce qui a changé récemment est ce ne sont plus seulement des données à caractère personnel, l’ensemble de vos commandes, le montant, mais aussi des données de déplacements. Le téléphone portable et les applications permet à beaucoup plus d’acteurs de collecter ces mêmes données. La législation n’est pas toujours très claire quant à ce qu’on le droit d’en faire et les pays ne partagent pas tous les mêmes règles. De plus, c’est une chose que de fixer une limite, c’est autre chose que de vérifier qu’elle n’a pas été franchie. Des modèles construits avec des données si précises peuvent de retrouver des informations que vous n’avez pourtant pas divulgué. Comment déterminer si un modèle ne produit pas des résultats biaisés envers une partie de la population même avec des données anonymes ? Les articles sont encore peu nombreux à ce sujet et plutôt récents. Il est probable qu’il y en ait un peu plus à l’avenir. Il n’existe pas de certitude quant au caractère éthique d’un modèle. Quelques idées ont néanmoins émergé :

La collecte des données est parfois biaisée, les échantillons aléatoires sont rares sur Internet, la collecte est incitative (échange service contre données). Certaines sous-population sont sur-représentées, d’autres sous-représentées. Il faut en tenir compte.
Construire un modèle interprétable et de cette façon vérifier son côté éthique : Ideas on interpreting machine learning.
Fabriquer de fausses observations pour vérifier que le modèle ne change pas de prédictions quand il ne le devrait pas : Equality of Opportunity in Supervised Learning.
Construire deux modèles pour éviter les interactions entre $X_1$ et $X_2$ , le premier modèle ne voit que $X_1$ , le second ne voit que $X_2$ , puis on combine les prédictions : When Recommendations Systems Go Bad.
Construire une partition de la population à étudier pour vérifier que l’appartenance à un sous-groupe n’est pas corrélée à la prédiction ou à l’erreur de prédiction : FairTest: Discovering Unwarranted Associations in Data-Driven Applications.

L’article Equality of Opportunity in Supervised Learning définit l’aspect éthique comme l’invariance d’une loi marginale. On suppose que S est un attribut protégé binaire (exemple : le genre). I sont les entrées du modèle de machine learning, O les sorties. Le modèle est éthique si :

$\pr{ O | I, S=0} = \pr{ O | I, S=1}$

La connaissance de S ne change pas la prédiction. Cela pose deux problèmes. Le premier est que parfois cette distribution change car cet attribut est corrélé avec un autre qui lui n’est pas protégé. Que décide-t-on dans ce cas ? Le second est l’égalité n’est jamais vérifié sur de vraies données, les deux distributions doivent être proches. Elles peuvent l’être sur l’ensemble de la population tout en ne l’étant pas du tout sur une petite partie de la population. L’article FairTest: Discovering Unwarranted Associations in Data-Driven Applications propose une réponse à ces deux problèmes.

L’article A Reductions Approach to Fair Classification pousse ces concepts jusqu’à définir mathématiquement la parité d’un modèle et l’égalité des chances (voir 2018-10-24 Fairness - fairlearn - classification).

Notebooks

Livres

Fairness and machine learning

Lectures mathématiques

Lectures françaises

Guide des algorithmes publics
Comment permettre à l’homme de garder la main ?, Les enjeux éthiques des algorithmes et de l’intelligence artificielle, Synthèse du débat public animé par la CNIL dans le cadre de la mission de réflexion éthique confiée par la loi pour une république numérique.
O21 : La transparence des algorithmes relève des droits civiques
Enquête : comment les apps Figaro, L’Equipe ou Closer participent au pistage de 10 millions de Français
Surveiller et prévenir, l’ère de la pénalité prédictive
Nozha Boujemaa : « Les algorithmes doivent apporter une aide à la décision mais pas en être les prescripteurs »
L’équité de l’apprentissage machine en assurance

Lectures

2021-2022

Extraits :

Les biais de type 1 sont liés à des classes qui ne reflèteraient pas la réalité du risque, mais seraient motivés par de purs préjugés (critique qui ne remet pas en question le principe du bien-fondé de la classification). Justifiée en amont par le mythe d’une causalité des signes astrologiques sur les accidents par exemple, une classification zodiacale se révèlerait à l’usage comme « biaisée », au sens trivial où le modèle est faux ;
Les biais de type 2 sont liés à des classes qui reflètent une réalité statistique avérée (une corrélation avec le risque, donc un modèle exact) mais non causale, ce qui rend leur usage suspect d’un parti-pris et d’un choix arbitraire. C’est le cas par exemple du paramètre homme/femme. Là aussi on admet le bien-fondé d’une classification qui s’appuierait uniquement sur des variables causales, mais la corrélation seule ne donne pas lieu à une explication acceptable ;
Les biais de types 3 sont liés à des classes qui reflètent une réalité statistique et causale, mais qui est elle-même le fait de discriminations sociales en amont. Dans ce cas, le modèle est exact mais la classification est intrinsèquement nuisible car elle reproduit et ancre dans la réalité une situation contre laquelle il faut lutter.

2020-2021

2018-2020

Conférences

Katharine Jarmul | Keynote: Ethical Machine Learning: Creating Fair Models in an Unjust World
When Recommendations Systems Go Bad
How AI Designers will Dictate Our Civic Future de Latanya Sweeney, je recommande vivement cette conférence qui montre comment des biais peuvent apparaître dans un système intégrant le machine learning, il n’existe pas de façon d’éviter les biais si ce n’est en gardant constamment à l’esprit qu’ils apparaîtront quoiqu’il arrive si un système est prévu pour s’adapter au fur et à mesure. Le système apprend les biais et limite de plus en plus tout ce qui pourrait l’en faire sortir.

Sites

Data Transparency Lab
OPAL
FATML ou Fairness, Accountability, and Transparency in Machine Learning, ce site est une excellente source d’article scientifiques sur le sujet.
FATE, groupe de recherche sur Fairness, Accountability, Transparency, and Ethics in AI chez Microsoft
Data&Society, publications d’articles ou rapports comme celui-ci Fairness in Precision Medicine qui traite des biais qui peuvent survenir lorsqu’on adapte les décisions médicales en fonction des données récoltées pour une personne en particulier (precision medecine).
CS 294: Fairness in Machine Learning
Algorithms and Bias: Q. and A. With Cynthia Dwork
Fairness is not static: deeper understanding of long term fairness via simulation studies

Articles

Modules

Modules non maintenu

C’est souvent le cas de code produit par des chercheurs qui écrive le code pour écrire un article scientifique et qui n’a pas vocation à être maintenu par la suite.

Liens

Contenu

Information

Sujet précédent

Sujet suivant

Machine Learning éthique (fairness)#