2022-05-16 Année 2022, séance 6

Séance découpée en trois parties.

Partie I : analyse de survie

Partie II : machine learning éthique

Partie III :

A propros des biais

Extraits :

  • Les biais de type 1 sont liés à des classes qui ne reflèteraient pas la réalité du risque, mais seraient motivés par de purs préjugés (critique qui ne remet pas en question le principe du bien-fondé de la classification). Justifiée en amont par le mythe d’une causalité des signes astrologiques sur les accidents par exemple, une classification zodiacale se révèlerait à l’usage comme « biaisée », au sens trivial où le modèle est faux ;

  • Les biais de type 2 sont liés à des classes qui reflètent une réalité statistique avérée (une corrélation avec le risque, donc un modèle exact) mais non causale, ce qui rend leur usage suspect d’un parti-pris et d’un choix arbitraire. C’est le cas par exemple du paramètre homme/femme. Là aussi on admet le bien-fondé d’une classification qui s’appuierait uniquement sur des variables causales, mais la corrélation seule ne donne pas lieu à une explication acceptable ;

  • Les biais de types 3 sont liés à des classes qui reflètent une réalité statistique et causale, mais qui est elle-même le fait de discriminations sociales en amont. Dans ce cas, le modèle est exact mais la classification est intrinsèquement nuisible car elle reproduit et ancre dans la réalité une situation contre laquelle il faut lutter.

A propos du biais de type 1, il apparaît également lorsqu’une nomenclature n’évolue pas et ne reflète plus les données d’aujourd’hui. L’indice des prix est une statistique dont le sens ne change pas mais dont la pondération change : Pour comprendre l’indice des prix.

Machine Learning privé