.. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist Workflows - Data Pipelines ++++++++++++++++++++++++++ Au fur et à mesure qu'une société construire des modèles de machine learning pour automatiser certaines parties de traitement de données, il devient important de rafraîchir ces modèles avec des données plus récentes. On se retrouve vite avec une multitud de besoins comme automatiser, garder la trace des précédentes exécutions, paralléliser sur plusieurs machines ou infrastructures, garder une vue exhaustive et simple de toute cette complexité croissante. La dénomination communue est *pipeline* ou *workflow* et cet ensemble de traitements est souvent représenté sous formes de graphe où chaque arc symbolise une dépendances entre deux traitements de données. Chaque société a développé ses propres outils, certaines l'ont mis à disposition de façon open source. Cette partie vise à présenter l'une d'entre elles. *Notebooks* * :ref:`td2aenonceclreganomalyrst` (:ref:`correction `) *Lectures* * `Luigi vs Airflow vs Pinball `_ * `Luigi vs Airflow vs zope.wfmc: Comparison of Open-Source Workflow Engines `_ * `Airflow Tutorial for Data Pipelines `_ *Modules* * `airflow `_ * `luigi `_ * `pinball `_