.. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist .. _l-ml2a-streaming-algorithm: Streaming algorithms ++++++++++++++++++++ Les algorithmes *streaming* que Wikipédia traduit par `Algorithme de fouille de flots de données `_ sont des algorithmes qui s'exécutent sans avoir connaissance de l'ensemble des données ni même combien il y en a. Cela signifie que l'algorithme peut s'arrêter à tout moment et qu'il est capable de retourner un résultat valide sur l'ensemble des données qu'il a traités jusqu'à présent. L'algorithme le plus connu est sans aucun doute `Reservoir Sampling `_ qui permet de tirer un échantillon aléatoire dans un jeu de données dont la taille est inconnue à l'avance. * `Répartir train / test en streaming `_ .. toctree:: :maxdepth: 2 ../notebooks/_gs2a_streaming *Lectures* * Algorithme BJKST `Counting distinct elements in a data stream `_ * `Streaming Algorithms `_ * `Optimal streaming histograms `_ * `Density Estimation Over Data Stream `_ * `Confidence Decision Trees via Online and Active Learning for Streaming (BIG) Data `_ * `Approximation and Streaming Algorithms for Histogram Construction Problems `_ * `State-of-the-art on clustering data streams `_ * `Parallel Computing of Kernel Density Estimates with MPI `_ * `Density Estimation with Adaptive Sparse Grids for Large Data Sets `_ * `Sliding HyperLogLog: Estimating cardinality in a data stream `_ * `Data Streaming Algorithms 2009 `_, `Data Streaming Algorithms 2011 `_ * `Data Stream Management `_ (collection d'articles) * `Streaming Principal Component Analysis From Incomplete Data `_ *Modules* * `pandas_streaming `_ * `streamparse `_ * `vaex `_ * `StreamLib `_ (mas maintenu) * `modin `_