Traitement du langage#
Cette partie regroupe principalement des techniques relevant du word embedding qui consiste à convertir des données textuelles en données numériques directement exploitable par les algorithmes d’apprentissage.
Notebooks
Lectures - articles
Système de complétion : la complétion est utilisée par tous les sites Internet pour aider les utilisateurs à saisir leur recherche. N’importe quel site commercial l’utiliser pour guider les utilisateurs plus rapidement vers le produit qu’ils recherchent.
Text Understanding from Scratch, Xiang Zhang, Yann LeCun
Text Generation With LSTM Recurrent Neural Networks in Python with Keras
A Joint Model for Entity Analysis: Coreference, Typing, and Linking
Disfluency Detection with a Semi-Markov Model and Prosodic Features
Capturing Semantic Similarity for Entity Linking with Convolutional Neural Networks
Learning-Based Single-Document Summarization with Compression and Anaphoricity Constraints
Lectures - cours
Lectures - revue
Lectures - Classification
Lectures - word2vec
Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, Distributed Representations of Words and Phrases and their Compositionality, Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, word2vec Parameter Learning Explained, Xin Rong, Tutorial on Auto-Encoders, Piotr Mirowski
Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec
Lectures - glove
GloVe: Global Vectors for Word Representation (pdf), GloVe: Global Vectors for Word Representation (article de blog)
Lectures - vidéo
Word embedding
Interprétation
Résumé
Vidéos
Modules ML
fasttext (Facebook)
- pycantonese (texte cantonnais),
polyglot : fonctionne pour beaucoup de langues
pattern : possède une bonne base d’exemples, notemmant pour récupérer des données depuis internet 01-web
Modules de recherche
Modules moins ML
python-rake : petit module pour extraire des mot-clés
sumy : construction automatique d’un résumé d’un texte