XD blog

blog page

2015-03


2015-03-31 GitHub, mais pourquoi ?

GitHub, c'est quoi ? En langage technique, on appelle ça un logiciel de suivi de source ou logiciel de gestion de version. On s'en sert dès qu'on travail sur des fichiers et à plusieurs. Il permet de garder la trace de toutes les modifications. L'article de Rue89 en dit un peu plus à ce sujet : Qu'est-ce que tous les techos du monde font sur GitHub ?. Aujourd'hui, on n'imagine plus s'en passer. D'ailleurs tous mes enseignements y sont : github xavier.

Même si l'outil a été développé pour développer du code informatique, il peut servir pour suivre les modifications de n'importe quel texte y compris le code civil et les images. Ca marche un peu moins bien voire souvent pas du tout pour tous les formats complexes, surtout s'ils sont propriétaires.

GitHub est gratuit pour tous les projets publics. Il faut payer si on ne veut pas exposer ses sources au public. On peut aussi aller chez le concurrent BitBucket dont les conditions tarifaires sont différentes. Si on ne souhaite pas du tout que ses sources soient hébergées par une compagnie tierce, on peut installer un serveur GitLab chez soi. Et si on souhaite juste suivre ses modifications sur son ordinateur en local, on peut installer juste Git, avec TortoiseGit.

Si vous êtes courageux, vous pouvez aller jusqu'à regarder les outils d'intégration continue tels que Travis CI ou GitLab CI.

2015-03-26 Drawing in a notebook

My plan was quite simple : create a kind of small window in a notebook where I can click and mark some points. Once it is done, I retrieve the points and I run a simple algorithm to solve the Travelling Salesman Problem.

The notebook is there Voyageur de commerce and the javascript code is generated by the following function: display_canvas_point.

2015-03-23 Une petite vision du futur

La vie algorithmique, critique de la raison numérique, Eric Sadin, Il faut lire l'ouverture qui raconte une journée type telle que vous pourriez la connaître d'ici quelques dizaines d'années si la plupart de vos données étaient utilisées pour anticipez vos besoins.

Dans un autre registre, France 4 diffuse une série animée Pyscho Pass. A l'instar de Ghost in the Shell, la série se ballade dans une société futuriste plus ou moins proche de celle d'aujourd'hui. Le psycho-pass est un indice de violence calculé en temps réel pour chaque individu. S'il est trop élevé, la société vous rejette. Ce seraient sans doute un peu ce genre d'indice que les agences de surveillance aimeraient bien construire.

2015-03-19 L'école à l'heure du numérique, Edmodo

MOOC, tablettes, réseaux sociaux, il y a chaque jour de nouveaux outils et pas assez de temps pour tous les essayer. L'article suivant Tablettes et cours inversés, équation gagnante dans un lycée pilote paru dans Le Monde partagent quelques expériences. J'ai retenu Edmodo une plateforme d'échanges entre professeurs et élèves, les petits MOOC avant d'assister au cours qui parle du sujet, la saisie de notes sur tablettes (l'enseignement poste ses notes de cours que les élèves annotent en cours). Pour finir, un peu de lecture : Apprentissage par enquête et Pédagogie inversée.

2015-03-15 Données d'assurance maladie

Les données d'assurance maladie sont disponibles depuis peu sur data.gouv.fr : Dépenses d' assurance maladie hors prestations hospitalières par caisse primaire/département. Je recopie ici la description des variables de la base de données histoire de données une petite idée de ce qu'on peut en faire (voir plus bas).

On peut vaguement imaginer tout ce qu'on pourrait en faire comme observer les différentes saisonnalités dans la médecine, saisonnalité des actes, saisonnalités géographiques, d'observer des tendances même si la période couverte par les données est assez courte. On peut croiser ces données avec la répartition des médecins et détecter les zones où il manque des médecins.

Cela donne une idée aussi de ce qu'on ne pourrait pas faire comme cette étude Prescription Savings Worth Millions Identified by ODI incubated company qui utilise des données géographiques et le nom des médicaments prescrits pour situer sur une carte les prescriptions d'un médicament précis et d'observer certaines disparités.


more...

2015-03-14 Ingénieur citoyen

C'est une petite histoire pas encore assez citoyenne mais qui a envie de le devenir et que je prendrais par un bout différent de celui par lequel je l'ai découverte. Le début que j'ai choisis est le récit développé par cet article : Innovation : "L'Etat a besoin de nos mains, pas seulement de nos voix" qui retranscrit et résume un peu les propos de la fondatrice de CodeForAmerica, tenus au sein d'une conférence organisée par Google. Je le précise car ce point est intéressant compte tenu de son discours.

Je passerai sur la première histoire qu'elle developpe - l'amélioration du site internet de Honolulu - même si elle exprime que la société n'est pas aussi individuelle qu'on pourrait le penser et que travailler pour une cause collective est source de motivation au même titre que de s'investir au sein d'une association.

C'est sans doute une Lapalissade que de dire que les données sont partout. Lorsqu'on parle de réseau, Facebook est le premier mot qu'on associe. Liker fait déjà partie des mots courants et le flot de petit like donne une bonne indication de la popularité de telle ou telle chose. Facebook est une société privée qui propose un service dont nous nous passions il y a quelques années. Pourtant notre quotidien n'a pas évolué avec la même célérité. La récolte des poubelles est toujours manuelle et votre médecin n'utilise pas encore votre smartphone pour prendre votre pouls à distance ou observer l'intérieur de vos oreilles. Le site internet de votre mairie évolue doucement à votre grand regret et vous vous demandez s'il n'y aurait pas un meilleur usage de vos impôts. Avant de vous confondre en plainte, je cite un chiffre extrait de la présentation de Jennifer Pahlka : entre 2003 et 2012, 3555 projets techniques ont été menés par le gouvernement américain, 6.4% seulement ont été des succès. Cela ne veut pas pas dire que tous les autres ont été des échecs, plus de la moitié ont tout de même été abandonnés, mais pour les autres, le budget et le calendrier initialement prévus ont été revus à la hausse. Ce chiffre concerne les Etats-Unis mais je serai curieux de connaître ce chiffre pour la France : Echec informatique d'une réforme.

Je cite un extrait de sa présentation : Vous ne pouvez pas gouverner un pays si les élites de ce pays ne comprennent pas la technologie aussi bien qu'ils comprennent l'économie. Une des conséquences, certaines réformes échouent parce que le gouvernement n'arrivent pas à les mettre en place. Le site internet ne fonctionnent pas


more...

2015-03-10 Impossible n'est pas français

Cultiver des tomates sans pesticides et dans un lieu hostile, c'est possible : Tomates sans eau ni pesticide : cette méthode fascine les biologistes. Si c'est impossible, c'est sans doute qu'on n'a pas cherché assez longtemps. Plutôt que de renoncer à cultiver des tomates sur une parcelle assez hostile pour les tomates, un agriculteurs a insisté. Si la première année a été très peu productive, les tomates se sont adaptées et les générations suivantes se sont adaptées.

2015-03-08 Kartable, les programmes depuis la sixième à la terminale

J'ai découvert le site très réussi Kartable à partir duquel on peut aisément découvrir les programmes scolaires de la sixième à la terminale. Je n'y vois pas encore l'informatique ou une quelconque allusion au numérique. C'est peut-être pour bientôt.

2015-03-07 Work on the features or the model

Sometimes, a machine learned model does not get it. It does not find any way to properly classify the data. Sometimes, you know it could work better with another model but it cannot be trained on such an amount of data. So what...

Another direction consists in looking for non linear combinations of existing features which could explain better the border between two classes. Let's consider this known difficult example:

It cannot be linearly separated but it can with others kinds of models (k-NN, SVC). However, by adding simple multiplications between existing features, the problem becomes linear:

The point is: if you know that a complex features would really help your model, it is worth spending time implementing it rather that trying to approximating it by using a more complex model. (corresponding notebook).

2015-03-01 Automated build of pipelines on Jenkins

Jenkins is an interesting tools. You can schedule jobs, manage dependencies between or even display pipelines. Below follows the one I use for my teachings which consists in many helpers to generate documentation, proposes various magic commands for ipython, test all notebooks are working fine.


Xavier Dupré