{"cells": [{"cell_type": "markdown", "metadata": {}, "source": ["# 1A.algo - distance de Jaccard (dictionnaires)\n", "\n", "Le notebook part du probl\u00e8me qui consiste \u00e0 construire une distance entre deux cha\u00eenes de caract\u00e8res en partant d'une id\u00e9e na\u00efve pour aller jusque la distance d'\u00e9dition. distance de [Jaccard](https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard)."]}, {"cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [{"data": {"text/html": ["<div id=\"my_id_menu_nb\">run previous cell, wait for 2 seconds</div>\n", "<script>\n", "function repeat_indent_string(n){\n", "    var a = \"\" ;\n", "    for ( ; n > 0 ; --n)\n", "        a += \"    \";\n", "    return a;\n", "}\n", "var update_menu_string = function(begin, lfirst, llast, sformat, send, keep_item, begin_format, end_format) {\n", "    var anchors = document.getElementsByClassName(\"section\");\n", "    if (anchors.length == 0) {\n", "        anchors = document.getElementsByClassName(\"text_cell_render rendered_html\");\n", "    }\n", "    var i,t;\n", "    var text_menu = begin;\n", "    var text_memo = \"<pre>\\nlength:\" + anchors.length + \"\\n\";\n", "    var ind = \"\";\n", "    var memo_level = 1;\n", "    var href;\n", "    var tags = [];\n", "    var main_item = 0;\n", "    var format_open = 0;\n", "    for (i = 0; i <= llast; i++)\n", "        tags.push(\"h\" + i);\n", "\n", "    for (i = 0; i < anchors.length; i++) {\n", "        text_memo += \"**\" + anchors[i].id + \"--\\n\";\n", "\n", "        var child = null;\n", "        for(t = 0; t < tags.length; t++) {\n", "            var r = anchors[i].getElementsByTagName(tags[t]);\n", "            if (r.length > 0) {\n", "child = r[0];\n", "break;\n", "            }\n", "        }\n", "        if (child == null) {\n", "            text_memo += \"null\\n\";\n", "            continue;\n", "        }\n", "        if (anchors[i].hasAttribute(\"id\")) {\n", "            // when converted in RST\n", "            href = anchors[i].id;\n", "            text_memo += \"#1-\" + href;\n", "            // passer \u00e0 child suivant (le chercher)\n", "        }\n", "        else if (child.hasAttribute(\"id\")) {\n", "            // in a notebook\n", "            href = child.id;\n", "            text_memo += \"#2-\" + href;\n", "        }\n", "        else {\n", "            text_memo += \"#3-\" + \"*\" + \"\\n\";\n", "            continue;\n", "        }\n", "        var title = child.textContent;\n", "        var level = parseInt(child.tagName.substring(1,2));\n", "\n", "        text_memo += \"--\" + level + \"?\" + lfirst + \"--\" + title + \"\\n\";\n", "\n", "        if ((level < lfirst) || (level > llast)) {\n", "            continue ;\n", "        }\n", "        if (title.endsWith('\u00b6')) {\n", "            title = title.substring(0,title.length-1).replace(\"<\", \"&lt;\")\n", "         .replace(\">\", \"&gt;\").replace(\"&\", \"&amp;\");\n", "        }\n", "        if (title.length == 0) {\n", "            continue;\n", "        }\n", "\n", "        while (level < memo_level) {\n", "            text_menu += end_format + \"</ul>\\n\";\n", "            format_open -= 1;\n", "            memo_level -= 1;\n", "        }\n", "        if (level == lfirst) {\n", "            main_item += 1;\n", "        }\n", "        if (keep_item != -1 && main_item != keep_item + 1) {\n", "            // alert(main_item + \" - \" + level + \" - \" + keep_item);\n", "            continue;\n", "        }\n", "        while (level > memo_level) {\n", "            text_menu += \"<ul>\\n\";\n", "            memo_level += 1;\n", "        }\n", "        text_menu += repeat_indent_string(level-2);\n", "        text_menu += begin_format + sformat.replace(\"__HREF__\", href).replace(\"__TITLE__\", title);\n", "        format_open += 1;\n", "    }\n", "    while (1 < memo_level) {\n", "        text_menu += end_format + \"</ul>\\n\";\n", "        memo_level -= 1;\n", "        format_open -= 1;\n", "    }\n", "    text_menu += send;\n", "    //text_menu += \"\\n\" + text_memo;\n", "\n", "    while (format_open > 0) {\n", "        text_menu += end_format;\n", "        format_open -= 1;\n", "    }\n", "    return text_menu;\n", "};\n", "var update_menu = function() {\n", "    var sbegin = \"\";\n", "    var sformat = '<a href=\"#__HREF__\">__TITLE__</a>';\n", "    var send = \"\";\n", "    var begin_format = '<li>';\n", "    var end_format = '</li>';\n", "    var keep_item = -1;\n", "    var text_menu = update_menu_string(sbegin, 2, 4, sformat, send, keep_item,\n", "       begin_format, end_format);\n", "    var menu = document.getElementById(\"my_id_menu_nb\");\n", "    menu.innerHTML=text_menu;\n", "};\n", "window.setTimeout(update_menu,2000);\n", "            </script>"], "text/plain": ["<IPython.core.display.HTML object>"]}, "execution_count": 2, "metadata": {}, "output_type": "execute_result"}], "source": ["from jyquickhelper import add_notebook_menu\n", "add_notebook_menu()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Description du probl\u00e8me\n", "\n", "On cherche \u00e0 construire un correcteur orthographique statistique. Il s'appuie sur l'hypoth\u00e8se que la plupart du temps, un mot est \u00e9crit de fa\u00e7on correcte. Il fonctionne comme suit :\n", "\n", "* On agr\u00e8ge diff\u00e9rents textes \u00e9crits par plusieurs personnes diff\u00e9rentes.\n", "* On regroupe les diff\u00e9rentes formes d'un m\u00eame mot.\n", "* Au sein d'un groupe de mot, le mot le plus fr\u00e9quent est le mot bien orthographi\u00e9.\n", "\n", "Au sein d'un texte sur l'h\u00f4pital, on a remarqu\u00e9 que le mot ``h\u00f4pital`` est orthographi\u00e9 de mani\u00e8res diff\u00e9rentes : *h\u00f4pital* (3 fois), *hopital* (1 fois), *hospital* (1 fois). En appliquant la r\u00e8gle d\u00e9crite plus haut, l'\u00e9criture correcte serait *h\u00f4pital*.\n", "\n", "Comment aborder ce probl\u00e8me ? Il faut r\u00e9ussir \u00e0 le formuler de telles sortes qu'on arrive \u00e0 le d\u00e9crire sous forme informatique."]}, {"cell_type": "markdown", "metadata": {}, "source": ["## D\u00e9coupage du probl\u00e8me\n", "\n", "L'\u00e9tape 2 suppose qu'on regroupe diff\u00e9rents mots qui se ressemblent. Que veut dire que deux mots se ressemblent ? Ont-ils la plupart des lettres en commun ? Si on part de ce principe, on va essayer de construire une distancd entre deux mots : on compte le nombre de lettres supprim\u00e9es puis ajout\u00e9es pour passer d'un mot $w_1$ \u00e0 un mot $w_2$. Ceci ressemble \u00e0 la [distance de Jaccard](https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard). On suppose que chaque mot est un ensemble de lettres, il suffit de compter les lettres qui ne sont pas partie de l'intersection de ces deux ensembles. \n", "\n", "Exemples :\n", "\n", "* distance entre *h\u00f4pital* et *hopital* : 3 (suppression de *\u00f4*, *s*, ajout de *o*)\n", "* distance entre *marie* et *aimer* : 0 (m\u00eame ensemble de lettres)\n", "* distance entre *lettre* et *etre* : 2 (suppression d'un *l* et d'un *t*)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 1 : Constuire l'ensemble des lettres supprim\u00e9es et ajout\u00e9es"]}, {"cell_type": "code", "execution_count": 2, "metadata": {"collapsed": true}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 2 : \u00e9crire une fonction qui calcule la distance de Jaccard"]}, {"cell_type": "code", "execution_count": 3, "metadata": {"collapsed": true}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Retour vers le correcteur orthographique\n", "\n", "Comment utiliser cette distance pour rep\u00e9rer les mots qui se ressemblent ? Une id\u00e9e est de se fixer un seuil, 2 par exemple, puis pour un mot donn\u00e9 *w*, extraire tous les mots *x* qui v\u00e9rifient : $distance(w, x) \\leqslant 2$. Une fois qu'on a d\u00e9coup\u00e9 un texte en une s\u00e9quence de mots $(w_1, ..., w_n)$, on constuire une matrice de distances entre tous les couples de mots possibles.\n", "\n", "**Comment repr\u00e9senter cette matrice ?** (avec les types standard de Python)\n"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 3 : calculer la matrice des distances"]}, {"cell_type": "code", "execution_count": 4, "metadata": {"collapsed": true}, "outputs": [], "source": []}], "metadata": {"kernelspec": {"display_name": "Python 3", "language": "python", "name": "python3"}, "language_info": {"codemirror_mode": {"name": "ipython", "version": 3}, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.1"}}, "nbformat": 4, "nbformat_minor": 2}