{"cells": [{"cell_type": "markdown", "metadata": {}, "source": ["# 2A.data - Classification, r\u00e9gression, anomalies - \u00e9nonc\u00e9\n", "\n", "Le jeu de donn\u00e9es [Wine Quality Data Set](https://archive.ics.uci.edu/ml/datasets/Wine+Quality) contient 5000 vins d\u00e9crits par leurs caract\u00e9ristiques chimiques et \u00e9valu\u00e9s par un expert. Peut-on s'approcher de l'expert \u00e0 l'aide d'un mod\u00e8le de machine learning."]}, {"cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": ["%matplotlib inline\n", "import matplotlib.pyplot as plt"]}, {"cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [{"data": {"text/html": ["<div id=\"my_id_menu_nb\">run previous cell, wait for 2 seconds</div>\n", "<script>\n", "function repeat_indent_string(n){\n", "    var a = \"\" ;\n", "    for ( ; n > 0 ; --n)\n", "        a += \"    \";\n", "    return a;\n", "}\n", "// look up into all sections and builds an automated menu //\n", "var update_menu_string = function(begin, lfirst, llast, sformat, send, keep_item, begin_format, end_format) {\n", "    var anchors = document.getElementsByClassName(\"section\");\n", "    if (anchors.length == 0) {\n", "        anchors = document.getElementsByClassName(\"text_cell_render rendered_html\");\n", "    }\n", "    var i,t;\n", "    var text_menu = begin;\n", "    var text_memo = \"<pre>\\nlength:\" + anchors.length + \"\\n\";\n", "    var ind = \"\";\n", "    var memo_level = 1;\n", "    var href;\n", "    var tags = [];\n", "    var main_item = 0;\n", "    var format_open = 0;\n", "    for (i = 0; i <= llast; i++)\n", "        tags.push(\"h\" + i);\n", "\n", "    for (i = 0; i < anchors.length; i++) {\n", "        text_memo += \"**\" + anchors[i].id + \"--\\n\";\n", "\n", "        var child = null;\n", "        for(t = 0; t < tags.length; t++) {\n", "            var r = anchors[i].getElementsByTagName(tags[t]);\n", "            if (r.length > 0) {\n", "child = r[0];\n", "break;\n", "            }\n", "        }\n", "        if (child == null) {\n", "            text_memo += \"null\\n\";\n", "            continue;\n", "        }\n", "        if (anchors[i].hasAttribute(\"id\")) {\n", "            // when converted in RST\n", "            href = anchors[i].id;\n", "            text_memo += \"#1-\" + href;\n", "            // passer \u00e0 child suivant (le chercher)\n", "        }\n", "        else if (child.hasAttribute(\"id\")) {\n", "            // in a notebook\n", "            href = child.id;\n", "            text_memo += \"#2-\" + href;\n", "        }\n", "        else {\n", "            text_memo += \"#3-\" + \"*\" + \"\\n\";\n", "            continue;\n", "        }\n", "        var title = child.textContent;\n", "        var level = parseInt(child.tagName.substring(1,2));\n", "\n", "        text_memo += \"--\" + level + \"?\" + lfirst + \"--\" + title + \"\\n\";\n", "\n", "        if ((level < lfirst) || (level > llast)) {\n", "            continue ;\n", "        }\n", "        if (title.endsWith('\u00b6')) {\n", "            title = title.substring(0,title.length-1).replace(\"<\", \"&lt;\")\n", "         .replace(\">\", \"&gt;\").replace(\"&\", \"&amp;\");\n", "        }\n", "        if (title.length == 0) {\n", "            continue;\n", "        }\n", "\n", "        while (level < memo_level) {\n", "            text_menu += end_format + \"</ul>\\n\";\n", "            format_open -= 1;\n", "            memo_level -= 1;\n", "        }\n", "        if (level == lfirst) {\n", "            main_item += 1;\n", "        }\n", "        if (keep_item != -1 && main_item != keep_item + 1) {\n", "            // alert(main_item + \" - \" + level + \" - \" + keep_item);\n", "            continue;\n", "        }\n", "        while (level > memo_level) {\n", "            text_menu += \"<ul>\\n\";\n", "            memo_level += 1;\n", "        }\n", "        text_menu += repeat_indent_string(level-2);\n", "        text_menu += begin_format + sformat.replace(\"__HREF__\", href).replace(\"__TITLE__\", title);\n", "        format_open += 1;\n", "    }\n", "    while (1 < memo_level) {\n", "        text_menu += end_format + \"</ul>\\n\";\n", "        memo_level -= 1;\n", "        format_open -= 1;\n", "    }\n", "    text_menu += send;\n", "    //text_menu += \"\\n\" + text_memo;\n", "\n", "    while (format_open > 0) {\n", "        text_menu += end_format;\n", "        format_open -= 1;\n", "    }\n", "    return text_menu;\n", "};\n", "var update_menu = function() {\n", "    var sbegin = \"\";\n", "    var sformat = '<a href=\"#__HREF__\">__TITLE__</a>';\n", "    var send = \"\";\n", "    var begin_format = '<li>';\n", "    var end_format = '</li>';\n", "    var keep_item = -1;\n", "    var text_menu = update_menu_string(sbegin, 2, 4, sformat, send, keep_item,\n", "       begin_format, end_format);\n", "    var menu = document.getElementById(\"my_id_menu_nb\");\n", "    menu.innerHTML=text_menu;\n", "};\n", "window.setTimeout(update_menu,2000);\n", "            </script>"], "text/plain": ["<IPython.core.display.HTML object>"]}, "execution_count": 3, "metadata": {}, "output_type": "execute_result"}], "source": ["from jyquickhelper import add_notebook_menu\n", "add_notebook_menu()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Les donn\u00e9es\n", "\n", "On peut les r\u00e9cup\u00e9rer sur [github...data_2a](https://github.com/sdpython/ensae_teaching_cs/tree/master/src/ensae_teaching_cs/data/data_1a)."]}, {"cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [{"data": {"text/html": ["<div>\n", "<style scoped>\n", "    .dataframe tbody tr th:only-of-type {\n", "        vertical-align: middle;\n", "    }\n", "\n", "    .dataframe tbody tr th {\n", "        vertical-align: top;\n", "    }\n", "\n", "    .dataframe thead th {\n", "        text-align: right;\n", "    }\n", "</style>\n", "<table border=\"1\" class=\"dataframe\">\n", "  <thead>\n", "    <tr style=\"text-align: right;\">\n", "      <th></th>\n", "      <th>fixed_acidity</th>\n", "      <th>volatile_acidity</th>\n", "      <th>citric_acid</th>\n", "      <th>residual_sugar</th>\n", "      <th>chlorides</th>\n", "      <th>free_sulfur_dioxide</th>\n", "      <th>total_sulfur_dioxide</th>\n", "      <th>density</th>\n", "      <th>pH</th>\n", "      <th>sulphates</th>\n", "      <th>alcohol</th>\n", "      <th>quality</th>\n", "      <th>color</th>\n", "    </tr>\n", "  </thead>\n", "  <tbody>\n", "    <tr>\n", "      <th>0</th>\n", "      <td>7.4</td>\n", "      <td>0.70</td>\n", "      <td>0.00</td>\n", "      <td>1.9</td>\n", "      <td>0.076</td>\n", "      <td>11.0</td>\n", "      <td>34.0</td>\n", "      <td>0.9978</td>\n", "      <td>3.51</td>\n", "      <td>0.56</td>\n", "      <td>9.4</td>\n", "      <td>5</td>\n", "      <td>red</td>\n", "    </tr>\n", "    <tr>\n", "      <th>1</th>\n", "      <td>7.8</td>\n", "      <td>0.88</td>\n", "      <td>0.00</td>\n", "      <td>2.6</td>\n", "      <td>0.098</td>\n", "      <td>25.0</td>\n", "      <td>67.0</td>\n", "      <td>0.9968</td>\n", "      <td>3.20</td>\n", "      <td>0.68</td>\n", "      <td>9.8</td>\n", "      <td>5</td>\n", "      <td>red</td>\n", "    </tr>\n", "    <tr>\n", "      <th>2</th>\n", "      <td>7.8</td>\n", "      <td>0.76</td>\n", "      <td>0.04</td>\n", "      <td>2.3</td>\n", "      <td>0.092</td>\n", "      <td>15.0</td>\n", "      <td>54.0</td>\n", "      <td>0.9970</td>\n", "      <td>3.26</td>\n", "      <td>0.65</td>\n", "      <td>9.8</td>\n", "      <td>5</td>\n", "      <td>red</td>\n", "    </tr>\n", "    <tr>\n", "      <th>3</th>\n", "      <td>11.2</td>\n", "      <td>0.28</td>\n", "      <td>0.56</td>\n", "      <td>1.9</td>\n", "      <td>0.075</td>\n", "      <td>17.0</td>\n", "      <td>60.0</td>\n", "      <td>0.9980</td>\n", "      <td>3.16</td>\n", "      <td>0.58</td>\n", "      <td>9.8</td>\n", "      <td>6</td>\n", "      <td>red</td>\n", "    </tr>\n", "    <tr>\n", "      <th>4</th>\n", "      <td>7.4</td>\n", "      <td>0.70</td>\n", "      <td>0.00</td>\n", "      <td>1.9</td>\n", "      <td>0.076</td>\n", "      <td>11.0</td>\n", "      <td>34.0</td>\n", "      <td>0.9978</td>\n", "      <td>3.51</td>\n", "      <td>0.56</td>\n", "      <td>9.4</td>\n", "      <td>5</td>\n", "      <td>red</td>\n", "    </tr>\n", "  </tbody>\n", "</table>\n", "</div>"], "text/plain": ["   fixed_acidity  volatile_acidity  citric_acid  residual_sugar  chlorides  \\\n", "0            7.4              0.70         0.00             1.9      0.076   \n", "1            7.8              0.88         0.00             2.6      0.098   \n", "2            7.8              0.76         0.04             2.3      0.092   \n", "3           11.2              0.28         0.56             1.9      0.075   \n", "4            7.4              0.70         0.00             1.9      0.076   \n", "\n", "   free_sulfur_dioxide  total_sulfur_dioxide  density    pH  sulphates  \\\n", "0                 11.0                  34.0   0.9978  3.51       0.56   \n", "1                 25.0                  67.0   0.9968  3.20       0.68   \n", "2                 15.0                  54.0   0.9970  3.26       0.65   \n", "3                 17.0                  60.0   0.9980  3.16       0.58   \n", "4                 11.0                  34.0   0.9978  3.51       0.56   \n", "\n", "   alcohol  quality color  \n", "0      9.4        5   red  \n", "1      9.8        5   red  \n", "2      9.8        5   red  \n", "3      9.8        6   red  \n", "4      9.4        5   red  "]}, "execution_count": 4, "metadata": {}, "output_type": "execute_result"}], "source": ["from ensae_teaching_cs.data import wines_quality\n", "from pandas import read_csv\n", "df = read_csv(wines_quality(local=True, filename=True))\n", "df.head()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 1 : afficher la distribution des notes\n", "\n", "La fonction [hist](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.hist.html) est simple, efficice."]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 2 : s\u00e9paration train / test\n", "\n", "La fonction est tellement utilis\u00e9e que vous la trouverez rapidement."]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 3 : la variable couleur n'est pas num\u00e9rique\n", "\n", "M... [OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)."]}, {"cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 3 : premier classifieur\n", "\n", "Vous trouverez aussi tout seul. Quelques fonctions pourront vous aider \u00e0 \u00e9valuer le mod\u00e8le [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html), [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)."]}, {"cell_type": "markdown", "metadata": {}, "source": ["Beaucoup mieux."]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 4 : courbe ROC\n", "\n", "Quelques aides..."]}, {"cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": ["from sklearn.metrics import roc_curve, auc\n", "\n", "# labels = pipe.steps[1][1].classes_\n", "# y_score = pipe.predict_proba(X_test)\n", "\n", "fpr = dict()\n", "tpr = dict()\n", "roc_auc = dict()\n", "# for i, cl in enumerate(labels):\n", "#     fpr[cl], tpr[cl], _ = roc_curve(y_test == cl, y_score[:, i])\n", "#     roc_auc[cl] = auc(fpr[cl], tpr[cl])"]}, {"cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": ["# fig, ax = plt.subplots(1, 1, figsize=(8,4))\n", "# for k in roc_auc:\n", "#     ax.plot(fpr[k], tpr[k], label=\"c%d = %1.2f\" % (k, roc_auc[k]))\n", "# ax.legend();"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 5 : anomalies\n", "\n", "Une anomalie est un point aberrant. Cela revient \u00e0 dire que sa probabilit\u00e9 qu'un tel \u00e9v\u00e9nement se reproduise est faible. Un mod\u00e8le assez connu est [EllipticEnvelope](https://scikit-learn.org/stable/auto_examples/plot_anomaly_comparison.html). On suppose que si le mod\u00e8le d\u00e9tecte une anomalie, un mod\u00e8le de pr\u00e9diction aura plus de mal \u00e0 pr\u00e9dire. On r\u00e9utilise le pipeline pr\u00e9c\u00e9dent en changeant juste la derni\u00e8re \u00e9tape."]}, {"cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": ["from sklearn.covariance import EllipticEnvelope\n"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 6 : r\u00e9gression\n", "\n", "La note est num\u00e9rique, pourquoi ne pas essayer une r\u00e9gression."]}, {"cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": ["from sklearn.ensemble import RandomForestRegressor"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 7 : intervalle de confiance\n", "    \n", "Comment constuire un intervalle de confiance avec un classifieur et un r\u00e9gresseur. Rien de th\u00e9orique, juste des id\u00e9es et un peu de bidouille."]}, {"cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": []}], "metadata": {"kernelspec": {"display_name": "Python 3", "language": "python", "name": "python3"}, "language_info": {"codemirror_mode": {"name": "ipython", "version": 3}, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.2"}}, "nbformat": 4, "nbformat_minor": 2}