{"cells": [{"cell_type": "markdown", "metadata": {}, "source": ["# 1A.algo - La sous-s\u00e9quence de plus grande somme\n", "\n", "Ce probl\u00e8me est connu sur le nom de [Maximum subarray problem](http://en.wikipedia.org/wiki/Maximum_subarray_problem). Notion abord\u00e9e : programmation dynamique."]}, {"cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": ["%matplotlib inline"]}, {"cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [{"data": {"text/html": ["
run previous cell, wait for 2 seconds
\n", ""], "text/plain": [""]}, "execution_count": 3, "metadata": {}, "output_type": "execute_result"}], "source": ["from jyquickhelper import add_notebook_menu\n", "add_notebook_menu()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Enonc\u00e9\n", "\n", "On suppose qu'on a une liste $L=( l_1, l_2, ..., l_n)$. On souhaite trouver la sous-s\u00e9quence de plus grande somme. En d'autres termes, on veut trouver $(i^*,j^*)$ tels que :\n", "\n", "$\\sum_{k=i^*}^{j^*} l_k = \\max_{i,j} \\sum_{k=i}^{j} l_k$"]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Solution na\u00efve\n", "\n", "La premi\u00e8re solution consiste \u00e0 calculer les sommes de toutes les sous-s\u00e9quences et de garder les $i,j$ qui ont permis d'obtenir la meilleure sous-s\u00e9quence. On divise le programme en deux fonctions :\n", "\n", "* ``somme_partielle`` : calcule la somme de la sous-s\u00e9quence ``l[i:j]`` (co\u00fbt de la fonction : $O(n)$)\n", "* ``plus_grande_sous_liste`` : passe en revue toutes les sous-s\u00e9quences et retourne la meilleure (co\u00fbt de la fonction $O(n^2)$)\n", "\n", "Le co\u00fbt de cet algorithme est en $O(n^3)$."]}, {"cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [{"data": {"text/plain": ["[7, -1, 8]"]}, "execution_count": 4, "metadata": {}, "output_type": "execute_result"}], "source": ["def somme_partielle(li, i, j):\n", " r = 0\n", " for a in range (i, j) :\n", " r += li[a]\n", " return r\n", " # on pourrait juste \u00e9crire \n", " # return sum(li[i:j])\n", "\n", "def plus_grande_sous_liste(li):\n", " meilleur = min(li) # ligne A\n", " im, jm = -1, -1\n", " for i in range(0, len(li)):\n", " for j in range(i+1, len(li)+1): # ne pas oublier +1 car sinon\n", " # le dernier \u00e9l\u00e9ment n'est jamais pris en compte\n", " s = somme_partielle(li, i, j)\n", " if s > meilleur:\n", " meilleur = s\n", " im, jm = i, j\n", " return li [im:jm]\n", " \n", "# si li ne contient que des valeurs positives, la solution est \u00e9videmment la liste enti\u00e8re\n", "# c'est pourquoi il faut tester cette fonction avec des valeurs n\u00e9gatives\n", "li = [ 4,-6,7,-1,8,-50,3]\n", "m = plus_grande_sous_liste(li)\n", "m"]}, {"cell_type": "markdown", "metadata": {}, "source": ["La ligne A contient l'instruction ``meilleur = min(li)``. Pour une liste o\u00f9 tous les nombres sont n\u00e9gatifs, la meilleure sous-liste est constitu\u00e9 du plus petit \u00e9l\u00e9ment de la liste. Remplacer cette instruction par ``meilleur = 0`` a pour cons\u00e9quence de retourner une liste vide dans ce cas pr\u00e9cis. \n", "\n", "$cout(n) = \\sum_{i=0}^n \\sum_{j=i+1}^n j-i = \\sum_{i=0}^n \\sum_{j=0}^i j = \\sum_{i=0}^n \\frac{i(i+1)}{2} \\sim O(n^3)$"]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Solution plus rapide\n", "\n", "Il est possible de modifier cette fonction de telle sorte que le co\u00fbt soit en $O(n^2)$ car on \u00e9vite la r\u00e9p\u00e9tition de certains calculs lors du calcul de la somme des sous-s\u00e9quences. On peut \u00e9crire :\n", "\n", "$\\sum_{k=i}^{j+1} l_k = l_j + \\sum_{k=i}^{j} l_k$\n", "\n", "Dans la seconde boucle, il suffit d'ajouter l'\u00e9l\u00e9ment ``li[j]`` \u00e0 la somme pr\u00e9c\u00e9dente."]}, {"cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["[7, -1, 8]\n", "[78, 9, 7, 7]\n"]}, {"data": {"text/plain": ["[7, -1, 8]"]}, "execution_count": 5, "metadata": {}, "output_type": "execute_result"}], "source": ["def plus_grande_sous_liste_n2(li):\n", " meilleur = 0\n", " im, jm = -1, -1\n", " for i in range (0, len(li)):\n", " s = 0\n", " for j in range(i, len(li)):\n", " s += li[j]\n", " if s > meilleur:\n", " meilleur = s\n", " im, jm = i, j+1\n", " return li[im:jm]\n", " \n", "li = [ 4, -6, 7, -1, 8, -50, 3]\n", "m = plus_grande_sous_liste_n2(li)\n", "print(m)\n", "\n", "li = [1, 2, 3, 4, 5, -98, 78, 9, 7, 7]\n", "m = plus_grande_sous_liste_n2(li)\n", "print(m)\n", "\n", "li = [0, 2, 4, -7, -2, 7, -1, 8, -10, 3]\n", "m = plus_grande_sous_liste_n2(li)\n", "m"]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Solution dichotomique\n", "\n", "Il existe une derni\u00e8re version plus rapide encore. Si on consid\u00e8re la liste $L=(l_1, ..., l_n)$ dont on cherche \u00e0 extraire la sous-s\u00e9quence de somme maximale. Supposons que $l_a$ appartienne \u00e0 cette sous-s\u00e9quence. On construit la fonction suivante :\n", "\n", "$f(a,k) =\\left \\{ \\begin{array}{ll} \\sum_{i=a}^{k} l_i &si \\; k > a \\\\ \\sum_{i=k}^{a} l_i &si \\; k < a \\end{array} \\right .$\n", "\n", "On cherche alors les valeurs $k_1$ et $k_2$ telles que :\n", "\n", "$\\begin{array}{rcl} f(a,k_1) &=& \\max_{ka} f(a,k) \\end{array}$\n", "\n", "La sous-s\u00e9quence de somme maximale cherch\u00e9e est $[k_1,k_2]$ avec $a$ dans cet intervalle et le co\u00fbt de cette recherche est en $O(n)$. Mais ceci n'est vrai que si on sait que $l_a$ appartient \u00e0 la sous-s\u00e9quence de somme maximale.\n", "\n", "Autre consid\u00e9ration : pour deux listes $l_1$ et $l_2$, la s\u00e9quence maximale de la r\u00e9union des deux appartient soit \u00e0 l'une, soit \u00e0 l'autre, soit elle inclut le point de jonction.\n", "\n", "Ces deux id\u00e9es mises bout \u00e0 bout donne l'algorithme suivant construit de fa\u00e7on r\u00e9cursive. On coupe la liste en deux parties de longueur \u00e9gale :\n", "\n", "* On calcule la meilleure s\u00e9quence sur la premi\u00e8re sous-s\u00e9quence.\n", "* On calcule la meilleure s\u00e9quence sur la seconde sous-s\u00e9quence.\n", "* On calcule la meilleure s\u00e9quence en suppose que l'\u00e9l\u00e9ment du milieu appartient \u00e0 cette s\u00e9quence.\n", "\n", "La meilleure s\u00e9quence est n\u00e9cessairement l'une des trois."]}, {"cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["[7, -1, 8]\n", "[78, 9, 7, 7]\n"]}, {"data": {"text/plain": ["[7, -1, 8]"]}, "execution_count": 6, "metadata": {}, "output_type": "execute_result"}], "source": ["def plus_grande_sous_liste_nlnn2_r(li, i, j):\n", " if i == j:\n", " return 0\n", " elif i+1 == j:\n", " return li[i], i, i+1\n", " \n", " milieu = (i+j) // 2\n", " \n", " # on coupe le probl\u00e8me deux\n", " ma, ia, ja = plus_grande_sous_liste_nlnn2_r(li, i, milieu)\n", " mb, ib, jb = plus_grande_sous_liste_nlnn2_r(li, milieu, j)\n", " \n", " # pour aller encore plus vite dans un cas pr\u00e9cis\n", " if ja == ib:\n", " total = ma + mb\n", " im, jm = ia, jb\n", " else :\n", " # on \u00e9tudie la jonction\n", " im, jm = milieu, milieu+1\n", " meilleur = li[milieu]\n", " s = meilleur\n", " for k in range(milieu+1, j):\n", " s += li[k]\n", " if s > meilleur:\n", " meilleur = s\n", " jm = k + 1\n", " \n", " total = meilleur\n", " meilleur = li[milieu]\n", " s = meilleur\n", " for k in range(milieu-1, i-1, -1):\n", " s += li[k]\n", " if s > meilleur:\n", " meilleur = s\n", " im = k\n", " \n", " total += meilleur - li[milieu]\n", " \n", " if ma >= max(mb,total):\n", " return ma, ia, ja\n", " elif mb >= max(ma,total): \n", " return mb, ib, jb\n", " else:\n", " return total, im, jm\n", " \n", "def plus_grande_sous_liste_nlnn2(li):\n", " m, i, j = plus_grande_sous_liste_nlnn2_r(li, 0, len(li))\n", " return li[i:j]\n", " \n", "li = [ 4, -6, 7, -1, 8, -50, 3]\n", "m = plus_grande_sous_liste_nlnn2(li)\n", "print(m)\n", "\n", "li = [1, 2, 3, 4, 5, -98, 78, 9, 7, 7]\n", "m = plus_grande_sous_liste_nlnn2(li)\n", "print(m)\n", "\n", "li = [0, 2, 4, -7, -2, 7, -1, 8, -10, 3]\n", "m = plus_grande_sous_liste_nlnn2(li)\n", "m"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Le co\u00fbt de cette fonction est au pire en $O(n \\ln n)$. A chaque it\u00e9ration, on effectue trois calculs :\n", "\n", "* meilleure s\u00e9quence \u00e0 droite : $f(n/2)$\n", "* meilleure s\u00e9quence \u00e0 gauche : $f(n/2)$\n", "* meilleure s\u00e9quence incluant $a$ : $n$\n", "\n", "Le co\u00fbt de l'iteration $n$ est $f(n)=n + 2f(n/2)$ avec $f(1)=0$. On calcule les premi\u00e8res termes : "]}, {"cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["f(2)=2 --> f(2)/2 = 1.0\n", "f(4)=8 --> f(4)/4 = 2.0\n", "f(8)=24 --> f(8)/8 = 3.0\n", "f(16)=64 --> f(16)/16 = 4.0\n", "f(32)=160 --> f(32)/32 = 5.0\n", "f(64)=384 --> f(64)/64 = 6.0\n", "f(128)=896 --> f(128)/128 = 7.0\n", "f(256)=2048 --> f(256)/256 = 8.0\n", "f(512)=4608 --> f(512)/512 = 9.0\n"]}], "source": ["cout = lambda n: 0 if n == 1 else n + 2 * cout(n//2)\n", "for i in range(1, 10):\n", " print(\"f({0})={1} --> f({0})/{0} = {2}\".format(2**i, cout(2**i), cout(2**i) / 2**i))"]}, {"cell_type": "markdown", "metadata": {}, "source": ["On suppose que $f(2^n)=n2^n \\Leftrightarrow f(n) = n \\ln_2 n$. Il suffit de v\u00e9rifier cela avec la r\u00e9currence : \n", "\n", "$\\begin{array}{rcl} f(n) &=& n + 2f(\\frac{n}{2}) = n + 2 \\frac{n}{2} \\ln_2(\\frac{n}{2}) \\\\ &=& n + n \\ln_2(n) - n\\ln_2(2) = n + n\\ln_2(n) - n = n\\ln_2 n\\end{array}$\n", "\n", "C'est le co\u00fbt d'une it\u00e9ration. Comme \u00e0 chaque it\u00e9ration on coupe le probl\u00e8me en deux, le co\u00fbt total de l'algorithme est :\n", "\n", "$\\begin{array}{rcl} C(2^n) &=& f(2^n) + 2f(2^{n-1}) + 4f(2^{n-2}) + ... + 2^{n-1}f(2) = \\sum_{k=1}^{n} 2^{n-k} f(2^k) \\\\ &=& \\sum_{k=1}^n 2^{n-k} 2^k k = \\sum_{k=1}^n 2^n k = 2^{n-1}n(n-1) \\leqslant 2^{n-1} n^2 \\end{array}$\n", "\n", "Par cons\u00e9quent, le co\u00fbt est en $C(n) \\sim O(n \\ln^2 n)$."]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Solution lin\u00e9aire\n", "\n", "La derni\u00e8re solution est la plus rapide. Elle consiste \u00e0 parcourir la liste dans le sens croissant des indices et \u00e0 construire la s\u00e9rie cumul\u00e9e."]}, {"cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [{"data": {"image/png": "\n", "text/plain": ["
"]}, "metadata": {"needs_background": "light"}, "output_type": "display_data"}], "source": ["import matplotlib.pyplot as plt\n", "\n", "li = [0, 2, 4, -7, -2, 7, -1, 8, -10, 3]\n", "cumul = [li[0]]\n", "for i in li[1:]: \n", " cumul.append( cumul[-1] + i )\n", "cumul2 = [li[0]]\n", "for i in li[1:]:\n", " cumul2.append(max(cumul2[-1] + i, 0))\n", "plt.plot(cumul, label=\"cumul\")\n", "plt.plot(cumul2, label=\"cumul2\")\n", "plt.plot([0 for c in cumul])\n", "plt.legend()\n", "plt.title(\"somme cumul\u00e9e\");"]}, {"cell_type": "markdown", "metadata": {}, "source": ["La courbe devient n\u00e9gative au quatri\u00e8me nombre. L'astuce consiste \u00e0 dire qu'on peut traiter les deux ensembles s\u00e9par\u00e9ment et que la meilleure sous-s\u00e9quence n'inclura pas ce nombre en quatri\u00e8me position. Si on cherche la meilleure sous-s\u00e9quence se terminant \u00e0 la position $i$, il suffit juste de revenir en arri\u00e8re et de trouver le minimum de la courbe cumul\u00e9e avant la position $i$. Pour $i=5$, le point le plus bas qui pr\u00e9c\u00e8de est le point $k=3$. Au point $i=3$, on sait qu'il n'existe pas de sous-s\u00e9quence positive pr\u00e9c\u00e9dent $i=3$.\n", "\n", "On d\u00e9coupe la courbe en segments $[[i,j]]$ v\u00e9rifiant $l_{i-1} < 0 \\leqslant l_i$ et $\\sum_{k=1}^{j} l_k < 0$ et $l_{j+1} \\geqslant 0$."]}, {"cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [{"data": {"image/png": "\n", "text/plain": [""]}, "execution_count": 9, "metadata": {}, "output_type": "execute_result"}], "source": ["from IPython.core.display import Image\n", "Image(\"sommemax.png\")"]}, {"cell_type": "markdown", "metadata": {}, "source": ["On parcourt la s\u00e9rie cumul\u00e9e. A chaque fois qu'on passe sous z\u00e9ro, au premier nombre positif suivant, on red\u00e9marre \u00e0 z\u00e9ro. La sous-s\u00e9quence de somme maximale est forc\u00e9ment dans un de ces tron\u00e7ons, elle a pour point de d\u00e9part le premier \u00e9l\u00e9ment et pour point d'arriv\u00e9e le maximum obtenu sur le tron\u00e7on en question : pour chaque point $x,Cumul2(x)$ d'un tron\u00e7on, le minimum de la courbe cumul\u00e9e pr\u00e9c\u00e9dent $x$ est n\u00e9cessairement le premier \u00e9l\u00e9ment du tron\u00e7on."]}, {"cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["[7, -1, 8]\n", "[78, 9, 7, 7]\n"]}, {"data": {"text/plain": ["[7, -1, 8]"]}, "execution_count": 10, "metadata": {}, "output_type": "execute_result"}], "source": ["def plus_grande_sous_liste_n(li):\n", " meilleur = [None for i in li]\n", " somme = [None for i in li]\n", " best = None\n", " \n", " for i, el in enumerate(li):\n", " if el >= 0:\n", " if i > 0:\n", " somme[i] = max(somme[i-1], 0) + el\n", " meilleur[i] = meilleur[i-1] if somme[i-1] >= 0 else i\n", " else:\n", " somme[i] = el\n", " meilleur[i] = i\n", " if best is None or somme[i] > somme[best]:\n", " best = i\n", " else:\n", " somme[i] = (somme[i-1] + el) if i > 0 else el\n", " if somme[i] >= 0:\n", " meilleur[i] = meilleur[i-1]\n", " \n", " i, j = meilleur[best], best+1\n", " return li [i:j]\n", " \n", "li = [4, -6, 7, -1, 8, -10, 3]\n", "m = plus_grande_sous_liste_n(li)\n", "print(m) # affiche [7, -1, 8]\n", "\n", "li = [1, 2, 3, 4, 5, -98, 78, 9, 7, 7]\n", "m = plus_grande_sous_liste_n(li)\n", "print(m)\n", "\n", "li = [0, 2, 4, -7, -2, 7, -1, 8, -10, 3]\n", "m = plus_grande_sous_liste_n(li)\n", "m"]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Comparaison des temps de calcul\n", "\n", "On effectue cela sur une liste de nombres al\u00e9atoire n\u00e9gatifs et positifs."]}, {"cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": ["import random\n", "li100 = [random.randint(-10, 50) for i in range(0,100)]"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Co\u00fbt en $O(n^3)$ :"]}, {"cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["14.4 ms \u00b1 1.12 ms per loop (mean \u00b1 std. dev. of 7 runs, 100 loops each)\n"]}], "source": ["%timeit plus_grande_sous_liste(li100)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Co\u00fbt en $O(n^2)$ :"]}, {"cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["519 \u00b5s \u00b1 58 \u00b5s per loop (mean \u00b1 std. dev. of 7 runs, 1000 loops each)\n"]}], "source": ["%timeit plus_grande_sous_liste_n2(li100)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Co\u00fbt en $O(n \\ln^2 n)$ :"]}, {"cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["146 \u00b5s \u00b1 16.9 \u00b5s per loop (mean \u00b1 std. dev. of 7 runs, 10000 loops each)\n"]}], "source": ["%timeit plus_grande_sous_liste_nlnn2(li100)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Co\u00fbt en $O(n)$ :"]}, {"cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [{"name": "stdout", "output_type": "stream", "text": ["68.2 \u00b5s \u00b1 8.44 \u00b5s per loop (mean \u00b1 std. dev. of 7 runs, 10000 loops each)\n"]}], "source": ["%timeit plus_grande_sous_liste_n(li100)"]}, {"cell_type": "markdown", "metadata": {}, "source": ["### Application"]}, {"cell_type": "markdown", "metadata": {}, "source": ["Le [drawdown](http://en.wikipedia.org/wiki/Drawdown_%28economics%29) est un indicateur de performance pour les syst\u00e8mes de trading. Il mesure la perte maximale enregistr\u00e9e sur une p\u00e9riode. En d'autres, il correspond \u00e0 la sous-s\u00e9quence de somme minimale. On vient de montrer qu'il n'est pas plus long \u00e0 calculer qu'une moyenne."]}, {"cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": []}], "metadata": {"kernelspec": {"display_name": "Python 3", "language": "python", "name": "python3"}, "language_info": {"codemirror_mode": {"name": "ipython", "version": 3}, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.2"}}, "nbformat": 4, "nbformat_minor": 2}