# TP : Implémentation Python - Codage de Huffman

# 1. Contexte

Cette séance a pour objet l'implémentation en Python du codage de Huffman dont le principe a été étudié lors d'une précédente séance.

__Pré-requis__ : disposer de la classe `Arbre`.

### Rappel 

Le codage de Huffman _minimise la taille en nombre de bits du message codé en se basant sur le nombre d’apparition de chaque caractère_ (__un caractère qui apparaît souvent aura un code plutôt court__).

Soit le tableau suivant, qui définit les caractères d'un alphabet et leur nombre d'apparition.

| Lettre | A | B | C | D | E | F | G | H |
| :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: |
| Occurrence | 240 | 140 | 160 | 51 | 280 | 49 | 45 | 35 |

Le codage de Huffman se présente comme un arbre binaire où les feuilles sont les carcatères de l'alphabet et le codage d'un caractère s'obtient par un parcours du chemin entre la racine et le noeud représentant le caractère.

![](https://g.gravizo.com/svg?graph%20G%20%7B%0Anode%20%5Bshape%3DMrecord%5D%3B%0AA%20%5Blabel%3D%22%3Cf0%3E%20A%20%7C%3Cf1%3E%20240%22%5D%3B%0AC%20%5Blabel%3D%22%3Cf0%3E%20C%20%7C%3Cf1%3E%20160%22%5D%3B%0AB%20%5Blabel%3D%22%3Cf0%3E%20B%20%7C%3Cf1%3E%20140%22%5D%3B%0AD%20%5Blabel%3D%22%3Cf0%3E%20D%20%7C%3Cf1%3E%2051%22%5D%3B%0AL%20%5Blabel%3D%22%3Cf0%3E%20300%22%5D%3B%0AE%20%5Blabel%3D%22%3Cf0%3E%20E%20%7C%3Cf1%3E%20280%22%5D%3B%0AF%20%5Blabel%3D%22%3Cf0%3E%20F%20%7C%3Cf1%3E%2049%22%5D%3B%0AG%20%5Blabel%3D%22%3Cf0%3E%20G%20%7C%3Cf1%3E%2045%22%5D%3B%0AH%20%5Blabel%3D%22%3Cf0%3E%20B%20%7C%3Cf1%3E%2035%22%5D%3B%0AJ%20%5Blabel%3D%22%3Cf0%3E%20100%22%5D%3B%0AI%20%5Blabel%3D%22%3Cf0%3E%2080%22%5D%3B%0AK%20%5Blabel%3D%22%3Cf0%3E%20180%22%5D%3B%0AN%20%5Blabel%3D%22%3Cf0%3E%20580%22%5D%3B%0AM%20%5Blabel%3D%22%3Cf0%3E%20420%22%5D%3B%0AO%20%5Blabel%3D%22%3Cf0%3E%201000%22%5D%3B%0A%0AI%20--%20G%5Blabel%3D%220%22%5D%3B%0AI%20--%20H%5Blabel%3D%221%22%5D%3B%0AJ%20--%20D%5Blabel%3D%220%22%5D%3B%0AJ%20--%20F%5Blabel%3D%221%22%5D%3B%0AK%20--%20J%5Blabel%3D%220%22%5D%3B%0AK%20--%20I%5Blabel%3D%221%22%5D%3B%0AL%20--%20C%5Blabel%3D%220%22%5D%3B%0AL%20--%20B%5Blabel%3D%221%22%5D%3B%0AM%20--%20A%5Blabel%3D%220%22%5D%3B%0AM%20--%20K%5Blabel%3D%221%22%5D%3B%0AN%20--%20L%5Blabel%3D%220%22%5D%3B%0AN%20--%20E%5Blabel%3D%221%22%5D%3B%0AO%20--%20N%5Blabel%3D%220%22%5D%3B%0AO%20--%20M%5Blabel%3D%221%22%5D%3B%0A%7D)

Il est possible de créer un tel arbre, __manuellement__ par les instructions :

```python
>>> c = Arbre(('C', 160))
>>> b = Arbre(('B', 140))
>>> r_1 = Arbre(('', 300), c, b)
>>> e = Arbre(('E', 280))
>>> r_2 = Arbre(('', 580), r_1, e)
...
...
```
__N.B__ : Les etiquettes des noeuds sont un tuple $(c, v)$ où $c$ est le caractère et $v$ la fréquence d'apparitions. Pour les noeuds internes, $c = $'' et $v$ la somme de étiquettes des fils gauche et droit.

### Objectif

- Créer un ensemble de fonctions permettant de compresser tout message selon le codage de Huffman.

Exemple d'utilisation :

```python
>>> message = "Lorem ipsum dolor sit amet, consectetur adipiscing elit..."
>>> frequences = creer_table_frequences(message)
>>> arbre_huffman = construire_arbre_huffman(frequences)
>>> codage = creer_table_codage(arbre_huffman)
>>> message_huffman = encoder(message, codage)
>>> print(message_huffman)
100100001101001101010111000110100000110010110001000011010001111...
```
- La suite du TP indique les spécifications des différentes fonctions utiles pour atteindre l'objectif.

## 2. Implémentation en Python

L'ensemble des fonctions suivantes sont à implémentées dans un fichier `huffman.py`.

💻 __À Faire 1__ : Coder la fonction `creer_table_frequences` dont la spécification est : 

```python
def creer_table_frequences(message):
    """
    Établit la table des fréquences des caractères dans message.
    :param message: (str) Un message
    :return: (dict) Un dictionnaire (cle, valeur) où la clé est un caractère de l'alphabet et la valeur son nombre d'apparitions dans le message
    :Tests:
        >>> creer_table_frequences("ABRACADABRA")
        {'A': 5, 'B': 2, 'R': 2, 'C': 1, 'D': 1}
        >>> creer_table_frequences("MISSISSIPPI")
        {'M': 1, 'I': 4, 'S': 4, 'P': 2}
    """
```

In [None]:
# Réponse


Le codage de Huffman repose en partie sur le fait de pouvoir comparer 2 noeuds, notamment de déterminer si un noeud $n_1$ est inférieur à un noeud $n_2$.

Un noeud $n$ a une étiquette ($c$, $v$) où $c$ est le caractère et $v$ le nombre d'occurrences.

Soit le prédicat $est\_inferieur(n_1, n_2)$ se définissant par :

$est\_inferieur(n_1, n_2) = \left\{ \begin {array} {ll} Vrai {~si~~} v_1 \lt v_2 {~ou~} (v_1 = v_2 {~et~} c_1 \lt c_2)\\  Faux {~sinon~}  \end{array}\right.$

💻 __À Faire 2__ : Coder le prédicat `est_inferieur` dont la spécification est :

```python
def est_inferieur(arbre_1, arbre_2):
    '''
    Indique si l'étiquette de l'arbre 1 est inférieure à celle de l'arbre 2
    :param arbre_1: (Arbre) Un arbre binaire
    ;param arbre_2: (Arbre) Un arbre binaire
    :return: True si l'étiquette de l'arbre_1 est inférieure à celle de l'arbre 2
    :Tests:
        >>> est_inferieur(Arbre(1), Arbre(3))
        True
        >>> est_inferieur(Arbre(1), Arbre(1))
        False
        >>> est_inferieur(Arbre(1), Arbre(('A', 3)))
        True
        >>> est_inferieur(Arbre(('B', 2)), Arbre(('A', 3)))
        True
        >>> est_inferieur(Arbre(('B', 3)), Arbre(('A', 3)))
        False
        >>> est_inferieur(Arbre(('A', 3)), Arbre(('B', 3)))
        True
    '''
```

In [None]:
# Réponse


💻 __À Faire 3__ : Coder la fonction `extraire_minimum` dont la spécification est :

```python
def extraire_minimum(foret):
    '''
    Extrait l'arbre de valeur minimale d'une fôret, i.e un ensemble d'arbres
    :param foret: (list) Un tableau d'arbre binaire
    :return: (Arbre) L'arbre de valeur minimale
    :Effet de bord: L'arbre de valeur minimale est supprimé de la fôret
    :Tests:
        >>> foret = [Arbre(('B', 1))]
        >>> print(extraire_minimum(foret))
        (('B', 1), ∆, ∆)
        >>> len(foret)
        0
        >>> foret = [Arbre(('A', 2)), Arbre(('B', 1))]
        >>> print(extraire_minimum(foret))
        (('B', 1), ∆, ∆)
        >>> len(foret)
        1
        >>> foret = [Arbre(('I', 4)), Arbre(('S', 4)), Arbre(3, Arbre(('P', 2)), Arbre(('M', 1)))]
        >>> print(extraire_minimum(foret))
        (3, (('P', 2), ∆, ∆), (('M', 1), ∆, ∆))
        >>> foret = [Arbre(('I', 4)), Arbre(('S', 4)), Arbre(('C', 4))]
        >>> print(extraire_minimum(foret))
        (('C', 4), ∆, ∆)
    '''
```

In [None]:
# Réponse


💻 __À Faire 4__ : Coder la fonction `construire_arbre_huffman` dont la spécification est :

```python
def construire_arbre_huffman(occurrences):
    """
    Construction de l'arbre de Huffman.
    :param occurrences: Un dictionnaire d'occurrences des caractères
    :return: (Arbre) Un Arbre représentant le codage de Huffman
    :Tests:
        >>> print(construire_arbre_huffman({'A': 1, 'B': 1}))
        (2, (('B', 1), ∆, ∆), (('A', 1), ∆, ∆))
        >>> print(construire_arbre_huffman({'M': 1, 'I': 4, 'S': 4, 'P': 2}))
        (11, (7, (('I', 4), ∆, ∆), (3, (('P', 2), ∆, ∆), (('M', 1), ∆, ∆))), (('S', 4), ∆, ∆))
    """
```

In [None]:
# Réponse


💻 __À Faire 5__ : Coder la procédure `parcours_arbre` dont la spécification est :

```python
def parcours_arbre(arbre, dictionnaire = {}, code = ''):
    '''
    Parcours l'arbre et construire le dictionnaire de codage
    :param arbre: (Arbre) Un arbre binaire
    :param dictionnaire: (dict) Un dictionnaire (cle, valeur) où la clé est le caractère de l'alphabet, la valeur sa représentation en binaire (str)
    :param code: (str) Le code binaire
    '''
```

In [None]:
# Réponse


💻 __À Faire 6__ : Coder la fonction `encoder` dont la spécification est :

```python
def encoder(message, huffman):
    '''
    Code un message selon le codage de huffman
    :param message: (str) Un message
    :param huffman: (dict) Un dictionnaire (cle, valeur) où la clé est le caractère de l'alphabet, la valeur sa représentation en binaire (str)
    :return: (str) Le message codé en binaire, selon le codage de Huffman
    :Tests:
        >>> encoder('CACHE', {'A': '10','B': '001', 'C': '000', 'D': '1100', 'E': '01', 'F': '1101', 'G': '1110', 'H': '1111'})
        '00010000111101'
        >>> encoder('BADGE', {'A': '10','B': '001', 'C': '000', 'D': '1100', 'E': '01', 'F': '1101', 'G': '1110', 'H': '1111'})
        '001101100111001'
    '''
```

In [None]:
# Réponse


💻 __À Faire 7__ : Coder la fonction `decoder` dont la spécification est :

```python
def decoder(code, huffman):
    '''
    Décode un message selon le codage de huffman
    :param code: (str) Un message codé en binaire
    :param huffman: (dict) Un dictionnaire (cle, valeur) où la clé est le caractère de l'alphabet, la valeur sa représentation en binaire (str)
    :return: (str) Le message décodé, selon le codage de Huffman
    :Tests:
        >>> decoder('00010000111101', {'A': '10','B': '001', 'C': '000', 'D': '1100', 'E': '01', 'F': '1101', 'G': '1110', 'H': '1111'})
        'CACHE'
        >>> decoder('001101100111001', {'A': '10','B': '001', 'C': '000', 'D': '1100', 'E': '01', 'F': '1101', 'G': '1110', 'H': '1111'})
        'BADGE'
    '''
```

In [None]:
# Réponse
