Compression de données sans perte par la lumière

Lorsque l'on parle de compression de données sans perte, on pense tout de suite aux algorithmes qui font références dans ce domaine comme RLE, Huffman, LZW.

- RLE (pour run-length encoding) : c'est un algorithme très efficace pour compresser des documents en noir et blanc.Il suffit de compter le nombre de pixels de chaque séquence et d'indiquer dans le fichier compressé ce nombre et la couleur correspondante.

- Codage de Huffman : c'est un algorithme basé sur la détermination d'un code à partir d'un ensemble de probabilités obtenu en observant les fréquences d'apparition des symboles d'un texte source. La représentation graphique est un arbre composé de noeuds et de feuilles. Les noeuds représentant les poids et les feuilles représentant les caractères ou symboles.

- LZW (pour Lempel-Ziv-Welch) : Le principe de cet algorithme est simple, il parcours un texte puis concatène le code ASCII de deux caractères qui se suivent et enfin stocke le résultat dans une table.
Chaque fois qu'il rencontrera à nouveau cette chaine de 2 caractères, elle sera remplacée par le code ASCII obtenu précédemment. Les tables créées s'appellent également des arbres des suffixes. Tout un ensemble d'outils mathématique peut être utilisé pour les analyser, tels que les méthodes de la combinatoire analytique ou encore l'analyse complexe, mais aussi les séries génératrices et les probabilités.

Ces trois algorithmes sont à l'origine de nombreux autres apparus après.
Enfin des méthodes récentes telles que celles utilisant des anti-dictionnaires semblent très prometteuses à l'heure du Big Data et de la Business Intelligence. Le principe est de construire des dictionnaires de mots n'apparaissant pas dans le texte à compresser. Asymptotiquement le nombre moyen de mots dans cet  anti-dictionnaire sur un ensemble de textes de taille n se comporte en Kn/h+o(n). K étant une constante déterminée explicitement et h étant l'entropie du modèle probabiliste.

Voilà un peu l'état des lieux de cet univers très dynamique et riche en propositions.

Pour en revenir au sujet de cet article qui est 'Compression de données sans perte par la lumière', je me suis intéressé à la possibilité de faire de la compression de données en utilisant non seulement un algorithme mais aussi des procédés d'ordre physique à partir de technologies émergentes.
Le résultat se trouve dans un document, que vous pouvez télécharger pour lecture à l'adresse suivante :

http://www.strangemenstudio.com/telechargement/LuxCompress.pdf

Le but de cette recherche est double, à savoir obtenir une compression très importante (mais sans perte) des données et pouvoir les décompresser dans des temps courts (ce qui permettrait le streaming par exemple ou encore la lecture d'un texte volumineux en décompression rapide).

Il y a aussi une dimension écologique, en effet le nombre de datacenter ne cesse de croitre du fait d'une collecte de données à stocker toujours plus importante (Big Data)  et tout ceci nécessite encore de l'énergie fossile pour la majorité d'entre eux et donc contribue au réchauffement climatique.

Un algorithme de compression très efficace pourrait ralentir le développement des datacenters, voir réduire leur volume actuel et ainsi diminuer leur impact climatologique. Des économies très importantes seraient également réalisées par les sociétés qui gèrent ces datacenters.

Je vous souhaite une bonne lecture de ma méthode de compression et n'hésitez pas à me faire part de vos remarques et suggestions pour l'améliorer.

Olivier EDWIGE

Commentaires

Articles les plus consultés