Les systèmes d'encodage, de l'ASCII à l'Unicode

Communiquer dans plusieurs langues implique d’avoir des systèmes d'encodage adaptés à nos alphabets et idéogrammes respectifs. ASCII, le vétéran disponible depuis 1968, laisse progressivement la place à l'Unicode, lancé en 1991. Mais il faut attendre 2008 pour que les deux systèmes d'encodage soient également représentés sur l'internet, et 2010 pour que l'Unicode supplante définitivement l'ASCII.
ASCII
Le premier système d'encodage informatique fut l’ASCII (American standard code for information interchange). Publié en 1968 aux États-Unis par l’American National Standards Institute (ANSI), avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques caractères spéciaux, le tout correspondant aux touches du clavier anglophone.
L'ASCII permet uniquement la lecture de l’anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, y compris le français, et à plus forte raison les langues non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite essentiellement à l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) prennent en compte les caractères accentués de quelques langues européennes. La variante pour le français, par exemple, est définie par la norme ISO-8859-1 (ISO-Latin-1).
Avec le développement du web dans les années 1990, l’échange des données s’internationalise de plus en plus. On ne peut plus se limiter à l’utilisation de l’anglais et de quelques langues européennes, traduites par un système d’encodage datant de 1968. De plus, le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Unicode
Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage «universel» sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. À la grande satisfaction des linguistes, il remplace progressivement l’ASCII. L’Unicode se décline en plusieurs variantes en fonction des besoins, par exemple UTF-8, UTF-16 et UTF-32 (UTF: Unicode transformation format). Il devient une composante des spécifications du World Wide Web Consortium (W3C), l'organisme international chargé du développement du web.
L’utilisation de l’Unicode se généralise en 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.
Dix ans plus tard, en 2008, les deux systèmes d'encodage sont également représentés sur l'internet, à savoir 50 % pour les fichiers en ASCII et 50 % pour les fichiers en Unicode.
En 2010, l'Unicode poursuit sa progression avec le vent en poupe, et dépasse désormais l'ASCII, ce qui était bien son but lors de son lancement il y a près de vingt ans, preuve qu'il faut du temps pour toute chose, y compris dans le domaine informatique.

Copyright © 2010 Marie Lebert. Tous droits réservés. Avec diffusion en ligne par ActuaLitté.