Unicode

Publié le 29 avril 2013 par Jperino @Jonoripe

 J’ai rencontré l’autre jour un monsieur qui maîtrise 4 alphabets et qui en déchiffre un cinquième.

Pas mal pour un simple employé de bureau !

Combien pensez-vous qu’il existe sur terre d’alphabets et plus généralement de manière d’écrire ? Pas fastoche comme question. C’est pourtant le genre de question à laquelle un ordinateur, ou du moins un base de données doit pouvoir répondre.

Pour résoudre ce difficile problème, on a créé un standard mondial appelé UNICODE qui évolue avec le temps. La version, Unicode 6.2.0, a été publiée en septembre 2012. Cette version n’est pas définitive mais il ne manque que des langues ou symboles très anciens et très exotiques et quelques milliers de points de détail amenés chaque jour par de fins linguistes chipoteurs. La représentation de tous ces caractères est un casse-tête terrible qui nécessite un certains nombres d'astuces et de compromis que je vous épargnerais ici.

Nostalgie: Pour les anciens de informaticiens, on se souvient que l’on pouvait coder l’alphabet latin sans accent sur 6 bits mais que pour des raisons pratiques on a utilisé rapidement l’octet et ses 8 bits qui permettaient 256 caractères. Il y eu donc l’EBCDIC (Extended Binary Coded Decimal Interchange Code) créé par IBM avec les cartes perforées. Puis, il y eut l’ASCII (American Standard Code for Information Interchange) normalisé au départ pour le télégraphe puis devenu LE standard intégré dans l’UNICODE sous le nom ce C0.

Pour le fun, quelques langues et codages que permet l'UNICODE, vous en reconnaitrez quelques unes :

Latin de base, Supplément Latin-1, Latin étendu A, Latin étendu B, Alphabet phonétique international, Grec et copte, Cyrillique, Arménien, Hébreu, Arabe, Syriaque, Thâna, Dévanâgarî, Bengali, Gourmoukhî, Goudjerate, Oriya, Tamoul, Télougou, Kannara, Malayalam, Singhalais, Thai, Lao, Tibétain, Birman, Géorgien, Jamos hangûl, Éthiopien, Chérokî, (Syllabaires canadiens : Chilcotins, Dakelh, Langues athapascanes, Inuktitut...), Ogam, Runes, Tagalog, Hanounóo, Bouhide, Tagbanoua, Khmer, Mongol, Limbou, Taï-le, Tifinagh et néo-Tifinagh, Idéogrammes-clés-symboles-lettres et mois CJC Coréen-Japonais-Chinois, Hiragana et Katakana (Japon), Bopomofo (Chine), Jamos de compatibilité hangûls, Kanboun, Syllabaire yi des Monts frais (pour le  nisu ou yi méridional qui est une des variétés de langue lolo-birmane parlée par la minorité yi dans le Sud du Yunnan), Hangûl, Gotique, Ougaritique, Déséret, Shavien, Osmanya, Syllabaire chypriote

Plus toutes sortes de symboles, ponctuation, divers exposants et indices, nombres, flèches, opérateurs mathématiques, signes techniques divers,  reconnaissance optique de caractères, filets, pavés, formes géométriques, combinaisons Braille, description idéophonographique, Symboles musicaux byzantins, Symboles musicaux occidentaux, Symboles du Classique du mystère suprême

Le plus hallucinant ce sont ces symboles du classique du mystère suprême. Ils semblent venir de loin... de bien avant Jésus Christ... Ce sont des représentations binaires, déjà, qui se trouvent sous la forme de monogrammes, de trigrammes, de tétragrammes et d’hexagramme. Extraits du Yi-King ou Livre des transformations de l'archaïque magie chinoise. Pour info quelques tétragrammes:

Tétragramme de la difficulté initiale, du garder petit, de l'attente, du bourgeonnement, de la juvénilité, de l'ascension, de la pénétration, de l'atteinte du moment opportun, du contact, de la retenue, de la suite...

Ils sont forts ces chinois !