Le code ASCII, avec ses 7 bits, ne fournit pas assez d’espace pour représenter simultanément tous les caractères des langues humaines.
Pour répondre aux exigences des différentes langues, Unicode a été développé. Il utilise jusqu’à 32 bits par caractère et pourrait donc distinguer plus de quatre milliards de caractères différents, mais est limité à environ un million de caractères autorisés.
Ceci permet de représenter tous les caractères précédemment utilisés par les humains, pour autant qu’ils soient inclus dans la norme Unicode.
En octobre 1991, après plusieurs années de développement, la version 1.0.0 de la norme Unicode a été publiée, qui ne codait alors que les écritures européennes, moyen-orientales et indiennes. Huit mois plus tard, la version 1.0.1 est sortie, codant pour la première fois les caractères d’Asie de l’Est. Avec la publication d’Unicode 2.0 en juillet 1996, la norme est passée des 65 536 points de code initiaux aux 1 114 112 points de code actuels, de U+0000
à U+10FFFF