Jeux de caractères utilisés par les polices

Toutes les polices utilisent un jeu de caractères. Un jeu de caractères contient des marques de ponctuation, des chiffres, des lettres majuscules et minuscules, ainsi que tous les autres caractères imprimables. Chaque élément d’un jeu de caractères est identifié par un nombre.

La plupart des jeux de caractères utilisés sont des sur-ensembles du jeu de caractères ASCII américain, qui définit des caractères pour les 96 valeurs numériques comprises entre 32 et 127. Il existe cinq groupes principaux de jeux de caractères :

  • Windows
  • Unicode
  • OEM (fabricant d’équipement d’origine)
  • Symbole
  • Spécifique au fournisseur

Jeu de caractères Windows

Le jeu de caractères Windows est le jeu de caractères le plus couramment utilisé. Il est essentiellement équivalent au jeu de caractères ANSI. Le caractère vide est le premier caractère du jeu de caractères Windows. Il a une valeur hexadécimale de 0x20 (décimale 32). Le dernier caractère du jeu de caractères Windows a une valeur hexadécimale de 0xFF (décimale 255).

De nombreuses polices spécifient un caractère par défaut. Chaque fois qu’une demande est faite pour un caractère qui n’est pas dans la police, le système fournit ce caractère par défaut. De nombreuses polices utilisant le jeu de caractères Windows spécifient le point (.) comme caractère par défaut. Les polices TrueType et OpenType utilisent généralement une zone ouverte comme caractère par défaut.

Les polices utilisent un caractère d’arrêt appelé quad pour séparer les mots et justifier le texte. La plupart des polices utilisant le jeu de caractères Windows spécifient que le caractère vide servira de caractère d’arrêt.

Jeu de caractères Unicode

Le jeu de caractères Windows utilise 8 bits pour représenter chaque caractère ; par conséquent, le nombre maximal de caractères qui peuvent être exprimés à l’aide de 8 bits est de 256 (2^8). Cela suffit généralement pour les langues occidentales, y compris les marques diacritiques utilisées dans Français, l’allemand, l’espagnol et d’autres langues. Toutefois, les langues orientales utilisent des milliers de caractères distincts, qui ne peuvent pas être encodés à l’aide d’un schéma de codage sur un octet. Avec la prolifération du commerce informatique, des schémas de codage sur deux octets ont été développés afin que les caractères puissent être représentés dans des séquences 8 bits, 16 bits, 24 bits ou 32 bits. Cela nécessite des algorithmes de passage complexes ; cependant, l’utilisation de jeux de code différents peut produire des résultats entièrement différents sur deux ordinateurs différents.

Pour résoudre le problème de plusieurs schémas de codage, la norme Unicode pour la représentation des données a été développée. Schéma de codage de caractères 16 bits, Unicode peut représenter 65 536 (2^16) caractères, ce qui est suffisant pour inclure toutes les langues dans le commerce informatique d’aujourd’hui, ainsi que les signes de ponctuation, les symboles mathématiques et la possibilité d’expansion. Unicode établit un code unique pour chaque caractère afin de garantir que la traduction de caractères est toujours exacte.

Jeu de caractères OEM

Le jeu de caractères OEM est généralement utilisé dans les sessions MS-DOS en plein écran pour l’affichage à l’écran. Les caractères 32 à 127 sont généralement les mêmes dans les jeux de caractères OEM, US ASCII et Windows. Les autres caractères du jeu de caractères OEM (0 à 31 et 128 à 255) correspondent aux caractères qui peuvent être affichés dans une session MS-DOS en plein écran. Ces caractères sont généralement différents des caractères Windows.

Jeu de caractères de symboles

Le jeu de caractères Symbole contient des caractères spéciaux généralement utilisés pour représenter des formules mathématiques et scientifiques.

Jeux de caractères spécifiques au fournisseur

De nombreuses imprimantes et autres périphériques de sortie fournissent des polices basées sur des jeux de caractères qui diffèrent des jeux Windows et OEM, par exemple, le jeu de caractères EBCDIC (Extended Binary Coded Decimal Interchange Code). Pour utiliser l’un de ces jeux de caractères, le pilote d’imprimante traduit du jeu de caractères Windows au jeu de caractères propre au fournisseur.