Set di caratteri usati dai tipi di carattere

Tutti i tipi di carattere usano un set di caratteri. Un set di caratteri contiene segni di punteggiatura, numeri, lettere maiuscole e minuscole e tutti gli altri caratteri stampabili. Ogni elemento di un set di caratteri è identificato da un numero.

La maggior parte dei set di caratteri in uso sono superset del set di caratteri ASCII degli Stati Uniti, che definisce i caratteri per i valori numerici da 32 a 127. Esistono cinque gruppi principali di set di caratteri:

  • Windows
  • Unicode
  • OEM (produttore di attrezzature originali)
  • Simbolo
  • Specifica del fornitore

Set di caratteri di Windows

Il set di caratteri di Windows è il set di caratteri più comunemente usato. È essenzialmente equivalente al set di caratteri ANSI. Il carattere vuoto è il primo carattere nel set di caratteri di Windows. Ha un valore esadecimale di 0x20 (decimale 32). L'ultimo carattere nel set di caratteri Windows ha un valore esadecimale di 0xFF (decimale 255).

Molti tipi di carattere specificano un carattere predefinito. Ogni volta che viene effettuata una richiesta per un carattere non presente nel tipo di carattere, il sistema fornisce questo carattere predefinito. Molti tipi di carattere usando il set di caratteri Di Windows specificano il punto (.) come carattere predefinito. I tipi di carattere TrueType e OpenType usano in genere una casella aperta come carattere predefinito.

I tipi di carattere usano un carattere di interruzione denominato quad per separare le parole e giustificare il testo. La maggior parte dei tipi di carattere usando il set di caratteri Di Windows specifica che il carattere vuoto fungerà da carattere di interruzione.

Set di caratteri Unicode.

Il set di caratteri di Windows usa 8 bit per rappresentare ogni carattere; pertanto, il numero massimo di caratteri che possono essere espressi usando 8 bit è 256 (2^8). Questo è in genere sufficiente per le lingue occidentali, inclusi i segni diacritici usati in francese, tedesco, spagnolo e altre lingue. Tuttavia, le lingue orientali utilizzano migliaia di caratteri separati, che non possono essere codificati usando uno schema di codifica a byte singolo. Con la proliferazione degli schemi di codifica a doppio byte sono stati sviluppati in modo che i caratteri possano essere rappresentati in sequenze a 8 bit, a 16 bit, a 24 bit o a 32 bit. Ciò richiede algoritmi di passaggio complessi; anche in questo caso, l'uso di set di codice diversi potrebbe produrre risultati completamente diversi in due computer diversi.

Per risolvere il problema di più schemi di codifica, è stato sviluppato lo standard Unicode per la rappresentazione dei dati. Uno schema di codifica dei caratteri a 16 bit, Unicode può rappresentare 65.536 (2^16 caratteri), che è sufficiente includere tutte le lingue nel commercio informatico, nonché segni di punteggiatura, simboli matematici e spazio per l'espansione. Unicode stabilisce un codice univoco per ogni carattere per garantire che la traduzione dei caratteri sia sempre accurata.

Set di caratteri OEM

Il set di caratteri OEM viene in genere usato nelle sessioni MS-DOS a schermo intero per la visualizzazione dello schermo. I caratteri da 32 a 127 sono in genere uguali nei set di caratteri OEM, ASCII e Windows. Gli altri caratteri nel set di caratteri OEM (da 0 a 31 e da 128 a 255) corrispondono ai caratteri che possono essere visualizzati in una sessione MS-DOS a schermo intero. Questi caratteri sono in genere diversi dai caratteri di Windows.

Set di caratteri simbolo

Il set di caratteri Simbolo contiene caratteri speciali in genere usati per rappresentare formule matematiche e scientifiche.

Set di caratteri specifici del fornitore

Molte stampanti e altri dispositivi di output forniscono tipi di carattere basati su set di caratteri diversi dai set di caratteri Windows e OEM, ad esempio il set di caratteri EBCDIC (Extended Binary Coded Decimal Interscambi Coded Decimal Code( EBCDIC). Per usare uno di questi set di caratteri, il driver della stampante converte dal set di caratteri Windows impostato sul set di caratteri specifico del fornitore.