Uso dei contrassegni di ordine dei byte

I file di testo Unicode possono essere codificati in diversi formati, tra cui UTF-8, UTF-16 e UTF-32. Ognuno di questi formati può essere preceduto da un indicatore di ordine byte (BOM) che indica l'ordinamento dei byte utilizzato quando il testo è stato scritto. Nella tabella seguente sono elencati i contrassegni di ordine dei byte disponibili. Per UTF-8, il contrassegno dell'ordine dei byte è facoltativo, poiché i byte possono essere in un solo ordine. Per UTF-16 e UTF-32, il contrassegno dell'ordine dei byte è obbligatorio perché tali formati sono sensibili all'ordinamento dei byte.

Nota

Un byte order mark non è un carattere di controllo che seleziona l'ordine dei byte del testo.

Indicatore dell'ordine dei byte	Descrizione
EF BB BF	UTF-8
FF FE	UTF-16, little endian
FE FF	UTF-16, grande endian
FF FE 00 00	UTF-32, little endian
00 00 FE FF	UTF-32, big-endian (grande endian)

Nota

I prodotti Microsoft più datati utilizzano Windows-1252 o UCS-2 (a larghezza fissa UTF-16), con ordine dei byte little endian per "Unicode". Per le nuove applicazioni, è consigliabile usare UTF-8.

Idealmente, tutto il testo Unicode segue un solo set di regole di ordinamento dei byte. Ciò non è possibile, tuttavia, perché i microprocessori differiscono nella posizione del byte meno significativo. I processori Intel e MIPS posizionano prima il byte meno significativo, mentre i processori Motorola (e tutti i file Unicode invertiti in byte) lo posizionano per ultimo. Con un solo set di regole di ordinamento dei byte, gli utenti di un tipo di microprocessore sono costretti a scambiare l'ordine dei byte ogni volta che un file di testo normale viene letto o scritto in, anche se il file non viene mai trasferito a un altro sistema operativo basato su un microprocessore diverso.

La posizione preferita per specificare l'ordine dei byte è in un'intestazione di file, ma i file di testo non hanno intestazioni. Di conseguenza, Unicode ha definito un carattere (U+FEFF) e un non carattere (U+FFFE) come contrassegni di ordine dei byte. Sono immagini di byte speculari l'una dall'altra.

Poiché la sequenza U+FEFF è estremamente rara all'inizio di un normale file di testo non Unicode, può fungere da marcatore implicito o firma per identificare il file come file Unicode. Le applicazioni che leggono file di testo Unicode e non Unicode devono usare la presenza di questa sequenza come indicatore che il file è molto probabilmente un file Unicode. Confrontare questa tecnica con l'uso del marcatore MS-DOS EOF per terminare i file di testo.

Quando un'applicazione trova U+FEFF all'inizio di un file di testo, in genere elabora il file come file Unicode, anche se può eseguire ulteriori controlli euristici per la verifica. Un controllo di questo tipo può essere semplice come il test per scoprire se la variazione nei byte di ordine basso è molto superiore rispetto alla variazione nei byte di ordine elevato. Ad esempio, se il testo ASCII viene convertito in testo Unicode, ogni secondo byte è 0. Inoltre, controllare sia i caratteri di avanzamento riga e ritorno a capo (U+000A e U+000D) sia se la dimensione del file è pari o dispari può fornire un indicatore forte della natura del file.

Quando un'applicazione trova U+FFFE all'inizio di un file di testo, lo interpreta per indicare che il file è un file Unicode invertito in byte. L'applicazione può scambiare l'ordine dei byte o avvisare l'utente che si è verificato un errore.

Poiché il carattere di byte order mark Unicode non viene trovato in alcuna tabella codici, scompare se i dati vengono convertiti in ANSI. A differenza di altri caratteri Unicode, non viene sostituito da un carattere predefinito quando viene convertito. Se un indicatore di ordine dei byte viene trovato al centro di un file, non viene interpretato come carattere Unicode e non ha alcun effetto sull'output di testo.

Nota

Il valore Unicode U+FFFF È illegale nei file di testo normale e non può essere passato tra le applicazioni. È riservato per l'uso privato di un'applicazione.

Uso di caratteri speciali in Unicode

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2024-09-27

Uso dei contrassegni di ordine dei byte

Argomenti correlati

Commenti e suggerimenti

Risorse aggiuntive