Caracteres multibyte e largos
Um caractere multibyte é um caractere composto por sequências de um ou mais bytes. Cada sequência de bytes representa um único caractere no conjunto de caracteres estendido. Os caracteres multibyte são usados nos conjuntos de caracteres como Kanji.
Os caracteres largos são códigos de caracteres multilíngues que sempre têm 16 bits de largura. O tipo para constantes de caractere é char
; para caracteres largos, o tipo é wchar_t
. Como os caracteres largos são sempre de tamanho fixo, usar caracteres largos simplifica a programação com conjuntos de caracteres internacionais.
O literal de cadeia de caracteres largos L"hello"
se torna uma matriz de seis inteiros do tipo wchar_t
.
{L'h', L'e', L'l', L'l', L'o', 0}
A especificação Unicode é a especificação de caracteres largos. As rotinas da biblioteca em tempo de execução para converter entre caracteres multibyte e largos incluem mbstowcs
, mbtowc
, wcstombs
e wctomb
.