Tokens e conjuntos de caracteres

2023-04-03

O texto de um programa C++ consiste em tokens e espaço em branco. Um token é o menor elemento de um programa em C/C++ que é significativo para o compilador. O analisador C++ reconhece esses tipos de tokens:

Tokens geralmente são separados por espaço em branco, que poderá ser um ou mais:

Em branco
Tabulações horizontais ou verticais
Novas linhas
Avanços de página
Comentários

Conjunto de caracteres de origem básico

O padrão C++ especifica um conjunto de caracteres de origem básico que poderá ser usado em arquivos de origem. Para representar caracteres fora desse conjunto, é possível especificar caracteres adicionais usando um nome de caractere universal. A implementação do MSVC permite caracteres adicionais. O conjunto de caracteres de origem básico consiste em 96 caracteres que poderão ser usados em arquivos de origem. Esse conjunto inclui caractere de espaço, tabulação horizontal, tabulação vertical, avanço de página e caracteres de controle de nova linha, e este conjunto de caracteres gráficos:

a b c d e f g h i j k l m n o p q r s t u v w x y z

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

0 1 2 3 4 5 6 7 8 9

_ { } [ ] # ( ) < > % : ; . ? * + - / ^ & | ~ ! = , \ " '

Seção específica da Microsoft

O MSVC inclui o caractere $ como membro do conjunto de caracteres de origem básico. O MSVC também permite que um conjunto adicional de caracteres seja usado em arquivos de origem, com base na codificação de arquivo. Por padrão, o Visual Studio armazena os arquivos de origem usando a página de código padrão. Quando os arquivos de origem são salvos usando uma página de código específica da localidade ou uma página de código Unicode, o MSVC permite usar qualquer um dos caracteres dessa página de código no código-fonte, exceto os códigos de controle não permitidos explicitamente no conjunto de caracteres de origem básico. Por exemplo, você poderá colocar caracteres japoneses em comentários, identificadores ou literais de cadeia de caracteres se salvar o arquivo usando uma página de código em japonês. O MSVC não permite sequências de caracteres que não possam ser convertidas em caracteres multibyte válidos ou pontos de código Unicode. Dependendo das opções do compilador, nem todos os caracteres permitidos poderão aparecer nos identificadores. Para obter mais informações, consulte Identificadores.

Fim da seção específica da Microsoft

Nomes de caracteres universais

Como os programas C++ podem usar muito mais caracteres do que os especificados no conjunto de caracteres de origem básico, você poderá especificar esses caracteres de maneira portátil usando nomes de caracteres universais. Um nome de caractere universal consiste em uma sequência de caracteres que representam um ponto de código Unicode. E assumem duas formas. Use \UNNNNNNNN para representar um ponto de código Unicode do formulário U+NNNNNNNN, em que NNNNNNNN é o número do ponto de código hexadecimal de oito dígitos. Use \uNNNN de quatro dígitos para representar um ponto de código Unicode do formulário U+0000NNNN.

Nomes de caracteres universais podem ser usados em identificadores e em literais de cadeia de caracteres e caracteres. Um nome de caractere universal não pode ser usado para representar um ponto de código substituto no intervalo 0xD800-0xDFFF. Em vez disso, use o ponto de código desejado, e o compilador gerará automaticamente os substitutos necessários. Restrições adicionais se aplicam aos nomes de caracteres universais que podem ser utilizados em identificadores. Para obter mais informações, consulte Identificadores e Cadeia de caracteres e literais de caracteres.

Seção específica da Microsoft

O compilador Microsoft C++ trata um caractere no formato de nome de caractere universal e no formato literal de maneira intercambiável. Por exemplo, é possível declarar um identificador usando a forma de nome de caractere universal e usá-la na forma literal:

auto \u30AD = 42; // \u30AD is 'キ'
if (キ == 42) return true; // \u30AD and キ are the same to the compiler

O formato de caracteres estendidos na área de transferência do Windows é específico para as configurações de localidade do aplicativo. Recortar e colar esses caracteres no código de outro aplicativo poderá introduzir codificações de caracteres inesperadas. Isso poderá resultar em erros de análise sem causa visível no código. É recomendável definir a codificação do arquivo de origem para uma página de código Unicode antes de colar os caracteres estendidos. Também recomendamos usar um aplicativo de Mapa de Caracteres ou IME para gerar caracteres estendidos.

Fim da seção específica da Microsoft

Conjuntos de caracteres de execução

Os conjuntos de caracteres de execução representam os caracteres e as cadeias de caracteres que podem aparecer em um programa compilado. Esses conjuntos de caracteres consistem em todos os caracteres permitidos em um arquivo de origem e também nos caracteres de controle que representam alerta, backspace, retorno de carro e o caractere nulo. O conjunto de caracteres de execução possui uma representação específica da localidade.

Compartilhar via

Tokens e conjuntos de caracteres

Conjunto de caracteres de origem básico

Nomes de caracteres universais

Conjuntos de caracteres de execução

Comentários

Recursos adicionais