Partager via


UnicodeCategory Énumération

Définition

Définit la catégorie Unicode d’un caractère.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Héritage
UnicodeCategory
Attributs

Champs

Nom Valeur Description
UppercaseLetter 0

Lettre majuscule. Signifie par la désignation Unicode « Lu » (lettre, majuscule). La valeur est 0.

LowercaseLetter 1

LETTRE MINUSCULE. Signifie par la désignation Unicode « Ll » (lettre, minuscule). La valeur est 1.

TitlecaseLetter 2

Lettre en majuscules. Signifie par la désignation Unicode « Lt » (lettre, majuscule). La valeur est 2.

ModifierLetter 3

Caractère de lettre modificateur, qui est un caractère d’espacement libre qui indique les modifications d’une lettre précédente. Signifie par la désignation Unicode « Lm » (lettre, modificateur). La valeur est 3.

OtherLetter 4

Lettre qui n’est pas une lettre majuscule, une lettre minuscule, une lettre minuscule ou une lettre modificateur. Signifie par la désignation Unicode « Lo » (lettre, autre). La valeur est 4.

NonSpacingMark 5

Caractère non espacement qui indique les modifications d’un caractère de base. Signifie par la désignation Unicode « Mn » (marque, non espacement). La valeur est 5.

SpacingCombiningMark 6

Caractère d’espacement qui indique les modifications d’un caractère de base et affecte la largeur du glyphe pour ce caractère de base. Signifie par la désignation Unicode « Mc » (marque, combinaison d’espacement). La valeur est 6.

EnclosingMark 7

Caractère de marque englobant, qui est un caractère de combinaison non interligne qui entoure tous les caractères précédents jusqu’à un caractère de base et y compris un caractère de base. Signifie par la désignation Unicode « Me » (marque, englobante). La valeur est 7.

DecimalDigitNumber 8

Caractère de chiffre décimal, autrement dit, caractère représentant un entier compris entre 0 et 9. Signifie par la désignation Unicode « Nd » (nombre, chiffre décimal). La valeur est 8.

LetterNumber 9

Nombre représenté par une lettre, au lieu d’un chiffre décimal, par exemple le chiffre romain pour cinq, qui est « V ». L’indicateur est indiqué par la désignation Unicode « Nl » (nombre, lettre). La valeur est 9.

OtherNumber 10

Nombre qui n’est ni un chiffre décimal ni un nombre de lettres, par exemple la fraction 1/2. L’indicateur est indiqué par la désignation Unicode « Non » (nombre, autre). La valeur est 10.

SpaceSeparator 11

Caractère d’espace, qui n’a pas de glyphe, mais n’est pas un contrôle ou un caractère de format. Signifie par la désignation Unicode « Zs » (séparateur, espace). La valeur est 11.

LineSeparator 12

Caractère utilisé pour séparer les lignes de texte. Signifie par la désignation Unicode « Zl » (séparateur, ligne). La valeur est 12.

ParagraphSeparator 13

Caractère utilisé pour séparer les paragraphes. Signifie par la désignation Unicode « Zp » (séparateur, paragraphe). La valeur est 13.

Control 14

Caractère de code de contrôle, avec une valeur Unicode de U+007F ou dans la plage U+0000 à U+001F ou U+0080 à U+009F. Signifie par la désignation Unicode « Cc » (autre, contrôle). La valeur est 14.

Format 15

Caractère de mise en forme qui affecte la disposition du texte ou l’opération de traitement du texte, mais qui n’est pas rendu normalement. Signifie par la désignation Unicode « Cf » (autre, format). La valeur est 15.

Surrogate 16

Substitution élevée ou caractère de substitution faible. Les valeurs de code de substitution se trouvent dans la plage U+D800 à U+DFFF. Signifie par la désignation Unicode « Cs » (autre, substitution). La valeur est 16.

PrivateUse 17

Caractère d’utilisation privée, avec une valeur Unicode dans la plage U+E000 à U+F8FF. Signifie par la désignation Unicode « Co » (autre, utilisation privée). La valeur est 17.

ConnectorPunctuation 18

Caractère de ponctuation du connecteur qui connecte deux caractères. Signifie par la désignation Unicode « Pc » (ponctuation, connecteur). La valeur est 18.

DashPunctuation 19

Tiret ou trait d’union. Signifie par la désignation Unicode « » (ponctuation, tiret). La valeur est 19.

OpenPunctuation 20

Caractère ouvrant de l’une des marques de ponctuation jumelées, telles que les parenthèses, les crochets et les accolades. Signifie par la désignation Unicode « Ps » (ponctuation, ouvert). La valeur est 20.

ClosePunctuation 21

Caractère fermant de l’une des marques de ponctuation jumelées, telles que les parenthèses, les crochets et les accolades. Signifie par la désignation Unicode « Pe » (ponctuation, fermeture). La valeur est 21.

InitialQuotePunctuation 22

Caractère de guillemet ouvrant ou initial. Signifie par la désignation Unicode « Pi » (ponctuation, guillemet initial). La valeur est 22.

FinalQuotePunctuation 23

Caractère de guillemet fermant ou final. Signifie par la désignation Unicode « Pf » (ponctuation, guillemet final). La valeur est 23.

OtherPunctuation 24

Caractère de ponctuation qui n’est pas un connecteur, un tiret, une ponctuation ouverte, fermer la ponctuation, une citation initiale ou une citation finale. Signifie par la désignation Unicode « Po » (ponctuation, autre). La valeur est 24.

MathSymbol 25

Caractère de symbole mathématique, tel que « + » ou « = ». Signifie par la désignation Unicode « Sm » (symbole, mathématique). La valeur est 25.

CurrencySymbol 26

Caractère de symbole monétaire. Signifie par la désignation Unicode « Sc » (symbole, devise). La valeur est 26.

ModifierSymbol 27

Caractère de symbole de modificateur, qui indique les modifications des caractères environnants. Par exemple, la barre oblique de fraction indique que le nombre à gauche est le numérateur et que le nombre à droite est le dénominateur. L’indicateur est indiqué par la désignation Unicode « Sk » (symbole, modificateur). La valeur est 27.

OtherSymbol 28

Caractère de symbole qui n’est pas un symbole mathématique, un symbole monétaire ou un symbole modificateur. Signifie par la désignation Unicode « So » (symbole, autre). La valeur est 28.

OtherNotAssigned 29

Caractère qui n’est affecté à aucune catégorie Unicode. Signifie par la désignation Unicode « Cn » (autre, non affectée). La valeur est 29.

Exemples

L’exemple suivant affiche les caractères et leurs points de code correspondants pour les caractères de la catégorie UppercaseLetter. Vous pouvez modifier l’exemple pour afficher les lettres dans n’importe quelle autre catégorie en remplaçant UppercaseLetter par la catégorie qui vous intéresse dans l’affectation à la category variable. Notez que la sortie de certaines catégories peut être étendue.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Remarques

Un membre de l’énumération UnicodeCategory est retourné par les méthodes et CharUnicodeInfo.GetUnicodeCategory les Char.GetUnicodeCategory méthodes. L’énumération UnicodeCategory est également utilisée pour prendre en charge Char les méthodes, telles que IsUpper(Char). Ces méthodes déterminent si un caractère spécifié est membre d’une catégorie générale Unicode particulière. Une catégorie générale Unicode définit la classification étendue d’un caractère, c’est-à-dire une désignation comme un type de lettre, un chiffre décimal, un séparateur, un symbole mathématique, une ponctuation, et ainsi de suite.

Cette énumération est basée sur La norme Unicode, version 5.0. Pour plus d’informations, consultez les sous-points « Format de fichier UCD » et « Valeurs de catégorie générales » dans la base de données de caractères Unicode.

La norme Unicode définit les éléments suivants :

Une paire de substitution est une représentation codée de caractères pour un caractère abstrait unique qui se compose d’une séquence de deux unités de code, où la première unité de la paire est un substitut élevé et le second est un substitut faible. Une substitution élevée est un point de code Unicode dans la plage U+D800 à U+DBFF et un faible substitut est un point de code Unicode dans la plage U+DC00 à U+DFFF.

Une séquence de caractères combinant est une combinaison d’un caractère de base et d’un ou plusieurs caractères de combinaison. Une paire de substitution représente un caractère de base ou un caractère combiné. Un caractère combinant est un espacement ou un non-espacement. Un caractère de combinaison d’espacement prend une position d’espacement par lui-même lorsqu’il est rendu, tandis qu’un caractère de combinaison non espacement ne le fait pas. Les signes diacritiques sont un exemple de combinaison de caractères non interlignes.

Une lettre modificateur est un caractère d’espacement libre qui, comme un caractère combiné, indique les modifications d’une lettre précédente.

Une marque englobante est un caractère de combinaison non interligne qui entoure tous les caractères précédents jusqu’à un caractère de base et y compris un caractère de base.

Un caractère de format est un caractère qui n’est pas rendu normalement, mais qui affecte la disposition du texte ou l’opération des processus de texte.

La norme Unicode définit plusieurs variantes à certaines marques de ponctuation. Par exemple, un trait d’union peut être l’une des plusieurs valeurs de code qui représentent un trait d’union, tel que U+002D (trait d’union-moins) ou U+00AD (trait d’union soft) ou U+2010 (trait d’union) ou U+2011 (trait d’union sans coupure). Il en va de même pour les tirets, les caractères d’espace et les guillemets.

La norme Unicode affecte également des codes à des représentations de chiffres décimaux spécifiques à un script ou à une langue donné, par exemple, U+0030 (chiffre zéro) et U+0660 (Arabic-Indic chiffre zéro).

S’applique à

Voir aussi