UnicodeCategory Výčet

Definice

Definuje kategorii Unicode znaku.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Dědičnost
UnicodeCategory
Atributy

Pole

Name Hodnota Description
UppercaseLetter 0

Velké písmeno. Signified by the Unicode označení "Lu" (písmeno, velká písmena). Hodnota je 0.

LowercaseLetter 1

Malá písmena. Signified by the Unicode designation "Ll" (písmeno, malá písmena). Hodnota je 1.

TitlecaseLetter 2

Písmena nadpisu. Signified by the Unicode designation "Lt" (letter, titlecase). Hodnota je 2.

ModifierLetter 3

Modifikační znak písmena, což je volný znak mezery, který označuje úpravy předchozího písmena. Signified by the Unicode označení "Lm" (písmeno, modifikátor). Hodnota je 3.

OtherLetter 4

Písmeno, které není velkým písmenem, malým písmenem, písmenem nadpisu nebo modifikačním písmenem. Označuje se označením Unicode "Lo" (písmeno, jiné). Hodnota je 4.

NonSpacingMark 5

Znak bez mezer, který označuje úpravy základního znaku. Signified by the Unicode designation "Mn" (mark, nonspacing). Hodnota je 5.

SpacingCombiningMark 6

Mezery, které označují úpravy základního znaku a ovlivňují šířku glyfu pro tento základní znak. Signified by the Unicode designation "Mc" (mark, spacing combining). Hodnota je 6.

EnclosingMark 7

Uzavření znaku značky, což je nesložení kombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně základního znaku. Signified by the Unicode označení "Me" (značka, ohraničení). Hodnota je 7.

DecimalDigitNumber 8

Desetinná číslice, tedy znak představující celé číslo v rozsahu 0 až 9. Signified by the Unicode označení "Nd" (číslo, desítková číslice). Hodnota je 8.

LetterNumber 9

Číslo reprezentované písmenem místo desetinné číslice, například římské číslice pro pět, což je "V". Indikátor je označen označením Unicode "Nl" (číslo, písmeno). Hodnota je 9.

OtherNumber 10

Číslo, které není desetinnou číslicí ani číslicí písmen, například zlomek 1/2. Indikátor je označen označením Unicode "Ne" (číslo, jiné). Hodnota je 10.

SpaceSeparator 11

Znak mezery, který nemá žádný glyf, ale není ovládacím znakem ani formátem. Signified by the Unicode designation "Zs" (oddělovač, mezera). Hodnota je 11.

LineSeparator 12

Znak, který slouží k oddělení řádků textu. Signified by the Unicode designation "Zl" (oddělovač, čára). Hodnota je 12.

ParagraphSeparator 13

Znak použitý k oddělení odstavců. Signified by the Unicode designation "Zp" (oddělovač, odstavec). Hodnota je 13.

Control 14

Řídicí znak kódu s hodnotou Unicode U+007F nebo v rozsahu U+0000 až U+001F nebo U+0080 až U+009F. Signified by the Unicode designation "Cc" (other, control). Hodnota je 14.

Format 15

Formátovací znak, který ovlivňuje rozložení textu nebo operace textových procesů, ale obvykle se nevykreslí. Signified by the Unicode designation "Cf" (other, format). Hodnota je 15.

Surrogate 16

Vysoký náhradní znak nebo nízký náhradní znak. Náhradní hodnoty kódu jsou v rozsahu U+D800 až U+DFFF. Signified by the Unicode designation "Cs" (other, náhradní). Hodnota je 16.

PrivateUse 17

Privátní znak s hodnotou Unicode v rozsahu U+E000 až U+F8FF. Signified by the Unicode designation "Co" (other, private use). Hodnota je 17.

ConnectorPunctuation 18

Interpunkční znak spojnice, který spojuje dva znaky. Signified by the Unicode označení "Pc" (interpunkce, konektor). Hodnota je 18.

DashPunctuation 19

Znak spojovníku nebo spojovníku Označuje se označením Unicode "Pd" (interpunkce, pomlčka). Hodnota je 19.

OpenPunctuation 20

Levý znak jedné z párovaných interpunkčních závorek, jako jsou závorky, hranaté závorky a složené závorky. Signified by the Unicode designation "Ps" (interpunkce, open). Hodnota je 20.

ClosePunctuation 21

Uzavírací znak jedné z párovaných interpunkčních závorek, jako jsou závorky, hranaté závorky a složené závorky. Signified by the Unicode designation "Pe" (interpunkce, close). Hodnota je 21.

InitialQuotePunctuation 22

Otevírání nebo počáteční znak uvozovek Signified by the Unicode označení "Pi" (interpunkce, počáteční uvozovka). Hodnota je 22.

FinalQuotePunctuation 23

Uzavírací nebo konečný znak uvozovek Signified by the Unicode označení "Pf" (interpunkce, konečná uvozovka). Hodnota je 23.

OtherPunctuation 24

Interpunkční znak, který není spojnice, pomlčka, otevřená interpunkce, zavření interpunkce, počáteční uvozovka nebo konečná uvozovka. Signified by the Unicode označení "Po" (interpunkce, jiné). Hodnota je 24.

MathSymbol 25

Matematický znak symbolu, například "+" nebo "= ". Signified by the Unicode označení "Sm" (symbol, matematika). Hodnota je 25.

CurrencySymbol 26

Znak symbolu měny. Signified by the Unicode označení "Sc" (symbol, měna). Hodnota je 26.

ModifierSymbol 27

Modifikační znak symbolu, který označuje úpravy okolních znaků. Například lomítko zlomku označuje, že číslo vlevo je čitatel a číslo vpravo je jmenovatel. Indikátor je označen označením Unicode "Sk" (symbol, modifikátor). Hodnota je 27.

OtherSymbol 28

Znak symbolu, který není matematickým symbolem, symbolem měny nebo modifikačním symbolem. Signified by the Unicode designation "So" (symbol, other). Hodnota je 28.

OtherNotAssigned 29

Znak, který není přiřazen k žádné kategorii Unicode. Signified by the Unicode označení "Cn" (jiné, nepřiřazeno). Hodnota je 29.

Příklady

Následující příklad zobrazí znaky a jejich odpovídající body kódu pro znaky v kategorii UppercaseLetter. Příklad můžete upravit tak, aby zobrazoval písmena v jakékoli jiné kategorii tak, že nahradíte Velká písmena kategorií, která vás zajímá v přiřazení proměnné category . Všimněte si, že výstup některých kategorií může být rozsáhlý.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Poznámky

Člen výčtu UnicodeCategory je vrácen metodami Char.GetUnicodeCategory a CharUnicodeInfo.GetUnicodeCategory metodami. Výčet UnicodeCategory se používá také k podpoře Char metod, například IsUpper(Char). Takové metody určují, zda je zadaný znak členem konkrétní obecné kategorie Unicode. Obecná kategorie Unicode definuje širokou klasifikaci znaku, tj. označení typu písmena, desetinné číslice, oddělovače, matematického symbolu, interpunkce atd.

Tento výčet je založený na standardu Unicode verze 5.0. Další informace najdete v dílčích tématech "Formát souboru UCD" a "Obecné hodnoty kategorií" v databázi znaků Unicode.

Standard Unicode definuje následující:

Náhradní pár je kódovaná reprezentace znaku pro jeden abstraktní znak, který se skládá ze sekvence dvou jednotek kódu, kde první jednotka páru je vysoká náhrada a druhá je nízká náhrada. Vysoká náhrada je bod kódu Unicode v rozsahu U+D800 až U+DBFF a nízká náhrada je bod kódu Unicode v rozsahu U+DC00 až U+DFFF.

Kombinace sekvence znaků je kombinace základního znaku a jednoho nebo více kombinujících znaků. Náhradní dvojice představuje základní znak nebo kombinační znak. Kombinační znak je mezera nebo mezera. Mezery kombinující znak při vykreslení zabíjí samotnou pozici mezery, zatímco nekombinující znak nezkombinuje. Diakritická znaménka jsou příkladem nekombinujících znaků.

Modifikační písmeno je volně stojící znak mezery, který podobně jako kombinační znak označuje úpravy předchozího písmena.

Uzavřená značka je nesložení kombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně základního znaku.

Znak formátu je znak, který se obvykle nevykresluje, ale má vliv na rozložení textu nebo operace textových procesů.

Standard Unicode definuje několik variant některých interpunkčních značek. Například spojovník může být jednou z několika hodnot kódu, které představují spojovník, například U+002D (pomlčka minus) nebo U+00AD (soft hyphen) nebo U+2010 (spojovník) nebo U+2011 (dělení slov). Totéž platí pro pomlčky, znaky mezery a uvozovky.

Standard Unicode také přiřazuje kódy k reprezentaci desítkových číslic, které jsou specifické pro daný skript nebo jazyk, například U+0030 (číslice nula) a U+0660 (Arabic-Indic číslice nula).

Platí pro

Viz také