UnicodeCategory Výčet
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Definuje kategorii znaku unicode.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- Dědičnost
- Atributy
Pole
ClosePunctuation | 21 | Uzavírací znak jednoho ze spárovaných interpunkčních znamének, jako jsou závorky, hranaté závorky a složené závorky. Signified by the Unicode označení "Pe" (interpunkce, close). Hodnota je 21. |
ConnectorPunctuation | 18 | Znak interpunkce spojnice, který spojuje dva znaky. Označení Unicode "Pc" (interpunkce, konektor). Hodnota je 18. |
Control | 14 | Znak kódu řízení s hodnotou Unicode U+007F nebo v rozsahu U+0000 až U+001F nebo U+0080 až U+009F. Označeno označením "Cc" v kódování Unicode (jiný, ovládací prvek). Hodnota je 14. |
CurrencySymbol | 26 | Znak symbolu měny. Označeno označením Unicode "Sc" (symbol, měna). Hodnota je 26. |
DashPunctuation | 19 | Znak pomlčky nebo spojovníku. Označení unicode označení "Pd" (interpunkce, pomlčka). Hodnota je 19. |
DecimalDigitNumber | 8 | Znak desetinné číslice, tj. znak představující celé číslo v rozsahu 0 až 9. Označeno označením Unicode "Nd" (číslo, desetinná číslice). Hodnota je 8. |
EnclosingMark | 7 | Uzavřený znak značky, což je nekombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně. Označeno označením Unicode "Já" (značka, ohraničení). Hodnota je 7. |
FinalQuotePunctuation | 23 | Znak uvozovek nebo konečný znak uvozovek. Označení unicode označení Pf (interpunkce, konečná uvozovka). Hodnota je 23. |
Format | 15 | Formátovat znak, který má vliv na rozložení textu nebo provoz textových procesů, ale obvykle se nevykresluje. Označeno označením Unicode "Cf" (jiný formát). Hodnota je 15. |
InitialQuotePunctuation | 22 | Počáteční nebo počáteční znak uvozovek. Označeno označením Unicode "Pi" (interpunkce, počáteční uvozovka). Hodnota je 22. |
LetterNumber | 9 | Číslo reprezentované písmenem místo desetinné číslice, například římské číslo pro pět, což je "V". Indikátor je označen označením Unicode "Nl" (číslo, písmeno). Hodnota je 9. |
LineSeparator | 12 | Znak, který slouží k oddělení řádků textu. Označeno označením Unicode "Zl" (oddělovač, čára). Hodnota je 12. |
LowercaseLetter | 1 | Malá písmena. Označeno označením Unicode "Ll" (písmeno, malá písmena). Hodnota je 1. |
MathSymbol | 25 | Znak matematického symbolu, například "+" nebo "= ". Označeno označením Unicode "Sm" (symbol, matematika). Hodnota je 25. |
ModifierLetter | 3 | Modifikační znak písmena, což je volně stojící znak, který označuje úpravy předchozího písmena. Označeno označením Unicode "Lm" (písmeno, modifikátor). Hodnota je 3. |
ModifierSymbol | 27 | Modifikační znak symbolu, který označuje úpravy okolních znaků. Například lomítko zlomku označuje, že číslo vlevo je čitatel a číslo vpravo je jmenovatel. Indikátor je označen označením Unicode "Sk" (symbol, modifikátor). Hodnota je 27. |
NonSpacingMark | 5 | Nonspacing character indikuje úpravy základního znaku. Označeno označením Unicode "Mn" (značka, nonspacing). Hodnota je 5. |
OpenPunctuation | 20 | Počáteční znak některého ze spárovaných interpunkčních znamének, jako jsou závorky, hranaté závorky a složené závorky. Označeno označením Unicode "Ps" (interpunkční znaménka, otevřená). Hodnota je 20. |
OtherLetter | 4 | Písmeno, které není velkým písmenem, malými písmeny, záhlavím nebo modifikačním písmenem. Označeno označením Unicode "Lo" (písmeno, jiné). Hodnota je 4. |
OtherNotAssigned | 29 | Znak, který není přiřazen k žádné kategorii unicode. Označení unicode označení "Cn" (jiné, nepřiřazeno). Hodnota je 29. |
OtherNumber | 10 | Číslo, které není desetinnou číslicí ani číslem písmena, například zlomek 1/2. Indikátor je označen označením Unicode "Ne" (číslo, jiné). Hodnota je 10. |
OtherPunctuation | 24 | Interpunkční znaméčko, které není spojnicí, pomlčkou, otevřenou interpunkcí, závěrečnou interpunkcí, počáteční uvozovkou nebo konečnou uvozovkou. Označení unicode označení "Po" (interpunkční znaménka, jiné). Hodnota je 24. |
OtherSymbol | 28 | Znak symbolu, který není matematický symbol, symbol měny nebo modifikační symbol. Označení unicode označení "So" (symbol, jiné). Hodnota je 28. |
ParagraphSeparator | 13 | Znak používaný k oddělení odstavců. Označeno označením Unicode "Zp" (oddělovač, odstavec). Hodnota je 13. |
PrivateUse | 17 | Znak privátního použití s hodnotou Unicode v rozsahu U+E000 až U+F8FF. Označeno označením Unicode "Co" (jiné, soukromé použití). Hodnota je 17. |
SpaceSeparator | 11 | Znak mezery, který nemá žádný glyf, ale není znakem ovládacího prvku nebo formátu. Označeno označením Unicode "Zs" (oddělovač, mezera). Hodnota je 11. |
SpacingCombiningMark | 6 | Mezery, které označují úpravy základního znaku a ovlivňují šířku glyfu pro tento základní znak. Označeno označením Unicode "Mc" (značka, kombinování mezer). Hodnota je 6. |
Surrogate | 16 | Vysoký náhradní znak nebo nízký náhradní znak. Hodnoty náhradního kódu jsou v rozsahu U+D800 až U+DFFF. Označení unicode označení "Cs" (jiné, náhradní). Hodnota je 16. |
TitlecaseLetter | 2 | Písmeno s názvem. Označeno označením Unicode "Lt" (písmeno, název). Hodnota je 2. |
UppercaseLetter | 0 | Velká písmena. Označení unicode označení "Lu" (písmeno, velká písmena). Hodnota je 0. |
Příklady
Následující příklad zobrazí znaky a jejich odpovídající body kódu pro znaky v kategorii Velká písmenaLetter. Příklad můžete upravit tak, aby zobrazoval písmena v jakékoli jiné kategorii, a to tak, že v přiřazení k category
proměnné nahradíte UppercaseLetter kategorií, která vás zajímá. Všimněte si, že výstup některých kategorií může být rozsáhlý.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
Poznámky
Člen výčtu UnicodeCategory je vrácen metodami Char.GetUnicodeCategory a CharUnicodeInfo.GetUnicodeCategory . Výčet se UnicodeCategory také používá k podpoře Char metod, jako IsUpper(Char)je . Takové metody určují, zda je zadaný znak členem konkrétní obecné kategorie unicode. Obecná kategorie Unicode definuje širokou klasifikaci znaku, tj. označení jako typu písmena, desetinné číslice, oddělovače, matematického symbolu, interpunkce atd.
Tento výčet je založen na standardu Unicode verze 5.0. Další informace najdete v podtémech Formát souboru UCD a Obecné hodnoty kategorií v databázi znaků Unicode.
Standard Unicode definuje následující:
Náhradní pár je kódovaná reprezentace znaku pro jeden abstraktní znak, který se skládá ze sekvence dvou jednotek kódu, kde první jednotka páru je vysoká náhradní a druhá je nízká náhradní. Vysoká náhrada je bod kódu Unicode v rozsahu U+D800 až U+DBFF a nízká náhrada je bod kódu Unicode v rozsahu U+DC00 až U+DFFF.
Kombinující sekvence znaků je kombinace základního znaku a jednoho nebo více kombinujících znaků. Náhradní pár představuje základní znak nebo kombinační znak. Kombinační znak je buď mezera, nebo mezera. Mezery kombinující znak zabere při vykreslení sám o sobě pozici mezery, zatímco znak bez mezery kombinující znak ne. Diakritická znaménka jsou příkladem nekombinujících znaků.
Modifikační písmeno je volně stojící znak, který podobně jako kombinační znak označuje úpravy předchozího písmena.
Ohraničující značka je nekombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně.
Formátovací znak je znak, který se obvykle nevykresluje, ale ovlivňuje rozložení textu nebo provoz textových procesů.
Standard Unicode definuje několik variant některých interpunkčních znamének. Spojovník může být například jednou z několika hodnot kódu, které představují spojovník, například U+002D (pomlčka minus) nebo U+00AD (měkké pomlčky) nebo U+2010 (pomlčka) nebo U+2011 (nerozlučující spojovník). Totéž platí pro pomlčky, mezery a uvozovky.
Standard Unicode také přiřazuje kódy k reprezentaci desetinných číslic, které jsou specifické pro daný skript nebo jazyk, například U+0030 (číslice nula) a U+0660 (arabsko-indické číslice nula).