UnicodeCategory Výčet
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Definuje kategorii Unicode znaku.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- Dědičnost
- Atributy
Pole
| Name | Hodnota | Description |
|---|---|---|
| UppercaseLetter | 0 | Velké písmeno. Signified by the Unicode označení "Lu" (písmeno, velká písmena). Hodnota je 0. |
| LowercaseLetter | 1 | Malá písmena. Signified by the Unicode designation "Ll" (písmeno, malá písmena). Hodnota je 1. |
| TitlecaseLetter | 2 | Písmena nadpisu. Signified by the Unicode designation "Lt" (letter, titlecase). Hodnota je 2. |
| ModifierLetter | 3 | Modifikační znak písmena, což je volný znak mezery, který označuje úpravy předchozího písmena. Signified by the Unicode označení "Lm" (písmeno, modifikátor). Hodnota je 3. |
| OtherLetter | 4 | Písmeno, které není velkým písmenem, malým písmenem, písmenem nadpisu nebo modifikačním písmenem. Označuje se označením Unicode "Lo" (písmeno, jiné). Hodnota je 4. |
| NonSpacingMark | 5 | Znak bez mezer, který označuje úpravy základního znaku. Signified by the Unicode designation "Mn" (mark, nonspacing). Hodnota je 5. |
| SpacingCombiningMark | 6 | Mezery, které označují úpravy základního znaku a ovlivňují šířku glyfu pro tento základní znak. Signified by the Unicode designation "Mc" (mark, spacing combining). Hodnota je 6. |
| EnclosingMark | 7 | Uzavření znaku značky, což je nesložení kombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně základního znaku. Signified by the Unicode označení "Me" (značka, ohraničení). Hodnota je 7. |
| DecimalDigitNumber | 8 | Desetinná číslice, tedy znak představující celé číslo v rozsahu 0 až 9. Signified by the Unicode označení "Nd" (číslo, desítková číslice). Hodnota je 8. |
| LetterNumber | 9 | Číslo reprezentované písmenem místo desetinné číslice, například římské číslice pro pět, což je "V". Indikátor je označen označením Unicode "Nl" (číslo, písmeno). Hodnota je 9. |
| OtherNumber | 10 | Číslo, které není desetinnou číslicí ani číslicí písmen, například zlomek 1/2. Indikátor je označen označením Unicode "Ne" (číslo, jiné). Hodnota je 10. |
| SpaceSeparator | 11 | Znak mezery, který nemá žádný glyf, ale není ovládacím znakem ani formátem. Signified by the Unicode designation "Zs" (oddělovač, mezera). Hodnota je 11. |
| LineSeparator | 12 | Znak, který slouží k oddělení řádků textu. Signified by the Unicode designation "Zl" (oddělovač, čára). Hodnota je 12. |
| ParagraphSeparator | 13 | Znak použitý k oddělení odstavců. Signified by the Unicode designation "Zp" (oddělovač, odstavec). Hodnota je 13. |
| Control | 14 | Řídicí znak kódu s hodnotou Unicode U+007F nebo v rozsahu U+0000 až U+001F nebo U+0080 až U+009F. Signified by the Unicode designation "Cc" (other, control). Hodnota je 14. |
| Format | 15 | Formátovací znak, který ovlivňuje rozložení textu nebo operace textových procesů, ale obvykle se nevykreslí. Signified by the Unicode designation "Cf" (other, format). Hodnota je 15. |
| Surrogate | 16 | Vysoký náhradní znak nebo nízký náhradní znak. Náhradní hodnoty kódu jsou v rozsahu U+D800 až U+DFFF. Signified by the Unicode designation "Cs" (other, náhradní). Hodnota je 16. |
| PrivateUse | 17 | Privátní znak s hodnotou Unicode v rozsahu U+E000 až U+F8FF. Signified by the Unicode designation "Co" (other, private use). Hodnota je 17. |
| ConnectorPunctuation | 18 | Interpunkční znak spojnice, který spojuje dva znaky. Signified by the Unicode označení "Pc" (interpunkce, konektor). Hodnota je 18. |
| DashPunctuation | 19 | Znak spojovníku nebo spojovníku Označuje se označením Unicode "Pd" (interpunkce, pomlčka). Hodnota je 19. |
| OpenPunctuation | 20 | Levý znak jedné z párovaných interpunkčních závorek, jako jsou závorky, hranaté závorky a složené závorky. Signified by the Unicode designation "Ps" (interpunkce, open). Hodnota je 20. |
| ClosePunctuation | 21 | Uzavírací znak jedné z párovaných interpunkčních závorek, jako jsou závorky, hranaté závorky a složené závorky. Signified by the Unicode designation "Pe" (interpunkce, close). Hodnota je 21. |
| InitialQuotePunctuation | 22 | Otevírání nebo počáteční znak uvozovek Signified by the Unicode označení "Pi" (interpunkce, počáteční uvozovka). Hodnota je 22. |
| FinalQuotePunctuation | 23 | Uzavírací nebo konečný znak uvozovek Signified by the Unicode označení "Pf" (interpunkce, konečná uvozovka). Hodnota je 23. |
| OtherPunctuation | 24 | Interpunkční znak, který není spojnice, pomlčka, otevřená interpunkce, zavření interpunkce, počáteční uvozovka nebo konečná uvozovka. Signified by the Unicode označení "Po" (interpunkce, jiné). Hodnota je 24. |
| MathSymbol | 25 | Matematický znak symbolu, například "+" nebo "= ". Signified by the Unicode označení "Sm" (symbol, matematika). Hodnota je 25. |
| CurrencySymbol | 26 | Znak symbolu měny. Signified by the Unicode označení "Sc" (symbol, měna). Hodnota je 26. |
| ModifierSymbol | 27 | Modifikační znak symbolu, který označuje úpravy okolních znaků. Například lomítko zlomku označuje, že číslo vlevo je čitatel a číslo vpravo je jmenovatel. Indikátor je označen označením Unicode "Sk" (symbol, modifikátor). Hodnota je 27. |
| OtherSymbol | 28 | Znak symbolu, který není matematickým symbolem, symbolem měny nebo modifikačním symbolem. Signified by the Unicode designation "So" (symbol, other). Hodnota je 28. |
| OtherNotAssigned | 29 | Znak, který není přiřazen k žádné kategorii Unicode. Signified by the Unicode označení "Cn" (jiné, nepřiřazeno). Hodnota je 29. |
Příklady
Následující příklad zobrazí znaky a jejich odpovídající body kódu pro znaky v kategorii UppercaseLetter. Příklad můžete upravit tak, aby zobrazoval písmena v jakékoli jiné kategorii tak, že nahradíte Velká písmena kategorií, která vás zajímá v přiřazení proměnné category . Všimněte si, že výstup některých kategorií může být rozsáhlý.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
Poznámky
Člen výčtu UnicodeCategory je vrácen metodami Char.GetUnicodeCategory a CharUnicodeInfo.GetUnicodeCategory metodami. Výčet UnicodeCategory se používá také k podpoře Char metod, například IsUpper(Char). Takové metody určují, zda je zadaný znak členem konkrétní obecné kategorie Unicode. Obecná kategorie Unicode definuje širokou klasifikaci znaku, tj. označení typu písmena, desetinné číslice, oddělovače, matematického symbolu, interpunkce atd.
Tento výčet je založený na standardu Unicode verze 5.0. Další informace najdete v dílčích tématech "Formát souboru UCD" a "Obecné hodnoty kategorií" v databázi znaků Unicode.
Standard Unicode definuje následující:
Náhradní pár je kódovaná reprezentace znaku pro jeden abstraktní znak, který se skládá ze sekvence dvou jednotek kódu, kde první jednotka páru je vysoká náhrada a druhá je nízká náhrada. Vysoká náhrada je bod kódu Unicode v rozsahu U+D800 až U+DBFF a nízká náhrada je bod kódu Unicode v rozsahu U+DC00 až U+DFFF.
Kombinace sekvence znaků je kombinace základního znaku a jednoho nebo více kombinujících znaků. Náhradní dvojice představuje základní znak nebo kombinační znak. Kombinační znak je mezera nebo mezera. Mezery kombinující znak při vykreslení zabíjí samotnou pozici mezery, zatímco nekombinující znak nezkombinuje. Diakritická znaménka jsou příkladem nekombinujících znaků.
Modifikační písmeno je volně stojící znak mezery, který podobně jako kombinační znak označuje úpravy předchozího písmena.
Uzavřená značka je nesložení kombinující znak, který obklopuje všechny předchozí znaky až do základního znaku a včetně základního znaku.
Znak formátu je znak, který se obvykle nevykresluje, ale má vliv na rozložení textu nebo operace textových procesů.
Standard Unicode definuje několik variant některých interpunkčních značek. Například spojovník může být jednou z několika hodnot kódu, které představují spojovník, například U+002D (pomlčka minus) nebo U+00AD (soft hyphen) nebo U+2010 (spojovník) nebo U+2011 (dělení slov). Totéž platí pro pomlčky, znaky mezery a uvozovky.
Standard Unicode také přiřazuje kódy k reprezentaci desítkových číslic, které jsou specifické pro daný skript nebo jazyk, například U+0030 (číslice nula) a U+0660 (Arabic-Indic číslice nula).