UnicodeCategory Sabit listesi
Tanım
Önemli
Bazı bilgiler ürünün ön sürümüyle ilgilidir ve sürüm öncesinde önemli değişiklikler yapılmış olabilir. Burada verilen bilgilerle ilgili olarak Microsoft açık veya zımni hiçbir garanti vermez.
Bir karakterin Unicode kategorisini tanımlar.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- Devralma
- Öznitelikler
Alanlar
| Name | Değer | Description |
|---|---|---|
| UppercaseLetter | 0 | Büyük harf. Unicode "Lu" (harf, büyük harf) ile belirtilir. Değer 0'dır. |
| LowercaseLetter | 1 | Küçük harf. Unicode "Ll" (harf, küçük harf) ile belirtilir. Değer 1'dir. |
| TitlecaseLetter | 2 | Başlık mektubu. Unicode "Lt" (letter, titlecase) ile belirtilir. Değer 2'dir. |
| ModifierLetter | 3 | Önceki harfin değişikliklerini gösteren serbest duran aralık karakteri olan değiştirici harf karakteri. Unicode "Lm" (harf, değiştirici) ile işaretlenir. Değer 3'dür. |
| OtherLetter | 4 | Büyük harf, küçük harf, büyük harf veya değiştirici harf olmayan harf. Unicode "Lo" (harf, diğer) gösterimiyle belirtilir. Değer 4'dür. |
| NonSpacingMark | 5 | Temel karakter değişikliklerini gösteren geçirgen olmayan karakter. Unicode "Mn" (işaretle, geçirilmemesi) ile belirtilir. Değer 5'tir. |
| SpacingCombiningMark | 6 | Bir temel karakterin değişikliklerini gösteren ve bu temel karakter için karakterin genişliğini etkileyen aralık karakteri. Unicode "Mc" (işaretleme, aralık birleştirme) ile belirtilir. Değer 6'dır. |
| EnclosingMark | 7 | Bir temel karaktere kadar ve buna dahil olmak üzere önceki tüm karakterleri çevreleyen, geçirgen olmayan bir birleştirme karakteri olan işaretleme karakteri. Unicode "Ben" (işaretleme, kapsayan) belirtimi ile belirtilir. Değer 7'dir. |
| DecimalDigitNumber | 8 | Ondalık basamak karakteri, yani 0 ile 9 arasındaki bir tamsayıyı temsil eden karakter. "Nd" Unicode gösterimiyle (sayı, ondalık basamak) belirtilir. Değer 8'dir. |
| LetterNumber | 9 | Ondalık basamak yerine bir harfle temsil edilen sayı( örneğin, beş için Roma rakamı, yani "V"). Gösterge Unicode "Nl" (sayı, harf) ile belirtilir. Değer 9'dur. |
| OtherNumber | 10 | Ondalık basamak veya harf numarası olmayan sayı, örneğin kesir 1/2. Gösterge, Unicode "Hayır" (sayı, diğer) belirtimleri ile belirtilir. Değer 10'dur. |
| SpaceSeparator | 11 | Karakter içermeyen ancak bir denetim veya biçim karakteri olmayan boşluk karakteri. Unicode "Zs" (ayırıcı, boşluk) ile belirtilir. Değer 11'dir. |
| LineSeparator | 12 | Metin satırlarını ayırmak için kullanılan karakter. Unicode "Zl" (ayırıcı, çizgi) ile belirtilir. Değer 12'dir. |
| ParagraphSeparator | 13 | Paragrafları ayırmak için kullanılan karakter. Unicode "Zp" (ayırıcı, paragraf) ile belirtilir. Değer 13'dür. |
| Control | 14 | U+007F Unicode değeriyle veya U+0000 ile U+001F veya U+0080 - U+009F aralığındaki denetim kodu karakteri. Unicode "Cc" (diğer, denetim) belirtimleri ile belirtilir. Değer 14'dür. |
| Format | 15 | Metnin düzenini veya metin işlemlerinin çalışmasını etkileyen, ancak normalde işlenmeyen biçim karakteri. Unicode "Cf" (diğer, biçim) ile belirtilir. Değer 15'tir. |
| Surrogate | 16 | Yüksek vekil veya düşük vekil karakter. Vekil kod değerleri U+D800 ile U+DFFF arasında yer alır. Unicode "Cs" (diğer, vekil) ile belirtilir. Değer 16'dır. |
| PrivateUse | 17 | U+E000 ile U+F8FF aralığında unicode değeri olan özel kullanım karakteri. Unicode "Co" (diğer, özel kullanım) ile belirtilir. Değer 17'dir. |
| ConnectorPunctuation | 18 | İki karakteri bağlayan bağlayıcı noktalama işareti. Unicode "Pc" (noktalama işareti, bağlayıcı) ile belirtilir. Değer 18'dir. |
| DashPunctuation | 19 | Tire veya kısa çizgi karakteri. Unicode "Pd" (noktalama işareti, tire) belirtimi ile belirtilir. Değer 19'dur. |
| OpenPunctuation | 20 | Parantezler, köşeli ayraçlar ve ayraçlar gibi eşleştirilmiş noktalama işaretlerinden birinin açılış karakteri. Unicode "Ps" (noktalama işareti, aç) ile belirtilir. Değer 20'dir. |
| ClosePunctuation | 21 | Parantezler, köşeli ayraçlar ve ayraçlar gibi eşleştirilmiş noktalama işaretlerinden birinin kapanış karakteri. Unicode "Pe" (noktalama işareti, kapat) ile belirtilir. Değer 21'dir. |
| InitialQuotePunctuation | 22 | Açma veya ilk tırnak işareti karakteri. Unicode "Pi" (noktalama işareti, ilk tırnak işareti) ile belirtilir. Değer 22'dir. |
| FinalQuotePunctuation | 23 | Kapanış veya son tırnak işareti karakteri. Unicode "Pf" (noktalama işareti, son tırnak) ile belirtilir. Değer 23'dür. |
| OtherPunctuation | 24 | Bağlayıcı, tire, açık noktalama işareti, noktalama işaretlerini kapatma, ilk tırnak veya son tırnak olmayan noktalama karakteri. Unicode "Po" (noktalama işareti, diğer) ile işaret eder. Değer 24'dür. |
| MathSymbol | 25 | "+" veya "= " gibi matematiksel simge karakteri. Unicode "Sm" (sembol, matematik) ile belirtilir. Değer 25'tir. |
| CurrencySymbol | 26 | Para birimi simgesi karakteri. Unicode "Sc" (sembol, para birimi) ile belirtilir. Değer 26'dır. |
| ModifierSymbol | 27 | Çevresindeki karakterlerin değişikliklerini gösteren değiştirici sembol karakteri. Örneğin, kesir eğik çizgi, soldaki sayinin payda, sağdaki sayinin payda olduğunu gösterir. Gösterge, Unicode "Sk" (sembol, değiştirici) ile belirtilir. Değer 27'dir. |
| OtherSymbol | 28 | Matematiksel simge olmayan sembol karakteri, para birimi simgesi veya değiştirici simgesi. Unicode "So" (sembol, diğer) ifadesiyle belirtilir. Değer 28'dir. |
| OtherNotAssigned | 29 | Herhangi bir Unicode kategorisine atanmamış karakter. "Cn" Unicode gösterimiyle (diğer, atanmamış) belirtilir. Değer 29'dur. |
Örnekler
Aşağıdaki örnek, UppercaseLetter kategorisindeki karakterler için karakterleri ve karşılık gelen kod noktalarını görüntüler. Büyük HarfLetter değerini değişken atamasında ilgilendiğiniz kategoriyle değiştirerek, örneği başka bir kategorideki category harfleri görüntüleyecek şekilde değiştirebilirsiniz. Bazı kategoriler için çıkışın kapsamlı olabileceğini unutmayın.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
Açıklamalar
numaralandırmasının UnicodeCategory bir üyesi ve CharUnicodeInfo.GetUnicodeCategory yöntemleri tarafından Char.GetUnicodeCategory döndürülür. Numaralandırma, UnicodeCategory gibi IsUpper(Char)yöntemleri desteklemek Char için de kullanılır. Bu tür yöntemler, belirtilen karakterin belirli bir Unicode genel kategorisinin üyesi olup olmadığını belirler. Unicode genel kategorisi bir karakterin geniş sınıflandırmasını, yani harf türü, ondalık basamak, ayırıcı, matematiksel simge, noktalama işaretleri vb. olarak tanımlar.
Bu numaralandırma Unicode Standard, sürüm 5.0'ı temel alır. Daha fazla bilgi için Unicode Karakter Veritabanı'ndaki "UCD Dosya Biçimi" ve "Genel Kategori Değerleri" alt konularına bakın.
Unicode Standardı aşağıdakileri tanımlar:
Vekil çift, çiftin ilk biriminin yüksek vekil, ikincisinin ise düşük vekil olduğu iki kod biriminden oluşan tek bir soyut karakter için kodlanmış karakter gösterimidir. Yüksek vekil U+D800 ile U+DBFF aralığındaki bir Unicode kod noktasıdır ve düşük vekil U+DC00 ile U+DFFF aralığındaki bir Unicode kod noktasıdır.
Birleşen karakter dizisi, bir temel karakter ile bir veya daha fazla birleştirme karakterinin birleşimidir. Vekil çift, bir temel karakteri veya birleşen karakteri temsil eder. Birleştirme karakteri aralık veya aralıksız karakterdir. Karakteri birleştiren aralık, işlenirken tek başına bir aralık konumu alır, ancak geçirgen olmayan bir birleştirme karakteri bunu yapmaz. Aksan işaretleri, karakter birleştirme işleminin uyumsuz bir örneğidir.
Değiştirici harf, birleştiren karakter gibi önceki harfin değişikliklerini gösteren serbest duran bir aralık karakteridir.
Kapsayan işaret, temel karakter dahil olmak üzere önceki tüm karakterleri çevreleyen, geçirgen olmayan bir birleştirme karakteridir.
Biçim karakteri, normalde işlenmemiş ancak metnin düzenini veya metin işlemlerinin çalışmasını etkileyen bir karakterdir.
Unicode Standardı, bazı noktalama işaretlerinin çeşitli varyasyonlarını tanımlar. Örneğin, kısa çizgi, kısa çizgiyi temsil eden U+002D (kısa çizgi-eksi) veya U+00AD (yumuşak kısa çizgi) ya da U+2010 (kısa çizgi) veya U+2011 (bölünemez kısa çizgi) gibi çeşitli kod değerlerinden biri olabilir. Aynı durum tireler, boşluk karakterleri ve tırnak işaretleri için de geçerlidir.
Unicode Standardı ayrıca belirli bir betik veya dile özgü ondalık basamak gösterimlerine de kod atar; örneğin, U+0030 (sıfır basamak) ve U+0660 (Arabic-Indic basamak sıfır).