UnicodeCategory Enum
Definisi
Penting
Beberapa informasi terkait produk prarilis yang dapat diubah secara signifikan sebelum dirilis. Microsoft tidak memberikan jaminan, tersirat maupun tersurat, sehubungan dengan informasi yang diberikan di sini.
Mendefinisikan kategori Unicode karakter.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- Warisan
- Atribut
Bidang
ClosePunctuation | 21 | Karakter penutup salah satu tanda baca yang dipasangkan, seperti tanda kurung, kurung siku, dan kurung kurawal. Ditandatangani oleh penandaan Unicode "Pe" (tanda baca, tutup). Nilainya adalah 21. |
ConnectorPunctuation | 18 | Karakter tanda baca konektor yang menghubungkan dua karakter. Ditandatangani oleh penandaan Unicode "Pc" (tanda baca, konektor). Nilainya adalah 18. |
Control | 14 | Karakter kode kontrol, dengan nilai Unicode U+007F atau dalam rentang U+0000 hingga U+001F atau U+0080 hingga U+009F. Ditandatangani oleh penandaan Unicode "Cc" (lainnya, kontrol). Nilainya adalah 14. |
CurrencySymbol | 26 | Karakter simbol mata uang. Ditandatangani oleh penunjukan Unicode "Sc" (simbol, mata uang). Nilainya adalah 26. |
DashPunctuation | 19 | Karakter tanda hubung atau tanda hubung. Ditandatangani oleh sebutan Unicode "Pd" (tanda baca, tanda hubung). Nilainya adalah 19. |
DecimalDigitNumber | 8 | Karakter digit desimal, yaitu, karakter yang mewakili bilangan bulat dalam rentang 0 hingga 9. Ditandatangani oleh penunjukan Unicode "Nd" (angka, digit desimal). Nilainya adalah 8. |
EnclosingMark | 7 | Melingkupi karakter tanda, yang merupakan karakter gabungan non-paspa yang mengelilingi semua karakter sebelumnya hingga dan menyertakan karakter dasar. Ditandatangani oleh penandaan Unicode "Me" (tandai, tertutup). Nilainya adalah 7. |
FinalQuotePunctuation | 23 | Karakter tanda kutip penutup atau akhir. Ditandatangani oleh penandaan Unicode "Pf" (tanda baca, kutipan akhir). Nilainya adalah 23. |
Format | 15 | Format karakter yang memengaruhi tata letak teks atau operasi proses teks, tetapi biasanya tidak dirender. Ditandatangani oleh penandaan Unicode "Cf" (lainnya, format). Nilainya adalah 15. |
InitialQuotePunctuation | 22 | Karakter tanda kutip pembuka atau awal. Ditandatangani oleh penandaan Unicode "Pi" (tanda baca, kutipan awal). Nilainya adalah 22. |
LetterNumber | 9 | Angka yang diwakili oleh huruf, bukan digit desimal, misalnya, angka Romawi untuk lima, yaitu "V". Indikator ditandatangani oleh penunjukan Unicode "Nl" (angka, huruf). Nilainya adalah 9. |
LineSeparator | 12 | Karakter yang digunakan untuk memisahkan baris teks. Ditandatangani oleh penandaan Unicode "Zl" (pemisah, garis). Nilainya adalah 12. |
LowercaseLetter | 1 | Huruf kecil. Ditandatangani oleh penunjukan Unicode "Ll" (huruf, huruf kecil). Nilainya adalah 1. |
MathSymbol | 25 | Karakter simbol matematika, seperti "+" atau "= ". Ditandatangani oleh penunjukan Unicode "Sm" (simbol, matematika). Nilainya adalah 25. |
ModifierLetter | 3 | Karakter huruf pengubah, yang merupakan karakter penspasian berdiri bebas yang menunjukkan modifikasi huruf sebelumnya. Ditandatangani oleh penandaan Unicode "Lm" (huruf, pengubah). Nilainya adalah 3. |
ModifierSymbol | 27 | Karakter simbol pengubah, yang menunjukkan modifikasi karakter di sekitarnya. Misalnya, garis miring pecahan menunjukkan bahwa angka di sebelah kiri adalah pembilang dan angka di sebelah kanan adalah penyebut. Indikator ditandatangani oleh penunjukan Unicode "Sk" (simbol, pengubah). Nilainya adalah 27. |
NonSpacingMark | 5 | Karakter nonspacing yang menunjukkan modifikasi karakter dasar. Ditandatangani oleh penandaan Unicode "Mn" (tandai, nonspacing). Nilainya adalah 5. |
OpenPunctuation | 20 | Membuka karakter salah satu tanda baca yang dipasangkan, seperti tanda kurung, tanda kurung siku, dan kurung kurawal. Ditandatangani oleh penandaan Unicode "Ps" (tanda baca, terbuka). Nilainya adalah 20. |
OtherLetter | 4 | Huruf yang bukan huruf besar, huruf kecil, huruf judul, atau huruf pengubah. Ditandatangani oleh penandaan Unicode "Lo" (huruf, lainnya). Nilainya adalah 4. |
OtherNotAssigned | 29 | Karakter yang tidak ditetapkan ke kategori Unicode apa pun. Ditandatangani oleh penandaan Unicode "Cn" (lainnya, tidak ditetapkan). Nilainya adalah 29. |
OtherNumber | 10 | Angka yang bukan digit desimal atau angka huruf, misalnya, pecahan 1/2. Indikator ditandatangani oleh penunjukan Unicode "Tidak" (angka, lainnya). Nilainya adalah 10. |
OtherPunctuation | 24 | Karakter tanda baca yang bukan konektor, tanda hubung, tanda baca terbuka, tanda baca tutup, tanda kutip awal, atau kutipan akhir. Ditandatangani oleh penandaan Unicode "Po" (tanda baca, lainnya). Nilainya adalah 24. |
OtherSymbol | 28 | Karakter simbol yang bukan simbol matematika, simbol mata uang atau simbol pengubah. Ditandatangani oleh penunjukan Unicode "Jadi" (simbol, lainnya). Nilainya adalah 28. |
ParagraphSeparator | 13 | Karakter yang digunakan untuk memisahkan paragraf. Ditandatangani oleh penandaan Unicode "Zp" (pemisah, paragraf). Nilainya adalah 13. |
PrivateUse | 17 | Karakter penggunaan privat, dengan nilai Unicode dalam rentang U+E000 hingga U+F8FF. Ditandatangani oleh penandaan Unicode "Co" (lainnya, penggunaan privat). Nilainya adalah 17. |
SpaceSeparator | 11 | Karakter spasi, yang tidak memiliki glyph tetapi bukan karakter kontrol atau format. Ditandatangani oleh penandaan Unicode "Zs" (pemisah, ruang). Nilainya adalah 11. |
SpacingCombiningMark | 6 | Karakter spasi yang menunjukkan modifikasi karakter dasar dan memengaruhi lebar glyph untuk karakter dasar tersebut. Ditandatangani oleh penunjukan Unicode "Mc" (tandai, penggandaan spasi). Nilainya adalah 6. |
Surrogate | 16 | Pengganti tinggi atau karakter pengganti rendah. Nilai kode pengganti berada dalam rentang U+D800 hingga U+DFFF. Ditandatangani oleh penandaan Unicode "Cs" (lainnya, pengganti). Nilainya adalah 16. |
TitlecaseLetter | 2 | Huruf judul. Ditandatangani oleh penandaan Unicode "Lt" (huruf, judul). Nilainya adalah 2. |
UppercaseLetter | 0 | Huruf besar. Ditandatangani oleh penandaan Unicode "Lu" (huruf, huruf besar). Nilainya adalah 0. |
Contoh
Contoh berikut menampilkan karakter dan titik kode yang sesuai untuk karakter dalam kategori UppercaseLetter. Anda dapat mengubah contoh untuk menampilkan huruf dalam kategori lain dengan mengganti UppercaseLetter dengan kategori yang menarik bagi Anda dalam penugasan ke category
variabel. Perhatikan bahwa output untuk beberapa kategori dapat ekstensif.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
Keterangan
Anggota UnicodeCategory enumerasi dikembalikan oleh Char.GetUnicodeCategory metode dan CharUnicodeInfo.GetUnicodeCategory . Enumerasi UnicodeCategory juga digunakan untuk mendukung Char metode, seperti IsUpper(Char). Metode tersebut menentukan apakah karakter yang ditentukan adalah anggota kategori umum Unicode tertentu. Kategori umum Unicode mendefinisikan klasifikasi luas karakter, yaitu, penunjukan sebagai jenis huruf, digit desimal, pemisah, simbol matematika, tanda baca, dan sebagainya.
Enumerasi ini didasarkan pada Unicode Standard, versi 5.0. Untuk informasi selengkapnya, lihat subtopik "Format File UCD" dan "Nilai Kategori Umum" di Database Karakter Unicode.
Standar Unicode mendefinisikan hal berikut:
Pasangan pengganti adalah representasi karakter berkode untuk satu karakter abstrak yang terdiri dari urutan dua unit kode, di mana unit pertama pasangan adalah pengganti tinggi dan yang kedua adalah pengganti rendah. Pengganti tinggi adalah titik kode Unicode dalam rentang U+D800 hingga U+DBFF dan pengganti rendah adalah titik kode Unicode dalam rentang U+DC00 hingga U+DFFF.
Urutan karakter yang menggabungkan adalah kombinasi dari karakter dasar dan satu atau beberapa karakter yang menggabungkan. Pasangan pengganti mewakili karakter dasar atau karakter gabungan. Karakter penggampingan adalah spasi atau nonspacing. Karakter penggabung spasi mengambil posisi spasi dengan sendirinya saat dirender, sementara karakter gabungan nonspacing tidak. Diakritik adalah contoh nonspacing yang menggabungkan karakter.
Huruf pengubah adalah karakter penspasian berdiri bebas yang, seperti karakter gabungan, menunjukkan modifikasi huruf sebelumnya.
Tanda penutup adalah karakter gabungan nonspacing yang mengelilingi semua karakter sebelumnya hingga dan menyertakan karakter dasar.
Karakter format adalah karakter yang biasanya tidak dirender tetapi memengaruhi tata letak teks atau operasi proses teks.
Standar Unicode mendefinisikan beberapa variasi ke beberapa tanda baca. Misalnya, tanda hubung dapat berupa salah satu dari beberapa nilai kode yang mewakili tanda hubung, seperti U+002D (tanda hubung-minus) atau U+00AD (tanda hubung lunak) atau U+2010 (tanda hubung) atau U+2011 (tanda hubung tidak terpecahkan). Hal yang sama berlaku untuk tanda hubung, karakter spasi, dan tanda kutip.
Standar Unicode juga menetapkan kode ke representasi digit desimal yang khusus untuk skrip atau bahasa tertentu, misalnya, U+0030 (digit nol) dan U+0660 (nol digit Arab-Indic).