Bagikan melalui


UnicodeCategory Enum

Definisi

Mendefinisikan kategori Unicode karakter.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Warisan
UnicodeCategory
Atribut

Bidang

ClosePunctuation 21

Karakter penutup salah satu tanda baca yang dipasangkan, seperti tanda kurung, kurung siku, dan kurung kurawal. Ditandatangani oleh penandaan Unicode "Pe" (tanda baca, tutup). Nilainya adalah 21.

ConnectorPunctuation 18

Karakter tanda baca konektor yang menghubungkan dua karakter. Ditandatangani oleh penandaan Unicode "Pc" (tanda baca, konektor). Nilainya adalah 18.

Control 14

Karakter kode kontrol, dengan nilai Unicode U+007F atau dalam rentang U+0000 hingga U+001F atau U+0080 hingga U+009F. Ditandatangani oleh penandaan Unicode "Cc" (lainnya, kontrol). Nilainya adalah 14.

CurrencySymbol 26

Karakter simbol mata uang. Ditandatangani oleh penunjukan Unicode "Sc" (simbol, mata uang). Nilainya adalah 26.

DashPunctuation 19

Karakter tanda hubung atau tanda hubung. Ditandatangani oleh sebutan Unicode "Pd" (tanda baca, tanda hubung). Nilainya adalah 19.

DecimalDigitNumber 8

Karakter digit desimal, yaitu, karakter yang mewakili bilangan bulat dalam rentang 0 hingga 9. Ditandatangani oleh penunjukan Unicode "Nd" (angka, digit desimal). Nilainya adalah 8.

EnclosingMark 7

Melingkupi karakter tanda, yang merupakan karakter gabungan non-paspa yang mengelilingi semua karakter sebelumnya hingga dan menyertakan karakter dasar. Ditandatangani oleh penandaan Unicode "Me" (tandai, tertutup). Nilainya adalah 7.

FinalQuotePunctuation 23

Karakter tanda kutip penutup atau akhir. Ditandatangani oleh penandaan Unicode "Pf" (tanda baca, kutipan akhir). Nilainya adalah 23.

Format 15

Format karakter yang memengaruhi tata letak teks atau operasi proses teks, tetapi biasanya tidak dirender. Ditandatangani oleh penandaan Unicode "Cf" (lainnya, format). Nilainya adalah 15.

InitialQuotePunctuation 22

Karakter tanda kutip pembuka atau awal. Ditandatangani oleh penandaan Unicode "Pi" (tanda baca, kutipan awal). Nilainya adalah 22.

LetterNumber 9

Angka yang diwakili oleh huruf, bukan digit desimal, misalnya, angka Romawi untuk lima, yaitu "V". Indikator ditandatangani oleh penunjukan Unicode "Nl" (angka, huruf). Nilainya adalah 9.

LineSeparator 12

Karakter yang digunakan untuk memisahkan baris teks. Ditandatangani oleh penandaan Unicode "Zl" (pemisah, garis). Nilainya adalah 12.

LowercaseLetter 1

Huruf kecil. Ditandatangani oleh penunjukan Unicode "Ll" (huruf, huruf kecil). Nilainya adalah 1.

MathSymbol 25

Karakter simbol matematika, seperti "+" atau "= ". Ditandatangani oleh penunjukan Unicode "Sm" (simbol, matematika). Nilainya adalah 25.

ModifierLetter 3

Karakter huruf pengubah, yang merupakan karakter penspasian berdiri bebas yang menunjukkan modifikasi huruf sebelumnya. Ditandatangani oleh penandaan Unicode "Lm" (huruf, pengubah). Nilainya adalah 3.

ModifierSymbol 27

Karakter simbol pengubah, yang menunjukkan modifikasi karakter di sekitarnya. Misalnya, garis miring pecahan menunjukkan bahwa angka di sebelah kiri adalah pembilang dan angka di sebelah kanan adalah penyebut. Indikator ditandatangani oleh penunjukan Unicode "Sk" (simbol, pengubah). Nilainya adalah 27.

NonSpacingMark 5

Karakter nonspacing yang menunjukkan modifikasi karakter dasar. Ditandatangani oleh penandaan Unicode "Mn" (tandai, nonspacing). Nilainya adalah 5.

OpenPunctuation 20

Membuka karakter salah satu tanda baca yang dipasangkan, seperti tanda kurung, tanda kurung siku, dan kurung kurawal. Ditandatangani oleh penandaan Unicode "Ps" (tanda baca, terbuka). Nilainya adalah 20.

OtherLetter 4

Huruf yang bukan huruf besar, huruf kecil, huruf judul, atau huruf pengubah. Ditandatangani oleh penandaan Unicode "Lo" (huruf, lainnya). Nilainya adalah 4.

OtherNotAssigned 29

Karakter yang tidak ditetapkan ke kategori Unicode apa pun. Ditandatangani oleh penandaan Unicode "Cn" (lainnya, tidak ditetapkan). Nilainya adalah 29.

OtherNumber 10

Angka yang bukan digit desimal atau angka huruf, misalnya, pecahan 1/2. Indikator ditandatangani oleh penunjukan Unicode "Tidak" (angka, lainnya). Nilainya adalah 10.

OtherPunctuation 24

Karakter tanda baca yang bukan konektor, tanda hubung, tanda baca terbuka, tanda baca tutup, tanda kutip awal, atau kutipan akhir. Ditandatangani oleh penandaan Unicode "Po" (tanda baca, lainnya). Nilainya adalah 24.

OtherSymbol 28

Karakter simbol yang bukan simbol matematika, simbol mata uang atau simbol pengubah. Ditandatangani oleh penunjukan Unicode "Jadi" (simbol, lainnya). Nilainya adalah 28.

ParagraphSeparator 13

Karakter yang digunakan untuk memisahkan paragraf. Ditandatangani oleh penandaan Unicode "Zp" (pemisah, paragraf). Nilainya adalah 13.

PrivateUse 17

Karakter penggunaan privat, dengan nilai Unicode dalam rentang U+E000 hingga U+F8FF. Ditandatangani oleh penandaan Unicode "Co" (lainnya, penggunaan privat). Nilainya adalah 17.

SpaceSeparator 11

Karakter spasi, yang tidak memiliki glyph tetapi bukan karakter kontrol atau format. Ditandatangani oleh penandaan Unicode "Zs" (pemisah, ruang). Nilainya adalah 11.

SpacingCombiningMark 6

Karakter spasi yang menunjukkan modifikasi karakter dasar dan memengaruhi lebar glyph untuk karakter dasar tersebut. Ditandatangani oleh penunjukan Unicode "Mc" (tandai, penggandaan spasi). Nilainya adalah 6.

Surrogate 16

Pengganti tinggi atau karakter pengganti rendah. Nilai kode pengganti berada dalam rentang U+D800 hingga U+DFFF. Ditandatangani oleh penandaan Unicode "Cs" (lainnya, pengganti). Nilainya adalah 16.

TitlecaseLetter 2

Huruf judul. Ditandatangani oleh penandaan Unicode "Lt" (huruf, judul). Nilainya adalah 2.

UppercaseLetter 0

Huruf besar. Ditandatangani oleh penandaan Unicode "Lu" (huruf, huruf besar). Nilainya adalah 0.

Contoh

Contoh berikut menampilkan karakter dan titik kode yang sesuai untuk karakter dalam kategori UppercaseLetter. Anda dapat mengubah contoh untuk menampilkan huruf dalam kategori lain dengan mengganti UppercaseLetter dengan kategori yang menarik bagi Anda dalam penugasan ke category variabel. Perhatikan bahwa output untuk beberapa kategori dapat ekstensif.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Keterangan

Anggota UnicodeCategory enumerasi dikembalikan oleh Char.GetUnicodeCategory metode dan CharUnicodeInfo.GetUnicodeCategory . Enumerasi UnicodeCategory juga digunakan untuk mendukung Char metode, seperti IsUpper(Char). Metode tersebut menentukan apakah karakter yang ditentukan adalah anggota kategori umum Unicode tertentu. Kategori umum Unicode mendefinisikan klasifikasi luas karakter, yaitu, penunjukan sebagai jenis huruf, digit desimal, pemisah, simbol matematika, tanda baca, dan sebagainya.

Enumerasi ini didasarkan pada Unicode Standard, versi 5.0. Untuk informasi selengkapnya, lihat subtopik "Format File UCD" dan "Nilai Kategori Umum" di Database Karakter Unicode.

Standar Unicode mendefinisikan hal berikut:

Pasangan pengganti adalah representasi karakter berkode untuk satu karakter abstrak yang terdiri dari urutan dua unit kode, di mana unit pertama pasangan adalah pengganti tinggi dan yang kedua adalah pengganti rendah. Pengganti tinggi adalah titik kode Unicode dalam rentang U+D800 hingga U+DBFF dan pengganti rendah adalah titik kode Unicode dalam rentang U+DC00 hingga U+DFFF.

Urutan karakter yang menggabungkan adalah kombinasi dari karakter dasar dan satu atau beberapa karakter yang menggabungkan. Pasangan pengganti mewakili karakter dasar atau karakter gabungan. Karakter penggampingan adalah spasi atau nonspacing. Karakter penggabung spasi mengambil posisi spasi dengan sendirinya saat dirender, sementara karakter gabungan nonspacing tidak. Diakritik adalah contoh nonspacing yang menggabungkan karakter.

Huruf pengubah adalah karakter penspasian berdiri bebas yang, seperti karakter gabungan, menunjukkan modifikasi huruf sebelumnya.

Tanda penutup adalah karakter gabungan nonspacing yang mengelilingi semua karakter sebelumnya hingga dan menyertakan karakter dasar.

Karakter format adalah karakter yang biasanya tidak dirender tetapi memengaruhi tata letak teks atau operasi proses teks.

Standar Unicode mendefinisikan beberapa variasi ke beberapa tanda baca. Misalnya, tanda hubung dapat berupa salah satu dari beberapa nilai kode yang mewakili tanda hubung, seperti U+002D (tanda hubung-minus) atau U+00AD (tanda hubung lunak) atau U+2010 (tanda hubung) atau U+2011 (tanda hubung tidak terpecahkan). Hal yang sama berlaku untuk tanda hubung, karakter spasi, dan tanda kutip.

Standar Unicode juga menetapkan kode ke representasi digit desimal yang khusus untuk skrip atau bahasa tertentu, misalnya, U+0030 (digit nol) dan U+0660 (nol digit Arab-Indic).

Berlaku untuk

Lihat juga