UnicodeCategory 列挙型

リファレンス

定義

名前空間:: System.Globalization

アセンブリ:: System.Globalization.dll

アセンブリ:: System.Runtime.dll

アセンブリ:: mscorlib.dll

アセンブリ:: netstandard.dll

重要

一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。

文字の Unicode カテゴリを定義します。

public enum class UnicodeCategory

public enum UnicodeCategory

[System.Serializable]
public enum UnicodeCategory

[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory

type UnicodeCategory =

[<System.Serializable>]
type UnicodeCategory =

[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =

Public Enum UnicodeCategory

継承: Object

ValueType

Enum
UnicodeCategory

属性: SerializableAttribute ComVisibleAttribute

フィールド

ClosePunctuation	21	かっこ、角かっこ、中かっこなどの区切り記号のペアの終了文字。 Unicode の表記では "Pe" (punctuation, close) で表されます。値は 21 です。
ConnectorPunctuation	18	2 つの文字を接続するコネクタ区切り記号文字。 Unicode の表記では "Pc" (punctuation, connector) で表されます。値は 18 です。
Control	14	Unicode 値が U+007F、U+0000 から U+001F の範囲、または U+0080 から U+009F の範囲に含まれる制御コード文字。 Unicode の表記では "Cc" (other, control) で表されます。値は 14 です。
CurrencySymbol	26	通貨記号文字。 Unicode の表記では "Sc" (symbol, currency) で表されます。値は 26 です。
DashPunctuation	19	ダッシュ文字またはハイフン文字。 Unicode の表記では "Pd" (punctuation, dash) で表されます。値は 19 です。
DecimalDigitNumber	8	10 進数字文字、つまり 0 から 9 の範囲の整数を表す文字。 Unicode の表記 "Nd" (number, decimal digit) によって指定します。値は 8 です。
EnclosingMark	7	囲み記号文字。基本文字まで (基本文字を含む) のすべての先行文字を囲む非スペーシング組み合わせ文字です。 Unicode の表記では "Me" (mark, enclosing) で表されます。値は 7 です。
FinalQuotePunctuation	23	終了引用符文字または最後の引用符文字。 Unicode の表記では "Pf" (punctuation, final quote) で表されます。値は 23 です。
Format	15	形式指定文字。テキストのレイアウトまたはテキスト処理の動作に影響を与えますが、通常は表示されません。 Unicode の表記では "Cf" (other, format) で表されます。値は 15 です。
InitialQuotePunctuation	22	開始引用符文字または最初の引用符文字。 Unicode の表記では "Pi" (punctuation, initial quote) で表されます。値は 22 です。
LetterNumber	9	数字の 5 がローマ数字では "V" になるように、10 進数の数字ではなく文字によって表される数値。 Unicode の表記では "Nl" (number, letter) で表されます。値は 9 です。
LineSeparator	12	テキストの行を区切るために使用される文字。 Unicode の表記では "Zl" (separator, line) で表されます。値は 12 です。
LowercaseLetter	1	小文字。 Unicode の表記では "Ll" (letter, lowercase) で表されます。値は 1 です。
MathSymbol	25	プラス記号 "+" や等号 "=" などの算術記号文字。 Unicode の表記では "Sm" (symbol, math) で表されます。値は 25 です。
ModifierLetter	3	修飾子文字。先行文字の修飾を示す独立型スペース文字です。 Unicode の表記では "Lm" (letter, modifier) で表されます。値は 3 です。
ModifierSymbol	27	修飾子記号文字。囲んでいる文字の修飾を示します。たとえば、分数のスラッシュは、左側の数値が分子で、右側の数値が分母であることを示します。 Unicode の表記では "Sk" (symbol, modifier) で表されます。値は 27 です。
NonSpacingMark	5	基本文字の修飾を示す非スペース文字。 Unicode の表記では "Mn" (mark, nonspacing) で表されます。値は 5 です。
OpenPunctuation	20	かっこ、角かっこ、中かっこなどの区切り記号のペアの開始文字。 Unicode の表記では "Ps" (punctuation, open) で表されます。値は 20 です。
OtherLetter	4	大文字、小文字、タイトル文字、または修飾子文字以外の文字。 Unicode の表記では "Lo" (letter, other) で表されます。値は 4 です。
OtherNotAssigned	29	Unicode カテゴリに割り当てられていない文字。 Unicode の表記では "Cn" (other, not assigned) で表されます。値は 29 です。
OtherNumber	10	分数の 1/2 のように、10 進数の数字でも文字数字でもない数値。インジケーターは、Unicode の表記 "No" (number, other) によって指定します。値は 10 です。
OtherPunctuation	24	区切り文字。コネクタ、ダッシュ、開始区切り、終了区切り、最初の引用、または最後の引用以外。 Unicode の表記では "Po" (punctuation, other) で表されます。値は 24 です。
OtherSymbol	28	算術記号、通貨記号、または修飾子記号以外の記号文字。 Unicode の表記では "So" (symbol, other) で表されます。値は 28 です。
ParagraphSeparator	13	段落を区切るために使用される文字。 Unicode の表記では "Zp" (separator, paragraph) で表されます。値は 13 です。
PrivateUse	17	Unicode 値が U+E000 から U+F8FF の範囲に含まれるプライベート使用の文字。 Unicode の表記では "Co" (other, private use) で表されます。値は 17 です。
SpaceSeparator	11	制御文字または形式指定文字以外のグリフのない空白文字。 Unicode の表記では "Zs" (separator, space) で表されます。値は 11 です。
SpacingCombiningMark	6	基本文字の修飾を示し、その基本文字のグリフの幅に影響を与えるスペース文字。 Unicode の表記では "Mc" (mark, spacing combining) で表されます。値は 6 です。
Surrogate	16	上位サロゲート文字または下位サロゲート文字。サロゲートコード値は、U+D800 から U+DFFF の範囲です。 Unicode の表記では "Cs" (other, surrogate) で表されます。値は 16 です。
TitlecaseLetter	2	タイトル文字。 Unicode の表記では "Lt" (letter, titlecase) で表されます。値は 2 です。
UppercaseLetter	0	大文字。 Unicode の表記では "Lu" (letter, uppercase) で表されます。値は 0 です。

例

次の使用例は、文字とそれに対応するコードポイントを、UppercaseLetter カテゴリの文字に表示します。この例を変更して、他のカテゴリの文字を表示するには、UppercaseLetter を変数への割り当てで目的のカテゴリに category 置き換えます。一部のカテゴリの出力は広範囲に及ぶ可能性があることに注意してください。

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}

Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

注釈

列挙体のUnicodeCategoryメンバーは、メソッドと CharUnicodeInfo.GetUnicodeCategory メソッドによってChar.GetUnicodeCategory返されます。 UnicodeCategory列挙体は、などのIsUpper(Char)メソッドをサポートCharするためにも使用されます。このようなメソッドは、指定された文字が特定の Unicode 一般カテゴリのメンバーであるかどうかを判断します。 Unicode の一般的なカテゴリでは、文字の広範な分類(文字の種類、小数点、区切り記号、数学記号、句読点など)を定義します。

この列挙体は、Unicode Standard バージョン 5.0 に基づいています。詳細については、「Unicode Character Database (Unicode 文字データベース)」内の「UCD File Format (UCD ファイル形式)」および「General Category Values (一般カテゴリの値)」を参照してください。

Unicode 標準では、次の定義が定義されています。

サロゲートペアは、2 つのコード単位のシーケンスで構成される 1 つの抽象文字のコード化された文字表現です。この場合、ペアの最初の単位は上位サロゲート、2 番目のユニットは低サロゲートです。上位サロゲートは U+D800 ~ U+DBFF の範囲の Unicode コードポイントであり、低サロゲートは U+DC00 から U+DFFF の範囲の Unicode コードポイントです。

結合文字シーケンスは、基本文字と 1 つ以上の結合文字の組み合わせです。サロゲートペアは、基本文字または結合文字を表します。結合文字は、スペースまたは非スペーシングです。文字を結合するスペースは、レンダリング時にそれ自体でスペース位置を占めますが、非スペーシング結合文字では行われません。分音記号は、非スペーシング結合文字の例です。

修飾子文字は、結合文字と同様に、前の文字の変更を示す、フリースタンディングの間隔文字です。

囲み記号は、前のすべての文字を基本文字まで囲み、基本文字を含む非スペーシング結合文字です。

書式文字は、通常はレンダリングされませんが、テキストのレイアウトやテキストプロセスの操作に影響を与える文字です。

Unicode 標準では、いくつかの句読点に対していくつかのバリエーションが定義されています。たとえば、ハイフンには、U+002D (ハイフンマイナス) や U+00AD (ソフトハイフン) や U+2010 (ハイフン) や U+2011 (改行しないハイフン) など、ハイフンを表す複数のコード値のいずれかを指定できます。ダッシュ、スペース文字、引用符についても同様です。

Unicode 標準では、特定のスクリプトまたは言語に固有の 10 進数の表現にコードも割り当てられます。たとえば、U+0030 (数字 0)、U+0660 (アラビア数字 0) などです。

適用対象

こちらもご覧ください

UnicodeEncoding

次の方法で共有

UnicodeCategory 列挙型

定義

フィールド

例

注釈

適用対象

こちらもご覧ください

フィードバック

その他のリソース