UnicodeCategory 열거형
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
문자의 유니코드 범주를 정의합니다.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- 상속
- 특성
필드
ClosePunctuation | 21 | 소괄호, 대괄호, 중괄호 등 쌍을 이루는 문장 부호 중 닫는 문자입니다. 유니코드 지정 "Pe"(punctuation, close)로 지정됩니다. 값은 21입니다. |
ConnectorPunctuation | 18 | 두 문자를 연결하는 연결 문장 부호 문자입니다. 유니코드 지정 "Pc"(punctuation, connector)로 지정됩니다. 값은 18입니다. |
Control | 14 | 유니코드 값이 U+007F이거나 U+0000부터 U+001F까지 또는 U+0080부터 U+009F까지의 범위에 있는 컨트롤 코드 문자입니다. 유니코드 지정 "Cc"(other, control)로 지정됩니다. 값은 14입니다. |
CurrencySymbol | 26 | 통화 기호 문자입니다. 유니코드 지정 "Sc"(symbol, currency)로 지정됩니다. 값은 26입니다. |
DashPunctuation | 19 | 대시 또는 하이픈 문자입니다. 유니코드 지정 "Pd"(punctuation, dash)로 지정됩니다. 값은 19입니다. |
DecimalDigitNumber | 8 | 10진수 문자, 즉 0부터 9까지의 범위에서 정수를 나타내는 문자입니다. 유니코드 지정 "Nd"(number, decimal digit)로 지정됩니다. 값은 8입니다. |
EnclosingMark | 7 | 묶기 표시 문자, 즉 기본 문자를 포함한 모든 이전 문자를 둘러싸는 간격이 없는 조합 문자입니다. 유니코드 지정 "Me"(mark, enclosing)로 지정됩니다. 값은 7입니다. |
FinalQuotePunctuation | 23 | 닫는 문자 또는 마지막 문장 부호(") 문자입니다. 유니코드 지정 "Pf"(punctuation, final quote)로 지정됩니다. 값은 23입니다. |
Format | 15 | 대개 렌더링되지 않고 텍스트 레이아웃이나 텍스트 처리 작업에 영향을 주는 서식 문자입니다. 유니코드 지정 "Cf"(other, format)로 지정됩니다. 값은 15입니다. |
InitialQuotePunctuation | 22 | 여는 문자 또는 시작 문장 부호 문자입니다. 유니코드 지정 "Pi"(punctuation, initial quote)로 지정됩니다. 값은 22입니다. |
LetterNumber | 9 | 5에 해당하는 로마자 "V"와 같이 10진수 대신 문자로 나타내는 숫자입니다. 유니코드 지정 "Nl"(number, letter)로 지정됩니다. 값은 9입니다. |
LineSeparator | 12 | 텍스트 행을 구분하는 데 사용되는 문자입니다. 유니코드 지정 "Zl"(separator, line)으로 지정됩니다. 값은 12입니다. |
LowercaseLetter | 1 | 소문자입니다. 유니코드 지정 "Ll"(letter, lowercase)로 지정됩니다. 값은 1입니다. |
MathSymbol | 25 | "+" 또는 "=" 같은 수학 기호 문자입니다. 유니코드 지정 "Sm"(symbol, math)으로 지정됩니다. 값은 25입니다. |
ModifierLetter | 3 | 이전 문자를 제한하는, 간격이 자유로운 문자인 한정자 문자입니다. 유니코드 지정 "Lm"(letter, modifier)으로 지정됩니다. 값이 3입니다. |
ModifierSymbol | 27 | 주위 문자를 제한하는 한정자 기호 문자입니다. 예를 들어 분수 기호는 이 기호의 왼쪽 숫자가 분자이고, 오른쪽 숫자가 분모임을 나타냅니다. 유니코드 지정 "Sk"(symbol, modifier)로 지정됩니다. 값은 27입니다. |
NonSpacingMark | 5 | 기본 문자를 제한하는 간격이 없는 문자입니다. 유니코드 지정 "Mn"(mark, nonspacing)으로 지정됩니다. 값은 5입니다. |
OpenPunctuation | 20 | 괄호, 대괄호 및 중괄호처럼 쌍을 이루는 문장 부호의 여는 문자입니다. 유니코드 지정 "Ps"(punctuation, open)로 지정됩니다. 값은 20입니다. |
OtherLetter | 4 | 대문자, 소문자, 단어의 첫 글자를 대문자로 하는 문자 또는 한정자 문자가 아닌 문자입니다. 유니코드 지정 "Lo"(letter, other)로 지정됩니다. 값은 4입니다. |
OtherNotAssigned | 29 | 어떠한 유니코드 범주에도 할당되지 않은 문자입니다. 유니코드 지정 "Cn"(other, not assigned)으로 지정됩니다. 값은 29입니다. |
OtherNumber | 10 | 10진수나 문자 숫자가 아닌 숫자(예: 분수 1/2)입니다. 유니코드 지정 "No"(number, other)로 지정됩니다. 값은 10입니다. |
OtherPunctuation | 24 | 연결 문장 부호, 대시, 여는 문장 부호, 닫는 문장 부호, 처음 따옴표 또는 마지막 따옴표가 아닌 문장 부호 문자입니다. 유니코드 지정 "Po"(punctuation, other)로 지정됩니다. 값은 24입니다. |
OtherSymbol | 28 | 수학 기호, 통화 기호 또는 한정자 기호가 아닌 기호 문자입니다. 유니코드 지정 "So"(symbol, other)로 지정됩니다. 값은 28입니다. |
ParagraphSeparator | 13 | 단락을 구분하는 데 사용되는 문자입니다. 유니코드 지정 "Zp"(separator, paragraph)로 지정됩니다. 값은 13입니다. |
PrivateUse | 17 | 유니코드 값이 U+E000부터 U+F8FF까지의 범위에 있는 프라이빗 문자입니다. 유니코드 지정 "Co"(other, private use)로 지정됩니다. 값은 17입니다. |
SpaceSeparator | 11 | 문자 모양은 없지만 제어 문자나 서식 문자가 아닌 공백 문자입니다. 유니코드 지정 "Zs"(separator, space)로 지정됩니다. 값은 11입니다. |
SpacingCombiningMark | 6 | 기본 문자를 제한하고 이 기본 문자의 문자 모양 너비에 영향을 주는 간격이 있는 문자입니다. 유니코드 지정 "Mc"(mark, spacing combining)로 지정됩니다. 값은 6입니다. |
Surrogate | 16 | high surrogate 또는 low surrogate 문자입니다. 서로게이트 코드 값은 U+D800부터 U+DFFF까지의 범위에 있습니다. 유니코드 지정 "Cs"(other, surrogate)로 지정됩니다. 값은 16입니다. |
TitlecaseLetter | 2 | 제목 스타일 문자입니다. 유니코드 지정 "Lt"(letter, titlecase)로 지정됩니다. 값은 2입니다. |
UppercaseLetter | 0 | 대문자입니다. 유니코드 지정 "Lu"(letter, uppercase)로 지정됩니다. 값은 0입니다. |
예제
다음 예제에서는 UppercaseLetter 범주의 문자에 대한 문자 및 해당 코드 포인트를 표시합니다. UppercaseLetter를 변수에 할당할 때 관심 있는 범주로 바꿔 다른 범주에 문자를 표시하도록 예제를 category
수정할 수 있습니다. 일부 범주의 출력은 광범위할 수 있습니다.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
설명
열거형의 UnicodeCategory 멤버는 및 CharUnicodeInfo.GetUnicodeCategory 메서드에 Char.GetUnicodeCategory 의해 반환됩니다. UnicodeCategory 열거형은 와 같은 IsUpper(Char)메서드를 지원하는 Char 데도 사용됩니다. 이러한 메서드는 지정된 문자가 특정 유니코드 일반 범주의 멤버인지 여부를 결정합니다. 유니코드 일반 범주는 문자의 광범위한 분류, 즉 문자 형식, 소수 자릿수, 구분 기호, 수학적 기호, 문장 부호 등을 정의합니다.
이 열거형은 유니코드 표준 버전 5.0을 기반으로 합니다. 자세한 내용은 유니코드 문자 데이터베이스의 하위 항목인 "UCD 파일 형식"과 "일반 범주 값"을 참조하세요.
유니코드 표준은 다음을 정의합니다.
서로게이트 쌍은 두 코드 단위의 시퀀스로 구성된 단일 추상 문자에 대한 코딩된 문자 표현입니다. 여기서 쌍의 첫 번째 단위는 상위 서로게이트이고 두 번째는 낮은 서로게이트입니다. 상위 서로게이트는 U+D800~U+DBFF 범위의 유니코드 코드 지점이며 하위 서로게이트는 U+DC00~U+DFFF 범위의 유니코드 코드 지점입니다.
결합 문자 시퀀스는 기본 문자와 하나 이상의 결합 문자의 조합입니다. 서로게이트 쌍은 기본 문자 또는 결합 문자를 나타냅니다. 결합 문자는 간격 또는 비스페이스입니다. 공백 결합 문자는 렌더링될 때 자체 간격 위치를 차지하지만 간격이 없는 결합 문자는 그렇지 않습니다. 분음 부호는 공백이 없는 결합 문자의 예입니다.
한정자 문자는 결합 문자와 같이 이전 문자의 수정을 나타내는 자유 간격 문자입니다.
바깥쪽 표시는 기본 문자를 포함하여 모든 이전 문자를 둘러싸는 간격이 없는 결합 문자입니다.
서식 문자는 일반적으로 렌더링되지 않지만 텍스트 레이아웃 또는 텍스트 프로세스 작업에 영향을 주는 문자입니다.
유니코드 표준은 일부 문장 부호에 대한 몇 가지 변형을 정의합니다. 예를 들어 하이픈은 U+002D(하이픈-빼기) 또는 U+00AD(소프트 하이픈) 또는 U+2010(하이픈) 또는 U+2011(언브레이킹 하이픈)과 같이 하이픈을 나타내는 여러 코드 값 중 하나일 수 있습니다. 대시, 공백 문자 및 따옴표도 마찬가지입니다.
또한 유니코드 표준은 지정된 스크립트 또는 언어와 관련된 10진수 표현에 코드를 할당합니다(예: U+0030(숫자 0) 및 U+0660(아랍어-인딕 숫자 0)).
적용 대상
추가 정보
.NET