System.Char 구조체

비고

이 문서는 이 API에 대한 참조 설명서를 보충하는 추가 설명을 제공합니다.

구조체는 Char UTF-16 인코딩을 사용하여 유니코드 코드 포인트를 나타냅니다. 개체의 Char 값은 16비트 숫자(서수) 값입니다.

유니코드, 스칼라 값, 코드 포인트, 서로게이트 쌍, UTF-16 및 Rune 형식에 익숙하지 않은 경우 .NET의 문자 인코딩 소개를 참조하세요.

이 문서에서는 개체와 문자 간의 Char 관계를 살펴보고 인스턴스와 함께 Char 수행되는 몇 가지 일반적인 작업에 대해 설명합니다. Rune 대신에 이러한 작업 중 일부를 수행하기 위한 대안으로 .NET Core 3.0에 도입된 Char 형식을 고려하는 것이 좋습니다.

Char 개체, 유니코드 문자 및 문자열

String 개체는 텍스트 문자열을 나타내는 구조체의 Char 순차적 컬렉션입니다. 대부분의 유니코드 문자는 단일 Char 개체로 나타낼 수 있지만 기본 문자, 서로게이트 쌍 및/또는 결합 문자 시퀀스로 인코딩된 문자는 여러 Char 개체로 표시됩니다. 이러한 이유로 Char 구조가 String 객체에서 반드시 단일 유니코드 문자와 동일하지는 않습니다.

여러 16비트 코드 단위는 다음과 같은 경우 단일 유니코드 문자를 나타내는 데 사용됩니다.

문자 모양- 단일 문자 또는 기본 문자와 하나 이상의 결합 문자로 구성될 수 있습니다. 예를 들어 ä 문자는 코드 단위가 U+0061인 Char 개체와 코드 단위가 U+0308인 Char 개체로 표시됩니다. (ä 문자는 U+00E4의 코드 단위가 있는 단일 Char 개체로 정의할 수도 있습니다.) 다음 예제에서는 ä 문자가 두 Char 개의 개체로 구성되어 있음을 보여 줍니다.

using System;
using System.IO;

public class Example1
{
    public static void Main()
    {
        StreamWriter sw = new StreamWriter("chars1.txt");
        char[] chars = { '\u0061', '\u0308' };
        string strng = new String(chars);
        sw.WriteLine(strng);
        sw.Close();
    }
}
// The example produces the following output:
//       ä

open System
open System.IO

let sw = new StreamWriter("chars1.txt")
let chars = [| '\u0061'; '\u0308' |]
let string = String chars
sw.WriteLine string
sw.Close()

// The example produces the following output:
//       ä

Imports System.IO

Module Example2
    Public Sub Main()
        Dim sw As New StreamWriter("chars1.txt")
        Dim chars() As Char = {ChrW(&H61), ChrW(&H308)}
        Dim strng As New String(chars)
        sw.WriteLine(strng)
        sw.Close()
    End Sub
End Module
' The example produces the following output:
'       ä

유니코드 BMP(Basic Multilingual Plane) 외부의 문자입니다. 유니코드는 평면 0을 나타내는 BMP 외에 16개의 평면을 지원합니다. 유니코드 코드 포인트는 평면을 포함하는 21비트 값으로 UTF-32로 표시됩니다. 예를 들어 U+1D160은 MUSICAL SYMBOL EIGHTH NOTE 문자를 나타냅니다. UTF-16 인코딩에는 16비트만 있으므로 BMP 외부의 문자는 UTF-16의 서로게이트 쌍으로 표시됩니다. 다음 예제에서는 U+1D160에 해당하는 UTF-32( MUSICAL SYMBOL EIGHTH NOTE 문자)가 U+D834 U+DD60임을 보여 줍니다. U+D834는 상위 서로게이트입니다. 상위 서로게이트 범위는 U+D800부터 U+DBFF까지입니다. U+DD60은 낮은 서로게이트입니다. 하위 서로게이트 범위는 U+DC00부터 U+DFFF까지입니다.

using System;
using System.IO;

public class Example3
{
    public static void Main()
    {
        StreamWriter sw = new StreamWriter(@".\chars2.txt");
        int utf32 = 0x1D160;
        string surrogate = Char.ConvertFromUtf32(utf32);
        sw.WriteLine("U+{0:X6} UTF-32 = {1} ({2}) UTF-16",
                     utf32, surrogate, ShowCodePoints(surrogate));
        sw.Close();
    }

    private static string ShowCodePoints(string value)
    {
        string retval = null;
        foreach (var ch in value)
            retval += String.Format("U+{0:X4} ", Convert.ToUInt16(ch));

        return retval.Trim();
    }
}
// The example produces the following output:
//       U+01D160 UTF-32 = ð (U+D834 U+DD60) UTF-16

open System
open System.IO

let showCodePoints (value: char seq) =
    let str =
        value
        |> Seq.map (fun ch -> $"U+{Convert.ToUInt16 ch:X4}")
        |> String.concat ""
    str.Trim()

let sw = new StreamWriter(@".\chars2.txt")
let utf32 = 0x1D160
let surrogate = Char.ConvertFromUtf32 utf32
sw.WriteLine $"U+{utf32:X6} UTF-32 = {surrogate} ({showCodePoints surrogate}) UTF-16"
sw.Close()

// The example produces the following output:
//       U+01D160 UTF-32 = ð (U+D834 U+DD60) UTF-16

Imports System.IO

Module Example4
    Public Sub Main()
        Dim sw As New StreamWriter(".\chars2.txt")
        Dim utf32 As Integer = &H1D160
        Dim surrogate As String = Char.ConvertFromUtf32(utf32)
        sw.WriteLine("U+{0:X6} UTF-32 = {1} ({2}) UTF-16",
                   utf32, surrogate, ShowCodePoints(surrogate))
        sw.Close()
    End Sub

    Private Function ShowCodePoints(value As String) As String
        Dim retval As String = Nothing
        For Each ch In value
            retval += String.Format("U+{0:X4} ", Convert.ToUInt16(ch))
        Next
        Return retval.Trim()
    End Function
End Module
' The example produces the following output:
'       U+01D160 UTF-32 = ð (U+D834 U+DD60) UTF-16

문자 및 문자 범주

각 유니코드 문자 또는 유효한 서로게이트 쌍은 유니코드 범주에 속합니다. .NET에서 유니코드 범주는 UnicodeCategory 열거형의 멤버로 표시되며, 예를 들어 UnicodeCategory.CurrencySymbol, UnicodeCategory.LowercaseLetter, UnicodeCategory.SpaceSeparator 등의 값을 포함합니다.

문자의 유니코드 범주를 확인하려면 메서드를 호출합니다 GetUnicodeCategory . 예를 들어 다음 예제에서는 문자열에서 GetUnicodeCategory 각 문자의 유니코드 범주를 표시하도록 호출합니다. 이 예제는 인스턴스에 String 서로게이트 쌍이 없는 경우에만 올바르게 작동합니다.

using System;
using System.Globalization;

class Example
{
   public static void Main()
   {
      // Define a string with a variety of character categories.
      String s = "The red car drove down the long, narrow, secluded road.";
      // Determine the category of each character.
      foreach (var ch in s)
         Console.WriteLine($"'{ch}': {Char.GetUnicodeCategory(ch)}");
   }
}
// The example displays the following output:
//      'T': UppercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'c': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'v': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      'n': LowercaseLetter
//      ' ': SpaceSeparator
//      't': LowercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'l': LowercaseLetter
//      'o': LowercaseLetter
//      'n': LowercaseLetter
//      'g': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      'n': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      's': LowercaseLetter
//      'e': LowercaseLetter
//      'c': LowercaseLetter
//      'l': LowercaseLetter
//      'u': LowercaseLetter
//      'd': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'a': LowercaseLetter
//      'd': LowercaseLetter
//      '.': OtherPunctuation

open System

// Define a string with a variety of character categories.
let s = "The red car drove down the long, narrow, secluded road."
// Determine the category of each character.
for ch in s do
    printfn $"'{ch}': {Char.GetUnicodeCategory ch}"

// The example displays the following output:
//      'T': UppercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'c': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'v': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      'n': LowercaseLetter
//      ' ': SpaceSeparator
//      't': LowercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'l': LowercaseLetter
//      'o': LowercaseLetter
//      'n': LowercaseLetter
//      'g': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      'n': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      's': LowercaseLetter
//      'e': LowercaseLetter
//      'c': LowercaseLetter
//      'l': LowercaseLetter
//      'u': LowercaseLetter
//      'd': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'a': LowercaseLetter
//      'd': LowercaseLetter
//      '.': OtherPunctuation

Imports System.Globalization

Module Example1
    Public Sub Main()
        ' Define a string with a variety of character categories.
        Dim s As String = "The car drove down the narrow, secluded road."
        ' Determine the category of each character.
        For Each ch In s
            Console.WriteLine("'{0}': {1}", ch, Char.GetUnicodeCategory(ch))
        Next
    End Sub
End Module
' The example displays the following output:
'       'T': UppercaseLetter
'       'h': LowercaseLetter
'       'e': LowercaseLetter
'       ' ': SpaceSeparator
'       'r': LowercaseLetter
'       'e': LowercaseLetter
'       'd': LowercaseLetter
'       ' ': SpaceSeparator
'       'c': LowercaseLetter
'       'a': LowercaseLetter
'       'r': LowercaseLetter
'       ' ': SpaceSeparator
'       'd': LowercaseLetter
'       'r': LowercaseLetter
'       'o': LowercaseLetter
'       'v': LowercaseLetter
'       'e': LowercaseLetter
'       ' ': SpaceSeparator
'       'd': LowercaseLetter
'       'o': LowercaseLetter
'       'w': LowercaseLetter
'       'n': LowercaseLetter
'       ' ': SpaceSeparator
'       't': LowercaseLetter
'       'h': LowercaseLetter
'       'e': LowercaseLetter
'       ' ': SpaceSeparator
'       'l': LowercaseLetter
'       'o': LowercaseLetter
'       'n': LowercaseLetter
'       'g': LowercaseLetter
'       ',': OtherPunctuation
'       ' ': SpaceSeparator
'       'n': LowercaseLetter
'       'a': LowercaseLetter
'       'r': LowercaseLetter
'       'r': LowercaseLetter
'       'o': LowercaseLetter
'       'w': LowercaseLetter
'       ',': OtherPunctuation
'       ' ': SpaceSeparator
'       's': LowercaseLetter
'       'e': LowercaseLetter
'       'c': LowercaseLetter
'       'l': LowercaseLetter
'       'u': LowercaseLetter
'       'd': LowercaseLetter
'       'e': LowercaseLetter
'       'd': LowercaseLetter
'       ' ': SpaceSeparator
'       'r': LowercaseLetter
'       'o': LowercaseLetter
'       'a': LowercaseLetter
'       'd': LowercaseLetter
'       '.': OtherPunctuation

내부적으로 ASCII 범위(U+0000~ U+00FF)를 벗어난 문자의 GetUnicodeCategory 경우 메서드는 클래스에서 보고한 CharUnicodeInfo 유니코드 범주에 따라 달라집니다. .NET Framework 4.6.2부터 유니코드 문자는 유니코드 표준 버전 8.0.0을 기반으로 분류됩니다. .NET Framework 4에서 .NET Framework 4.6.1로의 .NET Framework 버전에서는 유니코드 표준 버전 6.3.0을 기반으로 분류됩니다.

문자 및 텍스트 요소

단일 문자는 여러 Char 개체로 나타낼 수 있으므로 개별 Char 개체로 작업하는 것이 항상 의미가 있는 것은 아닙니다. 예를 들어 다음 예제에서는 0부터 9까지의 에게 해 숫자를 나타내는 유니코드 코드 포인트를 UTF-16으로 인코딩된 코드 단위로 변환합니다. 객체를 문자와 잘못 혼동하여 결과 문자열이 20자라고 부정확하게 보고합니다.

using System;

public class Example5
{
    public static void Main()
    {
        string result = String.Empty;
        for (int ctr = 0x10107; ctr <= 0x10110; ctr++)  // Range of Aegean numbers.
            result += Char.ConvertFromUtf32(ctr);

        Console.WriteLine($"The string contains {result.Length} characters.");
    }
}
// The example displays the following output:
//     The string contains 20 characters.

open System

let result =
    [ for i in 0x10107..0x10110 do  // Range of Aegean numbers.
        Char.ConvertFromUtf32 i ]
    |> String.concat ""

printfn $"The string contains {result.Length} characters."


// The example displays the following output:
//     The string contains 20 characters.

Module Example5
    Public Sub Main()
        Dim result As String = String.Empty
        For ctr As Integer = &H10107 To &H10110     ' Range of Aegean numbers.
            result += Char.ConvertFromUtf32(ctr)
        Next
        Console.WriteLine("The string contains {0} characters.", result.Length)
    End Sub
End Module
' The example displays the following output:
'     The string contains 20 characters.

개체가 단일 문자를 나타낸다는 Char 가정이 없도록 다음을 수행할 수 있습니다.

개별 문자로 String 작업하는 대신 개체 전체를 사용하여 언어 콘텐츠를 나타내고 분석할 수 있습니다.

다음 예제와 같이 사용할 String.EnumerateRunes 수 있습니다.

int CountLetters(string s)
{
    int letterCount = 0;

    foreach (Rune rune in s.EnumerateRunes())
    {
        if (Rune.IsLetter(rune))
        { letterCount++; }
    }

    return letterCount;
}

let countLetters (s: string) =
    let mutable letterCount = 0

    for rune in s.EnumerateRunes() do
        if Rune.IsLetter rune then
            letterCount <- letterCount + 1

    letterCount

클래스를 StringInfo 사용하여 개별 Char 개체 대신 텍스트 요소를 사용할 수 있습니다. 다음 예제에서는 개체를 StringInfo 사용하여 에게 해 숫자 0에서 9로 구성된 문자열의 텍스트 요소 수를 계산합니다. 서로게이트 쌍을 단일 문자로 간주하므로 문자열에 10자가 포함되어 있음을 올바르게 보고합니다.

using System;
using System.Globalization;

public class Example4
{
    public static void Main()
    {
        string result = String.Empty;
        for (int ctr = 0x10107; ctr <= 0x10110; ctr++)  // Range of Aegean numbers.
            result += Char.ConvertFromUtf32(ctr);

        StringInfo si = new StringInfo(result);
        Console.WriteLine($"The string contains {si.LengthInTextElements} characters.");
    }
}
// The example displays the following output:
//       The string contains 10 characters.

open System
open System.Globalization

let result =
    [ for i in 0x10107..0x10110 do  // Range of Aegean numbers.
        Char.ConvertFromUtf32 i ]
    |> String.concat ""


let si = StringInfo result
printfn $"The string contains {si.LengthInTextElements} characters."

// The example displays the following output:
//       The string contains 10 characters.

Imports System.Globalization

Module Example6
    Public Sub Main()
        Dim result As String = String.Empty
        For ctr As Integer = &H10107 To &H10110     ' Range of Aegean numbers.
            result += Char.ConvertFromUtf32(ctr)
        Next
        Dim si As New StringInfo(result)
        Console.WriteLine("The string contains {0} characters.", si.LengthInTextElements)
    End Sub
End Module
' The example displays the following output:
'       The string contains 10 characters.

문자열에 하나 이상의 결합 문자가 있는 기본 문자가 포함된 경우 메서드를 호출 String.Normalize 하여 부분 문자열을 단일 UTF-16 인코딩 코드 단위로 변환할 수 있습니다. 다음 예제에서는 기본 문자 U+0061(LATIN SMALL LETTER A)와 결합 문자 U+0308(DIAERESIS 결합문자)를 U+00E4(LATIN SMALL LETTER A WITH DIAERESIS)로 변환하기 위해 메서드 String.Normalize를 호출합니다.

using System;

public class Example2
{
    public static void Main()
    {
        string combining = "\u0061\u0308";
        ShowString(combining);

        string normalized = combining.Normalize();
        ShowString(normalized);
    }

    private static void ShowString(string s)
    {
        Console.Write("Length of string: {0} (", s.Length);
        for (int ctr = 0; ctr < s.Length; ctr++)
        {
            Console.Write("U+{0:X4}", Convert.ToUInt16(s[ctr]));
            if (ctr != s.Length - 1) Console.Write(" ");
        }
        Console.WriteLine(")\n");
    }
}
// The example displays the following output:
//       Length of string: 2 (U+0061 U+0308)
//
//       Length of string: 1 (U+00E4)

open System

let showString (s: string) =
    printf $"Length of string: {s.Length} ("
    for i = 0 to s.Length - 1 do
        printf $"U+{Convert.ToUInt16 s[i]:X4}"
        if i <> s.Length - 1 then printf " "
    printfn ")\n"

let combining = "\u0061\u0308"
showString combining

let normalized = combining.Normalize()
showString normalized

// The example displays the following output:
//       Length of string: 2 (U+0061 U+0308)
//
//       Length of string: 1 (U+00E4)

Module Example3
    Public Sub Main()
        Dim combining As String = ChrW(&H61) + ChrW(&H308)
        ShowString(combining)

        Dim normalized As String = combining.Normalize()
        ShowString(normalized)
    End Sub

    Private Sub ShowString(s As String)
        Console.Write("Length of string: {0} (", s.Length)
        For ctr As Integer = 0 To s.Length - 1
            Console.Write("U+{0:X4}", Convert.ToUInt16(s(ctr)))
            If ctr <> s.Length - 1 Then Console.Write(" ")
        Next
        Console.WriteLine(")")
        Console.WriteLine()
    End Sub
End Module
' The example displays the following output:
'       Length of string: 2 (U+0061 U+0308)
'       
'       Length of string: 1 (U+00E4)

일반적인 작업

구조체는 Char 개체를 비교하고, 현재 Char 개체의 값을 다른 형식의 개체로 변환하며, Char 개체의 유니코드 범주를 결정하는 메서드를 제공합니다.

이 작업을 수행하려면	이러한 `System.Char` 메서드 사용
Char 개체를 비교하세요	CompareTo 및 Equals
코드 지점을 문자열로 변환	ConvertFromUtf32 형식도 참조하세요 Rune .
Char 개체 또는 서로게이트 개체 쌍 Char 을 코드 포인트로 변환	단일 문자의 경우: Convert.ToInt32(Char) 대체 쌍이나 문자열 안의 문자: Char.ConvertToUtf32 형식도 참조하세요 Rune .
문자의 유니코드 범주 가져오기	GetUnicodeCategory Rune.GetUnicodeCategory을 참조하세요.
문자가 숫자, 문자, 문장 부호, 컨트롤 문자 등과 같은 특정 유니코드 범주에 있는지 확인	IsControl, IsDigit, IsHighSurrogate, IsLetter, IsLetterOrDigit, IsLower, IsLowSurrogate, IsNumber, IsPunctuation, IsSeparator, IsSurrogate, IsSurrogatePair, IsSymbol, IsUpper 및 IsWhiteSpace 형식에 대한 해당 메서드도 참조하세요 Rune .
Char 숫자를 나타내는 개체를 숫자 값 형식으로 변환	GetNumericValue Rune.GetNumericValue을 참조하세요.
문자열의 문자를 개체로 Char 변환	Parse 및 TryParse
개체를 Char 개체로 String 변환	ToString
Char 개체의 대문자와 소문자 변경	ToLower, ToLowerInvariant, ToUpper및 ToUpperInvariant 형식에 대한 해당 메서드도 참조하세요 Rune .

Char 값 및 상호 운용성

유니코드 UTF-16으로 인코딩된 코드 단위로 표현된 Char 형식이 관리되지 않는 코드에 전달되면, interop 마샬러는 문자열의 문자 집합을 기본적으로 ANSI로 변환합니다. 플랫폼 호출 선언에 DllImportAttribute 특성을 적용하고, COM interop 선언에 StructLayoutAttribute 특성을 적용하여 마샬링된 Char 형식이 사용하는 문자 집합을 제어할 수 있습니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2024-01-08