다음을 통해 공유


System.Char 구조체

이 문서에서는 이 API에 대한 참조 설명서에 대한 추가 설명서를 제공합니다.

구조체는 Char UTF-16 인코딩을 사용하여 유니코드 코드 포인트를 나타냅니다. 개체의 Char 값은 16비트 숫자(서수) 값입니다.

유니코드, 스칼라 값, 코드 포인트, 서로게이트 쌍, UTF-16 및 Rune 형식에 익숙하지 않은 경우 .NET의 문자 인코딩 소개를 참조하세요.

이 문서에서는 개체와 문자 간의 Char 관계를 살펴보고 인스턴스와 함께 Char 수행되는 몇 가지 일반적인 작업에 대해 설명합니다. 이러한 작업 중 일부를 수행하기 위한 대안으로 .NET Core 3.0에 도입된 형식을 Char 고려하는 Rune 것이 좋습니다.

Char 개체, 유니코드 문자 및 문자열

String 개체는 텍스트 문자열을 나타내는 구조체의 Char 순차적 컬렉션입니다. 대부분의 유니코드 문자는 단일 Char 개체로 나타낼 수 있지만 기본 문자, 서로게이트 쌍 및/또는 결합 문자 시퀀스로 인코딩된 문자는 여러 Char 개체로 표시됩니다. 이러한 이유로 개체의 Char 구조 String 체가 반드시 단일 유니코드 문자와 동일하지는 않습니다.

여러 16비트 코드 단위는 다음과 같은 경우 단일 유니코드 문자를 나타내는 데 사용됩니다.

  • 문자 모양- 단일 문자 또는 기본 문자와 하나 이상의 결합 문자로 구성될 수 있습니다. 예를 들어 ä 문자는 코드 단위가 U+0061인 개체와 Char 코드 단위가 U+0308인 개체로 표시됩니다Char. (ä 문자는 U+00E4의 코드 단위가 있는 단일 Char 개체로 정의할 수도 있습니다.) 다음 예제에서는 ä 문자가 두 Char 개의 개체로 구성되어 있음을 보여 줍니다.

    using System;
    using System.IO;
    
    public class Example1
    {
        public static void Main()
        {
            StreamWriter sw = new StreamWriter("chars1.txt");
            char[] chars = { '\u0061', '\u0308' };
            string strng = new String(chars);
            sw.WriteLine(strng);
            sw.Close();
        }
    }
    // The example produces the following output:
    //       ä
    
    open System
    open System.IO
    
    let sw = new StreamWriter("chars1.txt")
    let chars = [| '\u0061'; '\u0308' |]
    let string = String chars
    sw.WriteLine string
    sw.Close()
    
    // The example produces the following output:
    //       ä
    
    Imports System.IO
    
    Module Example2
        Public Sub Main()
            Dim sw As New StreamWriter("chars1.txt")
            Dim chars() As Char = {ChrW(&H61), ChrW(&H308)}
            Dim strng As New String(chars)
            sw.WriteLine(strng)
            sw.Close()
        End Sub
    End Module
    ' The example produces the following output:
    '       ä
    
  • 유니코드 BMP(Basic Multilingual Plane) 외부의 문자입니다. 유니코드는 평면 0을 나타내는 BMP 외에 16개의 평면을 지원합니다. 유니코드 코드 포인트는 평면을 포함하는 21비트 값으로 UTF-32로 표시됩니다. 예를 들어 U+1D160은 MUSICAL SYMBOL EIGHTH NOTE 문자를 나타냅니다. UTF-16 인코딩에는 16비트만 있으므로 BMP 외부의 문자는 UTF-16의 서로게이트 쌍으로 표시됩니다. 다음 예제에서는 U+1D160에 해당하는 UTF-32( MUSICAL SYMBOL EIGHTH NOTE 문자)가 U+D834 U+DD60임을 보여 줍니다. U+D834는 상위 서로게이트입니다. 상위 서로게이트 범위는 U+D800부터 U+DBFF까지입니다. U+DD60은 낮은 서로게이트입니다. 하위 서로게이트 범위는 U+DC00부터 U+DFFF까지입니다.

    using System;
    using System.IO;
    
    public class Example3
    {
        public static void Main()
        {
            StreamWriter sw = new StreamWriter(@".\chars2.txt");
            int utf32 = 0x1D160;
            string surrogate = Char.ConvertFromUtf32(utf32);
            sw.WriteLine("U+{0:X6} UTF-32 = {1} ({2}) UTF-16",
                         utf32, surrogate, ShowCodePoints(surrogate));
            sw.Close();
        }
    
        private static string ShowCodePoints(string value)
        {
            string retval = null;
            foreach (var ch in value)
                retval += String.Format("U+{0:X4} ", Convert.ToUInt16(ch));
    
            return retval.Trim();
        }
    }
    // The example produces the following output:
    //       U+01D160 UTF-32 = ð (U+D834 U+DD60) UTF-16
    
    open System
    open System.IO
    
    let showCodePoints (value: char seq) =
        let str =
            value
            |> Seq.map (fun ch -> $"U+{Convert.ToUInt16 ch:X4}")
            |> String.concat ""
        str.Trim()
    
    let sw = new StreamWriter(@".\chars2.txt")
    let utf32 = 0x1D160
    let surrogate = Char.ConvertFromUtf32 utf32
    sw.WriteLine $"U+{utf32:X6} UTF-32 = {surrogate} ({showCodePoints surrogate}) UTF-16"
    sw.Close()
    
    // The example produces the following output:
    //       U+01D160 UTF-32 = ð (U+D834 U+DD60) UTF-16
    
    Imports System.IO
    
    Module Example4
        Public Sub Main()
            Dim sw As New StreamWriter(".\chars2.txt")
            Dim utf32 As Integer = &H1D160
            Dim surrogate As String = Char.ConvertFromUtf32(utf32)
            sw.WriteLine("U+{0:X6} UTF-32 = {1} ({2}) UTF-16",
                       utf32, surrogate, ShowCodePoints(surrogate))
            sw.Close()
        End Sub
    
        Private Function ShowCodePoints(value As String) As String
            Dim retval As String = Nothing
            For Each ch In value
                retval += String.Format("U+{0:X4} ", Convert.ToUInt16(ch))
            Next
            Return retval.Trim()
        End Function
    End Module
    ' The example produces the following output:
    '       U+01D160 UTF-32 = ð (U+D834 U+DD60) UTF-16
    

문자 및 문자 범주

각 유니코드 문자 또는 유효한 서로게이트 쌍은 유니코드 범주에 속합니다. .NET에서 유니코드 범주는 열거형의 UnicodeCategory 멤버로 표시되며, 예를 들어 , UnicodeCategory.LowercaseLetterUnicodeCategory.SpaceSeparator등의 값을 UnicodeCategory.CurrencySymbol포함합니다.

문자의 유니코드 범주를 확인하려면 메서드를 호출합니다 GetUnicodeCategory . 예를 들어 다음 예제에서는 문자열에서 GetUnicodeCategory 각 문자의 유니코드 범주를 표시하도록 호출합니다. 이 예제는 인스턴스에 String 서로게이트 쌍이 없는 경우에만 올바르게 작동합니다.

using System;
using System.Globalization;

class Example
{
   public static void Main()
   {
      // Define a string with a variety of character categories.
      String s = "The red car drove down the long, narrow, secluded road.";
      // Determine the category of each character.
      foreach (var ch in s)
         Console.WriteLine("'{0}': {1}", ch, Char.GetUnicodeCategory(ch));
   }
}
// The example displays the following output:
//      'T': UppercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'c': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'v': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      'n': LowercaseLetter
//      ' ': SpaceSeparator
//      't': LowercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'l': LowercaseLetter
//      'o': LowercaseLetter
//      'n': LowercaseLetter
//      'g': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      'n': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      's': LowercaseLetter
//      'e': LowercaseLetter
//      'c': LowercaseLetter
//      'l': LowercaseLetter
//      'u': LowercaseLetter
//      'd': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'a': LowercaseLetter
//      'd': LowercaseLetter
//      '.': OtherPunctuation
open System

// Define a string with a variety of character categories.
let s = "The red car drove down the long, narrow, secluded road."
// Determine the category of each character.
for ch in s do
    printfn $"'{ch}': {Char.GetUnicodeCategory ch}"

// The example displays the following output:
//      'T': UppercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'c': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'v': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'd': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      'n': LowercaseLetter
//      ' ': SpaceSeparator
//      't': LowercaseLetter
//      'h': LowercaseLetter
//      'e': LowercaseLetter
//      ' ': SpaceSeparator
//      'l': LowercaseLetter
//      'o': LowercaseLetter
//      'n': LowercaseLetter
//      'g': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      'n': LowercaseLetter
//      'a': LowercaseLetter
//      'r': LowercaseLetter
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'w': LowercaseLetter
//      ',': OtherPunctuation
//      ' ': SpaceSeparator
//      's': LowercaseLetter
//      'e': LowercaseLetter
//      'c': LowercaseLetter
//      'l': LowercaseLetter
//      'u': LowercaseLetter
//      'd': LowercaseLetter
//      'e': LowercaseLetter
//      'd': LowercaseLetter
//      ' ': SpaceSeparator
//      'r': LowercaseLetter
//      'o': LowercaseLetter
//      'a': LowercaseLetter
//      'd': LowercaseLetter
//      '.': OtherPunctuation
Imports System.Globalization

Module Example1
    Public Sub Main()
        ' Define a string with a variety of character categories.
        Dim s As String = "The car drove down the narrow, secluded road."
        ' Determine the category of each character.
        For Each ch In s
            Console.WriteLine("'{0}': {1}", ch, Char.GetUnicodeCategory(ch))
        Next
    End Sub
End Module
' The example displays the following output:
'       'T': UppercaseLetter
'       'h': LowercaseLetter
'       'e': LowercaseLetter
'       ' ': SpaceSeparator
'       'r': LowercaseLetter
'       'e': LowercaseLetter
'       'd': LowercaseLetter
'       ' ': SpaceSeparator
'       'c': LowercaseLetter
'       'a': LowercaseLetter
'       'r': LowercaseLetter
'       ' ': SpaceSeparator
'       'd': LowercaseLetter
'       'r': LowercaseLetter
'       'o': LowercaseLetter
'       'v': LowercaseLetter
'       'e': LowercaseLetter
'       ' ': SpaceSeparator
'       'd': LowercaseLetter
'       'o': LowercaseLetter
'       'w': LowercaseLetter
'       'n': LowercaseLetter
'       ' ': SpaceSeparator
'       't': LowercaseLetter
'       'h': LowercaseLetter
'       'e': LowercaseLetter
'       ' ': SpaceSeparator
'       'l': LowercaseLetter
'       'o': LowercaseLetter
'       'n': LowercaseLetter
'       'g': LowercaseLetter
'       ',': OtherPunctuation
'       ' ': SpaceSeparator
'       'n': LowercaseLetter
'       'a': LowercaseLetter
'       'r': LowercaseLetter
'       'r': LowercaseLetter
'       'o': LowercaseLetter
'       'w': LowercaseLetter
'       ',': OtherPunctuation
'       ' ': SpaceSeparator
'       's': LowercaseLetter
'       'e': LowercaseLetter
'       'c': LowercaseLetter
'       'l': LowercaseLetter
'       'u': LowercaseLetter
'       'd': LowercaseLetter
'       'e': LowercaseLetter
'       'd': LowercaseLetter
'       ' ': SpaceSeparator
'       'r': LowercaseLetter
'       'o': LowercaseLetter
'       'a': LowercaseLetter
'       'd': LowercaseLetter
'       '.': OtherPunctuation

내부적으로 ASCII 범위(U+0000~ U+00FF)를 벗어난 문자의 GetUnicodeCategory 경우 메서드는 클래스에서 보고한 CharUnicodeInfo 유니코드 범주에 따라 달라집니다. .NET Framework 4.6.2부터 유니코드 문자는 유니코드 표준 버전 8.0.0을 기반으로 분류됩니다. .NET Framework 4에서 .NET Framework 4.6.1로의 .NET Framework 버전에서는 유니코드 표준 버전 6.3.0을 기반으로 분류됩니다.

문자 및 텍스트 요소

단일 문자는 여러 Char 개체로 나타낼 수 있으므로 개별 Char 개체로 작업하는 것이 항상 의미가 있는 것은 아닙니다. 예를 들어 다음 예제에서는 0부터 9까지의 에게 해를 나타내는 유니코드 코드 요소를 UTF-16으로 인코딩된 코드 단위로 변환합니다. 개체와 문자가 잘못 동일 Char 하기 때문에 결과 문자열에 20자가 있다고 부정확하게 보고합니다.

using System;

public class Example5
{
    public static void Main()
    {
        string result = String.Empty;
        for (int ctr = 0x10107; ctr <= 0x10110; ctr++)  // Range of Aegean numbers.
            result += Char.ConvertFromUtf32(ctr);

        Console.WriteLine("The string contains {0} characters.", result.Length);
    }
}
// The example displays the following output:
//     The string contains 20 characters.
open System

let result =
    [ for i in 0x10107..0x10110 do  // Range of Aegean numbers.
        Char.ConvertFromUtf32 i ]
    |> String.concat ""

printfn $"The string contains {result.Length} characters."


// The example displays the following output:
//     The string contains 20 characters.
Module Example5
    Public Sub Main()
        Dim result As String = String.Empty
        For ctr As Integer = &H10107 To &H10110     ' Range of Aegean numbers.
            result += Char.ConvertFromUtf32(ctr)
        Next
        Console.WriteLine("The string contains {0} characters.", result.Length)
    End Sub
End Module
' The example displays the following output:
'     The string contains 20 characters.

개체가 단일 문자를 나타낸다는 Char 가정이 없도록 다음을 수행할 수 있습니다.

  • 개별 문자로 String 작업하는 대신 개체 전체를 사용하여 언어 콘텐츠를 나타내고 분석할 수 있습니다.

  • 다음 예제와 같이 사용할 String.EnumerateRunes 수 있습니다.

    int CountLetters(string s)
    {
        int letterCount = 0;
    
        foreach (Rune rune in s.EnumerateRunes())
        {
            if (Rune.IsLetter(rune))
            { letterCount++; }
        }
    
        return letterCount;
    }
    
    let countLetters (s: string) =
        let mutable letterCount = 0
    
        for rune in s.EnumerateRunes() do
            if Rune.IsLetter rune then
                letterCount <- letterCount + 1
    
        letterCount
    
  • 클래스를 StringInfo 사용하여 개별 Char 개체 대신 텍스트 요소를 사용할 수 있습니다. 다음 예제에서는 개체를 StringInfo 사용하여 에게 해 숫자 0에서 9로 구성된 문자열의 텍스트 요소 수를 계산합니다. 서로게이트 쌍을 단일 문자로 간주하므로 문자열에 10자가 포함되어 있음을 올바르게 보고합니다.

    using System;
    using System.Globalization;
    
    public class Example4
    {
        public static void Main()
        {
            string result = String.Empty;
            for (int ctr = 0x10107; ctr <= 0x10110; ctr++)  // Range of Aegean numbers.
                result += Char.ConvertFromUtf32(ctr);
    
            StringInfo si = new StringInfo(result);
            Console.WriteLine("The string contains {0} characters.",
                              si.LengthInTextElements);
        }
    }
    // The example displays the following output:
    //       The string contains 10 characters.
    
    open System
    open System.Globalization
    
    let result =
        [ for i in 0x10107..0x10110 do  // Range of Aegean numbers.
            Char.ConvertFromUtf32 i ]
        |> String.concat ""
    
    
    let si = StringInfo result
    printfn $"The string contains {si.LengthInTextElements} characters."
    
    // The example displays the following output:
    //       The string contains 10 characters.
    
    Imports System.Globalization
    
    Module Example6
        Public Sub Main()
            Dim result As String = String.Empty
            For ctr As Integer = &H10107 To &H10110     ' Range of Aegean numbers.
                result += Char.ConvertFromUtf32(ctr)
            Next
            Dim si As New StringInfo(result)
            Console.WriteLine("The string contains {0} characters.", si.LengthInTextElements)
        End Sub
    End Module
    ' The example displays the following output:
    '       The string contains 10 characters.
    
  • 문자열에 하나 이상의 결합 문자가 있는 기본 문자가 포함된 경우 메서드를 호출 String.Normalize 하여 부분 문자열을 단일 UTF-16 인코딩 코드 단위로 변환할 수 있습니다. 다음 예제에서는 메서드를 호출 String.Normalize 하여 기본 문자 U+0061(LATIN SMALL LETTER A)을 변환하고 U+0308(DIAERESIS 결합)을 U+00E4(LATIN SMALL LETTER A WITH DIAERESIS)로 결합합니다.

    using System;
    
    public class Example2
    {
        public static void Main()
        {
            string combining = "\u0061\u0308";
            ShowString(combining);
    
            string normalized = combining.Normalize();
            ShowString(normalized);
        }
    
        private static void ShowString(string s)
        {
            Console.Write("Length of string: {0} (", s.Length);
            for (int ctr = 0; ctr < s.Length; ctr++)
            {
                Console.Write("U+{0:X4}", Convert.ToUInt16(s[ctr]));
                if (ctr != s.Length - 1) Console.Write(" ");
            }
            Console.WriteLine(")\n");
        }
    }
    // The example displays the following output:
    //       Length of string: 2 (U+0061 U+0308)
    //
    //       Length of string: 1 (U+00E4)
    
    open System
    
    let showString (s: string) =
        printf $"Length of string: {s.Length} ("
        for i = 0 to s.Length - 1 do
            printf $"U+{Convert.ToUInt16 s[i]:X4}"
            if i <> s.Length - 1 then printf " "
        printfn ")\n"
    
    let combining = "\u0061\u0308"
    showString combining
    
    let normalized = combining.Normalize()
    showString normalized
    
    // The example displays the following output:
    //       Length of string: 2 (U+0061 U+0308)
    //
    //       Length of string: 1 (U+00E4)
    
    Module Example3
        Public Sub Main()
            Dim combining As String = ChrW(&H61) + ChrW(&H308)
            ShowString(combining)
    
            Dim normalized As String = combining.Normalize()
            ShowString(normalized)
        End Sub
    
        Private Sub ShowString(s As String)
            Console.Write("Length of string: {0} (", s.Length)
            For ctr As Integer = 0 To s.Length - 1
                Console.Write("U+{0:X4}", Convert.ToUInt16(s(ctr)))
                If ctr <> s.Length - 1 Then Console.Write(" ")
            Next
            Console.WriteLine(")")
            Console.WriteLine()
        End Sub
    End Module
    ' The example displays the following output:
    '       Length of string: 2 (U+0061 U+0308)
    '       
    '       Length of string: 1 (U+00E4)
    

일반적인 작업

구조체는 Char 개체를 비교 Char 하고, 현재 Char 개체의 값을 다른 형식의 개체로 변환하고, 개체의 유니코드 범주를 결정하는 메서드를 Char 제공합니다.

원하는 작업 이러한 System.Char 메서드 사용
개체 비교 Char CompareToEquals
코드 지점을 문자열로 변환 ConvertFromUtf32

형식도 참조하세요 Rune .
Char 개체 또는 서로게이트 개체 쌍 Char 을 코드 포인트로 변환 단일 문자의 경우: Convert.ToInt32(Char)

서로게이트 쌍 또는 문자열의 문자: Char.ConvertToUtf32

형식도 참조하세요 Rune .
문자의 유니코드 범주 가져오기 GetUnicodeCategory

Rune.GetUnicodeCategory을 참조하세요.
문자가 숫자, 문자, 문장 부호, 컨트롤 문자 등과 같은 특정 유니코드 범주에 있는지 확인 IsControl, IsDigit, IsHighSurrogate, IsLetter, IsLetterOrDigit, IsLower, , IsLowSurrogate, IsNumber, IsSeparatorIsPunctuation, IsSurrogateIsSurrogatePair, IsSymbolIsUpperIsWhiteSpace

형식에 대한 해당 메서드도 참조하세요 Rune .
Char 숫자를 나타내는 개체를 숫자 값 형식으로 변환 GetNumericValue

Rune.GetNumericValue을 참조하세요.
문자열의 문자를 개체로 Char 변환 ParseTryParse
개체를 Char 개체로 String 변환 ToString
개체의 대/소문자 Char 변경 ToLower, ToLowerInvariant, ToUpperToUpperInvariant

형식에 대한 해당 메서드도 참조하세요 Rune .

Char 값 및 interop

유니코드 UTF-16으로 인코딩된 코드 단위로 표현되는 관리 Char 되는 형식이 관리되지 않는 코드에 전달되면 interop 마샬러는 기본적으로 문자 집합을 ANSI로 변환합니다. 플랫폼 호출 선언에 특성을 적용하고 StructLayoutAttribute COM interop 선언에 특성을 적용 DllImportAttribute 하여 마샬링된 Char 형식이 사용하는 문자 집합을 제어할 수 있습니다.