UTF8Encoding 类

定义

表示 Unicode 字符的 UTF-8 编码。

public class UTF8Encoding : System.Text.Encoding
[System.Serializable]
public class UTF8Encoding : System.Text.Encoding
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public class UTF8Encoding : System.Text.Encoding
继承
UTF8Encoding
属性

示例

以下示例使用 对象 UTF8Encoding 对 Unicode 字符的字符串进行编码,并将其存储在字节数组中。 Unicode 字符串包括两个字符,即 Pi (U+03A0) 和 Sigma (U+03A3) ,它们不在 ASCII 字符范围。 当编码的字节数组解码回字符串时,Pi 和 Sigma 字符仍然存在。

using System;
using System.Text;

class Example
{
    public static void Main()
    {
        // Create a UTF-8 encoding.
        UTF8Encoding utf8 = new UTF8Encoding();
        
        // A Unicode string with two characters outside an 8-bit code range.
        String unicodeString =
            "This Unicode string has 2 characters outside the " +
            "ASCII range:\n" +
            "Pi (\u03a0), and Sigma (\u03a3).";
        Console.WriteLine("Original string:");
        Console.WriteLine(unicodeString);

        // Encode the string.
        Byte[] encodedBytes = utf8.GetBytes(unicodeString);
        Console.WriteLine();
        Console.WriteLine("Encoded bytes:");
        for (int ctr = 0; ctr < encodedBytes.Length; ctr++) {
            Console.Write("{0:X2} ", encodedBytes[ctr]);
            if ((ctr + 1) %  25 == 0)
               Console.WriteLine();
        }
        Console.WriteLine();
        
        // Decode bytes back to string.
        String decodedString = utf8.GetString(encodedBytes);
        Console.WriteLine();
        Console.WriteLine("Decoded bytes:");
        Console.WriteLine(decodedString);
    }
}
// The example displays the following output:
//    Original string:
//    This Unicode string has 2 characters outside the ASCII range:
//    Pi (π), and Sigma (Σ).
//
//    Encoded bytes:
//    54 68 69 73 20 55 6E 69 63 6F 64 65 20 73 74 72 69 6E 67 20 68 61 73 20 32
//    20 63 68 61 72 61 63 74 65 72 73 20 6F 75 74 73 69 64 65 20 74 68 65 20 41
//    53 43 49 49 20 72 61 6E 67 65 3A 20 0D 0A 50 69 20 28 CE A0 29 2C 20 61 6E
//    64 20 53 69 67 6D 61 20 28 CE A3 29 2E
//
//    Decoded bytes:
//    This Unicode string has 2 characters outside the ASCII range:
//    Pi (π), and Sigma (Σ).

以下示例使用与上一个示例相同的字符串,只不过它将编码的字节写入文件,并使用字节顺序标记作为字节流前缀, (BOM) 。 它然后两个不同的方式读取文件: 为通过使用文本文件StreamReader对象; 和二进制文件。 如您所料,在两种情况下是 BOM 包括在新读取字符串。 正如你所料,新读取的字符串均不包含 BOM。

using System;
using System.IO;
using System.Text;

public class Example
{
   public static void Main()
   {
        // Create a UTF-8 encoding that supports a BOM.
        Encoding utf8 = new UTF8Encoding(true);

        // A Unicode string with two characters outside an 8-bit code range.
        String unicodeString =
            "This Unicode string has 2 characters outside the " +
            "ASCII range:\n" +
            "Pi (\u03A0)), and Sigma (\u03A3).";
        Console.WriteLine("Original string:");
        Console.WriteLine(unicodeString);
        Console.WriteLine();

        // Encode the string.
        Byte[] encodedBytes = utf8.GetBytes(unicodeString);
        Console.WriteLine("The encoded string has {0} bytes.",
                          encodedBytes.Length);
        Console.WriteLine();

        // Write the bytes to a file with a BOM.
        var fs = new FileStream(@".\UTF8Encoding.txt", FileMode.Create);
        Byte[] bom = utf8.GetPreamble();
        fs.Write(bom, 0, bom.Length);
        fs.Write(encodedBytes, 0, encodedBytes.Length);
        Console.WriteLine("Wrote {0} bytes to the file.", fs.Length);
        fs.Close();
        Console.WriteLine();

        // Open the file using StreamReader.
        var sr = new StreamReader(@".\UTF8Encoding.txt");
        String newString = sr.ReadToEnd();
        sr.Close();
        Console.WriteLine("String read using StreamReader:");
        Console.WriteLine(newString);
        Console.WriteLine();

        // Open the file as a binary file and decode the bytes back to a string.
        fs = new FileStream(@".\UTF8Encoding.txt", FileMode.Open);
        Byte[] bytes = new Byte[fs.Length];
        fs.Read(bytes, 0, (int)fs.Length);
        fs.Close();

        String decodedString = utf8.GetString(bytes);
        Console.WriteLine("Decoded bytes:");
        Console.WriteLine(decodedString);
   }
}
// The example displays the following output:
//    Original string:
//    This Unicode string has 2 characters outside the ASCII range:
//    Pi (π), and Sigma (Σ).
//
//    The encoded string has 88 bytes.
//
//    Wrote 91 bytes to the file.
//
//    String read using StreamReader:
//    This Unicode string has 2 characters outside the ASCII range:
//    Pi (π), and Sigma (Σ).
//
//    Decoded bytes:
//    This Unicode string has 2 characters outside the ASCII range:
//    Pi (π), and Sigma (Σ).

注解

编码是将一组 Unicode 字符转换为一个字节序列的过程。 解码是将编码字节序列转换为一组 Unicode 字符的过程。

UTF-8 是一种 Unicode 编码,将每个码位表示为一到四个字节的序列。 与 UTF-16 和 UTF-32 编码不同,UTF-8 编码不需要“endianness”;无论处理器是 big-endian 还是 little-endian,编码方案都是相同的。 UTF8Encoding 对应于 Windows 代码页 65001。 有关 UTF 和 支持System.Text的其他编码的详细信息,请参阅 .NET Framework中的字符编码

可以通过多种方式实例化 UTF8Encoding 对象,具体取决于是否要它提供字节顺序标记 (BOM) 以及是否要启用错误检测。 下表列出了返回 UTF8Encoding 对象的构造函数和 Encoding 属性。

成员 BOM 错误检测
Encoding.UTF8 无 (替换回退)
UTF8Encoding.UTF8Encoding() 无 (替换回退)
UTF8Encoding.UTF8Encoding(Boolean) 可配置 无 (替换回退)
UTF8Encoding.UTF8Encoding(Boolean, Boolean) 可配置 可配置

GetByteCount方法确定导致对一组 Unicode 字符进行编码的字节数, GetBytes 方法执行实际编码。

同样, GetCharCount 方法确定导致解码字节序列的字符数,和 GetCharsGetString 方法执行实际解码。

对于在编码或解码跨多个块 (的数据时能够保存状态信息的编码器或解码器,例如编码为 100,000 个字符的字符串(以 100,000 个字符段) ),请分别使用 GetEncoderGetDecoder 属性。

UTF8Encoding(可选)对象 (BOM) 提供字节顺序标记,该字节数组可以是编码过程产生的字节流开头的前缀。 如果 UTF-8 编码的字节流的前面带有字节顺序标记 (BOM) ,则可帮助解码器确定字节顺序和转换格式或 UTF。 但请注意,Unicode 标准既不需要也不推荐 UTF-8 编码流中的 BOM。 有关字节顺序和字节顺序标记的详细信息,请参阅unicode 主页上的 unicode 标准。

如果编码器配置为提供 BOM,则可以通过调用 GetPreamble 方法来检索它;否则,该方法返回空数组。 请注意,即使UTF8EncodingBOM 支持的配置对象时,必须包含 BOM 将编码的字节流作为相应; 开头的编码方法UTF8Encoding类执行未自动执行此操作。

注意

若要启用错误检测并使类实例更安全,应调用 UTF8Encoding(Boolean, Boolean) 构造函数并将 参数 throwOnInvalidBytes 设置为 true。 启用错误检测后,检测无效字符或字节序列的方法将 ArgumentException 引发异常。 如果不进行错误检测,则不会引发异常,并且通常忽略无效序列。

备注

如果使用不同的.NET Framework版本序列化和反序列化该对象,则不会保留 UTF-8 编码对象的状态。

构造函数

UTF8Encoding()

初始化 UTF8Encoding 类的新实例。

UTF8Encoding(Boolean)

初始化 UTF8Encoding 类的新实例。 参数指定是否提供一个 Unicode 字节顺序标记。

UTF8Encoding(Boolean, Boolean)

初始化 UTF8Encoding 类的新实例。 参数指定是否提供 Unicode 字节顺序标记,以及是否在检测到无效的编码时引发异常。

属性

BodyName

在派生类中重写时,获取可与邮件代理正文标记一起使用的当前编码的名称。

(继承自 Encoding)
CodePage

在派生类中重写时,获取当前 Encoding 的代码页标识符。

(继承自 Encoding)
DecoderFallback

获取或设置当前 DecoderFallback 对象的 Encoding 对象。

(继承自 Encoding)
EncoderFallback

获取或设置当前 EncoderFallback 对象的 Encoding 对象。

(继承自 Encoding)
EncodingName

在派生类中重写时,获取当前编码的用户可读说明。

(继承自 Encoding)
HeaderName

在派生类中重写时,获取可与邮件代理头标记一起使用的当前编码的名称。

(继承自 Encoding)
IsBrowserDisplay

在派生类中重写时,获取一个值,该值指示浏览器客户端是否可以使用当前的编码显示内容。

(继承自 Encoding)
IsBrowserSave

在派生类中重写时,获取一个值,该值指示浏览器客户端是否可以使用当前的编码保存内容。

(继承自 Encoding)
IsMailNewsDisplay

在派生类中重写时,获取一个值,该值指示邮件和新闻客户端是否可以使用当前的编码显示内容。

(继承自 Encoding)
IsMailNewsSave

在派生类中重写时,获取一个值,该值指示邮件和新闻客户端是否可以使用当前的编码保存内容。

(继承自 Encoding)
IsReadOnly

在派生类中重写时,获取一个值,该值指示当前的编码是否为只读。

(继承自 Encoding)
IsSingleByte

在派生类中重写时,获取一个值,该值指示当前的编码是否使用单字节码位。

(继承自 Encoding)
Preamble

获取采用 UTF-8 格式编码的 Unicode 字节顺序标记(如果此对象配置为提供一个这样的标记)。

Preamble

在派生类中重写时,返回包含指定所用编码的字节序列的范围。

(继承自 Encoding)
WebName

在派生类中重写时,获取在 Internet 编号分配管理机构 (IANA) 注册的当前编码的名称。

(继承自 Encoding)
WindowsCodePage

在派生类中重写时,获取与当前编码最紧密对应的 Windows 操作系统代码页。

(继承自 Encoding)

方法

Clone()

当在派生类中重写时,创建当前 Encoding 对象的一个卷影副本。

(继承自 Encoding)
Equals(Object)

确定指定的对象是否等于当前 UTF8Encoding 对象。

GetByteCount(Char*, Int32)

计算对从指定的字符指针开始的一组字符进行编码时产生的字节数。

GetByteCount(Char*, Int32)

在派生类中重写时,计算对一组字符(从指定的字符指针处开始)进行编码所产生的字节数。

(继承自 Encoding)
GetByteCount(Char[])

在派生类中重写时,计算对指定字符数组中的所有字符进行编码所产生的字节数。

(继承自 Encoding)
GetByteCount(Char[], Int32, Int32)

计算对指定字符数组中的一组字符进行编码时产生的字节数。

GetByteCount(ReadOnlySpan<Char>)

计算对指定字符范围进行编码所产生的字节数。

GetByteCount(ReadOnlySpan<Char>)

在派生类中重写时,计算对指定字符范围的字符进行编码所产生的字节数。

(继承自 Encoding)
GetByteCount(String)

计算对指定 String 中的字符进行编码时所产生的字节数。

GetByteCount(String, Int32, Int32)

在派生类中重写时,计算对指定字符串中的一组字符进行编码所产生的字节数。

(继承自 Encoding)
GetBytes(Char*, Int32, Byte*, Int32)

将从指定的字符指针开始的一组字符编码为一个字节序列,并从指定的字节指针开始存储该字节序列。

GetBytes(Char*, Int32, Byte*, Int32)

在派生类中重写时,将一组字符(从指定的字符指针开始)编码为一个字节序列,并从指定的字节指针开始存储该字节序列。

(继承自 Encoding)
GetBytes(Char[])

在派生类中重写时,将指定字符数组中的所有字符编码为一个字节序列。

(继承自 Encoding)
GetBytes(Char[], Int32, Int32)

在派生类中重写时,将指定字符数组中的一组字符编码为一个字节序列。

(继承自 Encoding)
GetBytes(Char[], Int32, Int32, Byte[], Int32)

将指定字符数组中的一组字符编码到指定的字节数组中。

GetBytes(ReadOnlySpan<Char>, Span<Byte>)

将指定的字符范围编码为指定的字节范围。

GetBytes(ReadOnlySpan<Char>, Span<Byte>)

在派生类中重写时,将指定只读范围中的一组字符编码为字节范围。

(继承自 Encoding)
GetBytes(String)

将指定的 String 对象中的字符编码为一个字节序列。

GetBytes(String)

在派生类中重写时,将指定字符串中的所有字符编码为一个字节序列。

(继承自 Encoding)
GetBytes(String, Int32, Int32)

在派生类中重写时,从指定的 index 开始,将指定字符串中由 count 指定的字符数编码为字节数组。

(继承自 Encoding)
GetBytes(String, Int32, Int32, Byte[], Int32)

将指定 String 中的一组字符编码到指定的字节数组中。

GetCharCount(Byte*, Int32)

计算对一个字节序列(从指定的字节指针开始)进行解码所产生的字符数。

GetCharCount(Byte*, Int32)

在派生类中重写时,计算对字节序列(从指定的字节指针开始)进行解码所产生的字符数。

(继承自 Encoding)
GetCharCount(Byte[])

在派生类中重写时,计算对指定字节数组中的所有字节进行解码所产生的字符数。

(继承自 Encoding)
GetCharCount(Byte[], Int32, Int32)

计算对指定字节数组中的一个字节序列进行解码所产生的字符数。

GetCharCount(ReadOnlySpan<Byte>)

计算对指定字节范围进行解码所产生的字符数。

GetCharCount(ReadOnlySpan<Byte>)

在派生类中重写时,计算对提供的只读字节范围进行解码所产生的字符数。

(继承自 Encoding)
GetChars(Byte*, Int32, Char*, Int32)

将从指定的字节指针开始的一个字节序列解码为一组字符,并从指定的字符指针开始存储这组字符。

GetChars(Byte*, Int32, Char*, Int32)

在派生类中重写时,将一个字节序列(从指定的字节指针开始)解码为一组字符,并从指定的字符指针开始存储该组字符。

(继承自 Encoding)
GetChars(Byte[])

在派生类中重写时,将指定字节数组中的所有字节解码为一组字符。

(继承自 Encoding)
GetChars(Byte[], Int32, Int32)

在派生类中重写时,将指定字节数组中的一个字节序列解码为一组字符。

(继承自 Encoding)
GetChars(Byte[], Int32, Int32, Char[], Int32)

将指定字节数组中的一个字节序列解码为指定的字符数组。

GetChars(ReadOnlySpan<Byte>, Span<Char>)

将指定的字节范围解码为指定的字符范围。

GetChars(ReadOnlySpan<Byte>, Span<Char>)

在派生类中重写时,将指定只读字节范围中的所有字节解码为字符范围。

(继承自 Encoding)
GetDecoder()

获取可以将 UTF-8 编码的字节序列转换为 Unicode 字符序列的解码器。

GetEncoder()

获取可将 Unicode 字符序列转换为 UTF-8 编码的字节序列的编码器。

GetHashCode()

返回当前实例的哈希代码。

GetMaxByteCount(Int32)

计算对指定数目的字符进行编码时产生的最大字节数。

GetMaxCharCount(Int32)

计算对指定数目的字节进行解码时产生的最大字符数。

GetPreamble()

返回一个采用 UTF-8 格式编码的 Unicode 字节顺序标记(如果 UTF8Encoding 编码对象配置为提供一个这样的标记)。

GetString(Byte*, Int32)

在派生类中重写时,将在指定地址开始的指定字节数解码为字符串。

(继承自 Encoding)
GetString(Byte[])

在派生类中重写时,将指定字节数组中的所有字节解码为一个字符串。

(继承自 Encoding)
GetString(Byte[], Int32, Int32)

将字节数组中某个范围的字节解码为一个字符串。

GetString(Byte[], Int32, Int32)

在派生类中重写时,将指定字节数组中的一个字节序列解码为一个字符串。

(继承自 Encoding)
GetString(ReadOnlySpan<Byte>)

在派生类中重写时,将指定字节范围中的所有字节解码为一个字符串。

(继承自 Encoding)
GetType()

获取当前实例的 Type

(继承自 Object)
IsAlwaysNormalized()

使用默认范式获取一个值,该值指示当前编码是否始终被规范化。

(继承自 Encoding)
IsAlwaysNormalized(NormalizationForm)

在派生类中重写时,使用指定范式获取一个值,该值指示当前编码是否始终被规范化。

(继承自 Encoding)
MemberwiseClone()

创建当前 Object 的浅表副本。

(继承自 Object)
ToString()

返回表示当前对象的字符串。

(继承自 Object)
TryGetBytes(ReadOnlySpan<Char>, Span<Byte>, Int32)

如果目标足够大,则从指定的只读范围将一组字符编码为字节范围。

TryGetBytes(ReadOnlySpan<Char>, Span<Byte>, Int32)

如果目标足够大,则从指定的只读范围将一组字符编码为字节范围。

(继承自 Encoding)
TryGetChars(ReadOnlySpan<Byte>, Span<Char>, Int32)

如果目标足够大,则从指定的只读范围将一组字节解码为字符范围。

TryGetChars(ReadOnlySpan<Byte>, Span<Char>, Int32)

如果目标足够大,则从指定的只读范围将一组字节解码为字符范围。

(继承自 Encoding)

扩展方法

GetBytes(Encoding, ReadOnlySequence<Char>)

使用指定的 Encoding 将指定的 ReadOnlySequence<T> 编码到 Byte 数组中。

GetBytes(Encoding, ReadOnlySequence<Char>, IBufferWriter<Byte>)

使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码为 byte,并将结果写入 writer

GetBytes(Encoding, ReadOnlySequence<Char>, Span<Byte>)

使用指定的 Encoding 将指定的 ReadOnlySequence<T> 编码为 byte,并将结果输出到 bytes

GetBytes(Encoding, ReadOnlySpan<Char>, IBufferWriter<Byte>)

使用指定的 Encoding 将指定的 ReadOnlySpan<T> 编码为 byte,并将结果写入 writer

GetChars(Encoding, ReadOnlySequence<Byte>, IBufferWriter<Char>)

使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码为 char,并将结果写入 writer

GetChars(Encoding, ReadOnlySequence<Byte>, Span<Char>)

使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码为 char,并将结果输出到 chars

GetChars(Encoding, ReadOnlySpan<Byte>, IBufferWriter<Char>)

使用指定的 Encoding 将指定的 ReadOnlySpan<T> 解码为 char,并将结果写入 writer

GetString(Encoding, ReadOnlySequence<Byte>)

使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码到 String

适用于

产品 版本
.NET Core 1.0, Core 1.1, Core 2.0, Core 2.1, Core 2.2, Core 3.0, Core 3.1, 5, 6, 7, 8, 9
.NET Framework 1.1, 2.0, 3.0, 3.5, 4.0, 4.5, 4.5.1, 4.5.2, 4.6, 4.6.1, 4.6.2, 4.7, 4.7.1, 4.7.2, 4.8, 4.8.1
.NET Standard 1.0, 1.1, 1.2, 1.3, 1.4, 1.6, 2.0, 2.1
UWP 10.0

另请参阅