UTF8Encoding 类
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
表示 Unicode 字符的 UTF-8 编码。
public ref class UTF8Encoding : System::Text::Encoding
public class UTF8Encoding : System.Text.Encoding
[System.Serializable]
public class UTF8Encoding : System.Text.Encoding
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public class UTF8Encoding : System.Text.Encoding
type UTF8Encoding = class
inherit Encoding
[<System.Serializable>]
type UTF8Encoding = class
inherit Encoding
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UTF8Encoding = class
inherit Encoding
Public Class UTF8Encoding
Inherits Encoding
- 继承
- 属性
以下示例使用 对象 UTF8Encoding 对 Unicode 字符的字符串进行编码,并将其存储在字节数组中。 Unicode 字符串包括两个字符,即 Pi (U+03A0) 和 Sigma (U+03A3) ,它们不在 ASCII 字符范围。 当编码的字节数组解码回字符串时,Pi 和 Sigma 字符仍然存在。
using namespace System;
using namespace System::Text;
//using namespace System::Collections;
int main()
{
// Create a UTF-8 encoding.
UTF8Encoding^ utf8 = gcnew UTF8Encoding;
// A Unicode string with two characters outside an 8-bit code range.
String^ unicodeString = L"This Unicode string has 2 characters " +
L"outside the ASCII range:\n" +
L"Pi (\u03a0), and Sigma (\u03a3).";
Console::WriteLine("Original string:");
Console::WriteLine(unicodeString);
// Encode the string.
array<Byte>^ encodedBytes = utf8->GetBytes(unicodeString );
Console::WriteLine();
Console::WriteLine("Encoded bytes:");
for (int ctr = 0; ctr < encodedBytes->Length; ctr++) {
Console::Write( "{0:X2} ", encodedBytes[ctr]);
if ((ctr + 1) % 25 == 0)
Console::WriteLine();
}
Console::WriteLine();
// Decode bytes back to string.
String^ decodedString = utf8->GetString(encodedBytes);
Console::WriteLine();
Console::WriteLine("Decoded bytes:");
Console::WriteLine(decodedString);
}
// The example displays the following output:
// Original string:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
//
// Encoded bytes:
// 54 68 69 73 20 55 6E 69 63 6F 64 65 20 73 74 72 69 6E 67 20 68 61 73 20 32
// 20 63 68 61 72 61 63 74 65 72 73 20 6F 75 74 73 69 64 65 20 74 68 65 20 41
// 53 43 49 49 20 72 61 6E 67 65 3A 20 0D 0A 50 69 20 28 CE A0 29 2C 20 61 6E
// 64 20 53 69 67 6D 61 20 28 CE A3 29 2E
//
// Decoded bytes:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
using System;
using System.Text;
class Example
{
public static void Main()
{
// Create a UTF-8 encoding.
UTF8Encoding utf8 = new UTF8Encoding();
// A Unicode string with two characters outside an 8-bit code range.
String unicodeString =
"This Unicode string has 2 characters outside the " +
"ASCII range:\n" +
"Pi (\u03a0), and Sigma (\u03a3).";
Console.WriteLine("Original string:");
Console.WriteLine(unicodeString);
// Encode the string.
Byte[] encodedBytes = utf8.GetBytes(unicodeString);
Console.WriteLine();
Console.WriteLine("Encoded bytes:");
for (int ctr = 0; ctr < encodedBytes.Length; ctr++) {
Console.Write("{0:X2} ", encodedBytes[ctr]);
if ((ctr + 1) % 25 == 0)
Console.WriteLine();
}
Console.WriteLine();
// Decode bytes back to string.
String decodedString = utf8.GetString(encodedBytes);
Console.WriteLine();
Console.WriteLine("Decoded bytes:");
Console.WriteLine(decodedString);
}
}
// The example displays the following output:
// Original string:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
//
// Encoded bytes:
// 54 68 69 73 20 55 6E 69 63 6F 64 65 20 73 74 72 69 6E 67 20 68 61 73 20 32
// 20 63 68 61 72 61 63 74 65 72 73 20 6F 75 74 73 69 64 65 20 74 68 65 20 41
// 53 43 49 49 20 72 61 6E 67 65 3A 20 0D 0A 50 69 20 28 CE A0 29 2C 20 61 6E
// 64 20 53 69 67 6D 61 20 28 CE A3 29 2E
//
// Decoded bytes:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
Imports System.Text
Class Example
Public Shared Sub Main()
' Create a UTF-8 encoding.
Dim utf8 As New UTF8Encoding()
' A Unicode string with two characters outside an 8-bit code range.
Dim unicodeString As String = _
"This Unicode string has 2 characters outside the " &
"ASCII range: " & vbCrLf &
"Pi (" & ChrW(&h03A0) & "), and Sigma (" & ChrW(&h03A3) & ")."
Console.WriteLine("Original string:")
Console.WriteLine(unicodeString)
' Encode the string.
Dim encodedBytes As Byte() = utf8.GetBytes(unicodeString)
Console.WriteLine()
Console.WriteLine("Encoded bytes:")
For ctr As Integer = 0 To encodedBytes.Length - 1
Console.Write("{0:X2} ", encodedBytes(ctr))
If (ctr + 1) Mod 25 = 0 Then Console.WriteLine
Next
Console.WriteLine()
' Decode bytes back to string.
Dim decodedString As String = utf8.GetString(encodedBytes)
Console.WriteLine()
Console.WriteLine("Decoded bytes:")
Console.WriteLine(decodedString)
End Sub
End Class
' The example displays the following output:
' Original string:
' This Unicode string has 2 characters outside the ASCII range:
' Pi (π), and Sigma (Σ).
'
' Encoded bytes:
' 54 68 69 73 20 55 6E 69 63 6F 64 65 20 73 74 72 69 6E 67 20 68 61 73 20 32
' 20 63 68 61 72 61 63 74 65 72 73 20 6F 75 74 73 69 64 65 20 74 68 65 20 41
' 53 43 49 49 20 72 61 6E 67 65 3A 20 0D 0A 50 69 20 28 CE A0 29 2C 20 61 6E
' 64 20 53 69 67 6D 61 20 28 CE A3 29 2E
'
' Decoded bytes:
' This Unicode string has 2 characters outside the ASCII range:
' Pi (π), and Sigma (Σ).
以下示例使用与上一个示例相同的字符串,只不过它将编码的字节写入文件,并使用字节顺序标记作为字节流前缀, (BOM) 。 它然后两个不同的方式读取文件: 为通过使用文本文件StreamReader对象; 和二进制文件。 如您所料,在两种情况下是 BOM 包括在新读取字符串。 正如你所料,新读取的字符串均不包含 BOM。
using System;
using System.IO;
using System.Text;
public class Example
{
public static void Main()
{
// Create a UTF-8 encoding that supports a BOM.
Encoding utf8 = new UTF8Encoding(true);
// A Unicode string with two characters outside an 8-bit code range.
String unicodeString =
"This Unicode string has 2 characters outside the " +
"ASCII range:\n" +
"Pi (\u03A0)), and Sigma (\u03A3).";
Console.WriteLine("Original string:");
Console.WriteLine(unicodeString);
Console.WriteLine();
// Encode the string.
Byte[] encodedBytes = utf8.GetBytes(unicodeString);
Console.WriteLine("The encoded string has {0} bytes.",
encodedBytes.Length);
Console.WriteLine();
// Write the bytes to a file with a BOM.
var fs = new FileStream(@".\UTF8Encoding.txt", FileMode.Create);
Byte[] bom = utf8.GetPreamble();
fs.Write(bom, 0, bom.Length);
fs.Write(encodedBytes, 0, encodedBytes.Length);
Console.WriteLine("Wrote {0} bytes to the file.", fs.Length);
fs.Close();
Console.WriteLine();
// Open the file using StreamReader.
var sr = new StreamReader(@".\UTF8Encoding.txt");
String newString = sr.ReadToEnd();
sr.Close();
Console.WriteLine("String read using StreamReader:");
Console.WriteLine(newString);
Console.WriteLine();
// Open the file as a binary file and decode the bytes back to a string.
fs = new FileStream(@".\UTF8Encoding.txt", FileMode.Open);
Byte[] bytes = new Byte[fs.Length];
fs.Read(bytes, 0, (int)fs.Length);
fs.Close();
String decodedString = utf8.GetString(bytes);
Console.WriteLine("Decoded bytes:");
Console.WriteLine(decodedString);
}
}
// The example displays the following output:
// Original string:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
//
// The encoded string has 88 bytes.
//
// Wrote 91 bytes to the file.
//
// String read using StreamReader:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
//
// Decoded bytes:
// This Unicode string has 2 characters outside the ASCII range:
// Pi (π), and Sigma (Σ).
Imports System.IO
Imports System.Text
Class Example
Public Shared Sub Main()
' Create a UTF-8 encoding that supports a BOM.
Dim utf8 As New UTF8Encoding(True)
' A Unicode string with two characters outside an 8-bit code range.
Dim unicodeString As String = _
"This Unicode string has 2 characters outside the " &
"ASCII range: " & vbCrLf &
"Pi (" & ChrW(&h03A0) & "), and Sigma (" & ChrW(&h03A3) & ")."
Console.WriteLine("Original string:")
Console.WriteLine(unicodeString)
Console.WriteLine()
' Encode the string.
Dim encodedBytes As Byte() = utf8.GetBytes(unicodeString)
Console.WriteLine("The encoded string has {0} bytes.",
encodedBytes.Length)
Console.WriteLine()
' Write the bytes to a file with a BOM.
Dim fs As New FileStream(".\UTF8Encoding.txt", FileMode.Create)
Dim bom() As Byte = utf8.GetPreamble()
fs.Write(bom, 0, bom.Length)
fs.Write(encodedBytes, 0, encodedBytes.Length)
Console.WriteLine("Wrote {0} bytes to the file.", fs.Length)
fs.Close()
Console.WriteLine()
' Open the file using StreamReader.
Dim sr As New StreamReader(".\UTF8Encoding.txt")
Dim newString As String = sr.ReadToEnd()
sr.Close()
Console.WriteLine("String read using StreamReader:")
Console.WriteLine(newString)
Console.WriteLine()
' Open the file as a binary file and decode the bytes back to a string.
fs = new FileStream(".\UTF8Encoding.txt", FileMode.Open)
Dim bytes(fs.Length - 1) As Byte
fs.Read(bytes, 0, fs.Length)
fs.Close()
Dim decodedString As String = utf8.GetString(bytes)
Console.WriteLine("Decoded bytes:")
Console.WriteLine(decodedString)
End Sub
End Class
' The example displays the following output:
' Original string:
' This Unicode string has 2 characters outside the ASCII range:
' Pi (π), and Sigma (Σ).
'
' The encoded string has 88 bytes.
'
' Wrote 91 bytes to the file.
'
' String read using StreamReader:
' This Unicode string has 2 characters outside the ASCII range:
' Pi (π), and Sigma (Σ).
'
' Decoded bytes:
' This Unicode string has 2 characters outside the ASCII range:
' Pi (π), and Sigma (Σ).
编码是将一组 Unicode 字符转换为一个字节序列的过程。 解码是将编码字节序列转换为一组 Unicode 字符的过程。
UTF-8 是一种 Unicode 编码,将每个码位表示为一到四个字节的序列。 与 UTF-16 和 UTF-32 编码不同,UTF-8 编码不需要“endianness”;无论处理器是 big-endian 还是 little-endian,编码方案都是相同的。 UTF8Encoding 对应于 Windows 代码页 65001。 有关 UTF 和 支持System.Text的其他编码的详细信息,请参阅 .NET Framework中的字符编码。
可以通过多种方式实例化 UTF8Encoding 对象,具体取决于是否要它提供字节顺序标记 (BOM) 以及是否要启用错误检测。 下表列出了返回 UTF8Encoding 对象的构造函数和 Encoding 属性。
成员 | BOM | 错误检测 |
---|---|---|
Encoding.UTF8 | 是 | 无 (替换回退) |
UTF8Encoding.UTF8Encoding() | 否 | 无 (替换回退) |
UTF8Encoding.UTF8Encoding(Boolean) | 可配置 | 无 (替换回退) |
UTF8Encoding.UTF8Encoding(Boolean, Boolean) | 可配置 | 可配置 |
GetByteCount方法确定导致对一组 Unicode 字符进行编码的字节数, GetBytes 方法执行实际编码。
同样, GetCharCount 方法确定导致解码字节序列的字符数,和 GetCharsGetString 方法执行实际解码。
对于在编码或解码跨多个块 (的数据时能够保存状态信息的编码器或解码器,例如编码为 100,000 个字符的字符串(以 100,000 个字符段) ),请分别使用 GetEncoder 和 GetDecoder 属性。
UTF8Encoding(可选)对象 (BOM) 提供字节顺序标记,该字节数组可以是编码过程产生的字节流开头的前缀。 如果 UTF-8 编码的字节流的前面带有字节顺序标记 (BOM) ,则可帮助解码器确定字节顺序和转换格式或 UTF。 但请注意,Unicode 标准既不需要也不推荐 UTF-8 编码流中的 BOM。 有关字节顺序和字节顺序标记的详细信息,请参阅unicode 主页上的 unicode 标准。
如果编码器配置为提供 BOM,则可以通过调用 GetPreamble 方法来检索它;否则,该方法返回空数组。 请注意,即使UTF8EncodingBOM 支持的配置对象时,必须包含 BOM 将编码的字节流作为相应; 开头的编码方法UTF8Encoding类执行未自动执行此操作。
注意
若要启用错误检测并使类实例更安全,应调用 UTF8Encoding(Boolean, Boolean) 构造函数并将 参数 throwOnInvalidBytes
设置为 true
。 启用错误检测后,检测无效字符或字节序列的方法将 ArgumentException 引发异常。 如果不进行错误检测,则不会引发异常,并且通常忽略无效序列。
备注
如果使用不同的.NET Framework版本序列化和反序列化该对象,则不会保留 UTF-8 编码对象的状态。
UTF8Encoding() |
初始化 UTF8Encoding 类的新实例。 |
UTF8Encoding(Boolean) |
初始化 UTF8Encoding 类的新实例。 参数指定是否提供一个 Unicode 字节顺序标记。 |
UTF8Encoding(Boolean, Boolean) |
初始化 UTF8Encoding 类的新实例。 参数指定是否提供 Unicode 字节顺序标记,以及是否在检测到无效的编码时引发异常。 |
Body |
在派生类中重写时,获取可与邮件代理正文标记一起使用的当前编码的名称。 (继承自 Encoding) |
Code |
在派生类中重写时,获取当前 Encoding 的代码页标识符。 (继承自 Encoding) |
Decoder |
获取或设置当前 DecoderFallback 对象的 Encoding 对象。 (继承自 Encoding) |
Encoder |
获取或设置当前 EncoderFallback 对象的 Encoding 对象。 (继承自 Encoding) |
Encoding |
在派生类中重写时,获取当前编码的用户可读说明。 (继承自 Encoding) |
Header |
在派生类中重写时,获取可与邮件代理头标记一起使用的当前编码的名称。 (继承自 Encoding) |
Is |
在派生类中重写时,获取一个值,该值指示浏览器客户端是否可以使用当前的编码显示内容。 (继承自 Encoding) |
Is |
在派生类中重写时,获取一个值,该值指示浏览器客户端是否可以使用当前的编码保存内容。 (继承自 Encoding) |
Is |
在派生类中重写时,获取一个值,该值指示邮件和新闻客户端是否可以使用当前的编码显示内容。 (继承自 Encoding) |
Is |
在派生类中重写时,获取一个值,该值指示邮件和新闻客户端是否可以使用当前的编码保存内容。 (继承自 Encoding) |
Is |
在派生类中重写时,获取一个值,该值指示当前的编码是否为只读。 (继承自 Encoding) |
Is |
在派生类中重写时,获取一个值,该值指示当前的编码是否使用单字节码位。 (继承自 Encoding) |
Preamble |
获取采用 UTF-8 格式编码的 Unicode 字节顺序标记(如果此对象配置为提供一个这样的标记)。 |
Preamble |
在派生类中重写时,返回包含指定所用编码的字节序列的范围。 (继承自 Encoding) |
Web |
在派生类中重写时,获取在 Internet 编号分配管理机构 (IANA) 注册的当前编码的名称。 (继承自 Encoding) |
Windows |
在派生类中重写时,获取与当前编码最紧密对应的 Windows 操作系统代码页。 (继承自 Encoding) |
Clone() |
当在派生类中重写时,创建当前 Encoding 对象的一个卷影副本。 (继承自 Encoding) |
Equals(Object) |
确定指定的对象是否等于当前 UTF8Encoding 对象。 |
Get |
计算对从指定的字符指针开始的一组字符进行编码时产生的字节数。 |
Get |
在派生类中重写时,计算对一组字符(从指定的字符指针处开始)进行编码所产生的字节数。 (继承自 Encoding) |
Get |
在派生类中重写时,计算对指定字符数组中的所有字符进行编码所产生的字节数。 (继承自 Encoding) |
Get |
计算对指定字符数组中的一组字符进行编码时产生的字节数。 |
Get |
计算对指定字符范围进行编码所产生的字节数。 |
Get |
在派生类中重写时,计算对指定字符范围的字符进行编码所产生的字节数。 (继承自 Encoding) |
Get |
计算对指定 String 中的字符进行编码时所产生的字节数。 |
Get |
在派生类中重写时,计算对指定字符串中的一组字符进行编码所产生的字节数。 (继承自 Encoding) |
Get |
将从指定的字符指针开始的一组字符编码为一个字节序列,并从指定的字节指针开始存储该字节序列。 |
Get |
在派生类中重写时,将一组字符(从指定的字符指针开始)编码为一个字节序列,并从指定的字节指针开始存储该字节序列。 (继承自 Encoding) |
Get |
在派生类中重写时,将指定字符数组中的所有字符编码为一个字节序列。 (继承自 Encoding) |
Get |
在派生类中重写时,将指定字符数组中的一组字符编码为一个字节序列。 (继承自 Encoding) |
Get |
将指定字符数组中的一组字符编码到指定的字节数组中。 |
Get |
将指定的字符范围编码为指定的字节范围。 |
Get |
在派生类中重写时,将指定只读范围中的一组字符编码为字节范围。 (继承自 Encoding) |
Get |
将指定的 String 对象中的字符编码为一个字节序列。 |
Get |
在派生类中重写时,将指定字符串中的所有字符编码为一个字节序列。 (继承自 Encoding) |
Get |
在派生类中重写时,从指定的 |
Get |
将指定 String 中的一组字符编码到指定的字节数组中。 |
Get |
计算对一个字节序列(从指定的字节指针开始)进行解码所产生的字符数。 |
Get |
在派生类中重写时,计算对字节序列(从指定的字节指针开始)进行解码所产生的字符数。 (继承自 Encoding) |
Get |
在派生类中重写时,计算对指定字节数组中的所有字节进行解码所产生的字符数。 (继承自 Encoding) |
Get |
计算对指定字节数组中的一个字节序列进行解码所产生的字符数。 |
Get |
计算对指定字节范围进行解码所产生的字符数。 |
Get |
在派生类中重写时,计算对提供的只读字节范围进行解码所产生的字符数。 (继承自 Encoding) |
Get |
将从指定的字节指针开始的一个字节序列解码为一组字符,并从指定的字符指针开始存储这组字符。 |
Get |
在派生类中重写时,将一个字节序列(从指定的字节指针开始)解码为一组字符,并从指定的字符指针开始存储该组字符。 (继承自 Encoding) |
Get |
在派生类中重写时,将指定字节数组中的所有字节解码为一组字符。 (继承自 Encoding) |
Get |
在派生类中重写时,将指定字节数组中的一个字节序列解码为一组字符。 (继承自 Encoding) |
Get |
将指定字节数组中的一个字节序列解码为指定的字符数组。 |
Get |
将指定的字节范围解码为指定的字符范围。 |
Get |
在派生类中重写时,将指定只读字节范围中的所有字节解码为字符范围。 (继承自 Encoding) |
Get |
获取可以将 UTF-8 编码的字节序列转换为 Unicode 字符序列的解码器。 |
Get |
获取可将 Unicode 字符序列转换为 UTF-8 编码的字节序列的编码器。 |
Get |
返回当前实例的哈希代码。 |
Get |
计算对指定数目的字符进行编码时产生的最大字节数。 |
Get |
计算对指定数目的字节进行解码时产生的最大字符数。 |
Get |
返回一个采用 UTF-8 格式编码的 Unicode 字节顺序标记(如果 UTF8Encoding 编码对象配置为提供一个这样的标记)。 |
Get |
在派生类中重写时,将在指定地址开始的指定字节数解码为字符串。 (继承自 Encoding) |
Get |
在派生类中重写时,将指定字节数组中的所有字节解码为一个字符串。 (继承自 Encoding) |
Get |
将字节数组中某个范围的字节解码为一个字符串。 |
Get |
在派生类中重写时,将指定字节数组中的一个字节序列解码为一个字符串。 (继承自 Encoding) |
Get |
在派生类中重写时,将指定字节范围中的所有字节解码为一个字符串。 (继承自 Encoding) |
Get |
获取当前实例的 Type。 (继承自 Object) |
Is |
使用默认范式获取一个值,该值指示当前编码是否始终被规范化。 (继承自 Encoding) |
Is |
在派生类中重写时,使用指定范式获取一个值,该值指示当前编码是否始终被规范化。 (继承自 Encoding) |
Memberwise |
创建当前 Object 的浅表副本。 (继承自 Object) |
To |
返回表示当前对象的字符串。 (继承自 Object) |
Try |
如果目标足够大,则从指定的只读范围将一组字符编码为字节范围。 |
Try |
如果目标足够大,则从指定的只读范围将一组字符编码为字节范围。 (继承自 Encoding) |
Try |
如果目标足够大,则从指定的只读范围将一组字节解码为字符范围。 |
Try |
如果目标足够大,则从指定的只读范围将一组字节解码为字符范围。 (继承自 Encoding) |
Get |
使用指定的 Encoding 将指定的 ReadOnlySequence<T> 编码到 Byte 数组中。 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码为 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySequence<T> 编码为 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySpan<T> 编码为 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码为 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码为 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySpan<T> 解码为 |
Get |
使用指定的 Encoding 将指定的 ReadOnlySequence<T> 解码到 String。 |
产品 | 版本 |
---|---|
.NET | Core 1.0, Core 1.1, Core 2.0, Core 2.1, Core 2.2, Core 3.0, Core 3.1, 5, 6, 7, 8, 9 |
.NET Framework | 1.1, 2.0, 3.0, 3.5, 4.0, 4.5, 4.5.1, 4.5.2, 4.6, 4.6.1, 4.6.2, 4.7, 4.7.1, 4.7.2, 4.8, 4.8.1 |
.NET Standard | 1.0, 1.1, 1.2, 1.3, 1.4, 1.6, 2.0, 2.1 |
UWP | 10.0 |