UTF8Encoding.GetPreamble Método
Definición
Importante
Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.
Devuelve una marca de orden de bytes Unicode codificada en formato UTF-8, si el objeto de codificación UTF8Encoding está configurado para proporcionarla.
public:
override cli::array <System::Byte> ^ GetPreamble();
public override byte[] GetPreamble ();
override this.GetPreamble : unit -> byte[]
Public Overrides Function GetPreamble () As Byte()
Devoluciones
Una matriz de bytes que contiene la marca de orden de bytes Unicode, si el objeto de codificación UTF8Encoding está configurado para proporcionarla. De lo contrario, este método devuelve una matriz de bytes de longitud cero.
Ejemplos
En el ejemplo siguiente se usa el GetPreamble método para devolver la marca de orden de bytes Unicode codificada en formato UTF-8. Observe que el constructor sin parámetros para UTF8Encoding no proporciona un preámbulo.
using namespace System;
using namespace System::Text;
using namespace System::Collections;
void ShowArray(array<Byte>^ bytes)
{
for each (Byte b in bytes)
Console::Write( "{0:X2} ", b);
Console::WriteLine();
}
int main()
{
// The default constructor does not provide a preamble.
UTF8Encoding^ UTF8NoPreamble = gcnew UTF8Encoding;
UTF8Encoding^ UTF8WithPreamble = gcnew UTF8Encoding( true );
array<Byte>^preamble;
preamble = UTF8NoPreamble->GetPreamble();
Console::WriteLine( "UTF8NoPreamble" );
Console::WriteLine( " preamble length: {0}", preamble->Length );
Console::Write( " preamble: " );
ShowArray( preamble );
Console::WriteLine();
preamble = UTF8WithPreamble->GetPreamble();
Console::WriteLine( "UTF8WithPreamble" );
Console::WriteLine( " preamble length: {0}", preamble->Length );
Console::Write( " preamble: " );
ShowArray( preamble );
}
// The example displays the following output:
// UTF8NoPreamble
// preamble length: 0
// preamble:
//
// UTF8WithPreamble
// preamble length: 3
// preamble: EF BB BF
using System;
using System.Text;
class Example
{
public static void Main()
{
// The default constructor does not provide a preamble.
UTF8Encoding UTF8NoPreamble = new UTF8Encoding();
UTF8Encoding UTF8WithPreamble = new UTF8Encoding(true);
Byte[] preamble;
preamble = UTF8NoPreamble.GetPreamble();
Console.WriteLine("UTF8NoPreamble");
Console.WriteLine(" preamble length: {0}", preamble.Length);
Console.Write(" preamble: ");
ShowArray(preamble);
Console.WriteLine();
preamble = UTF8WithPreamble.GetPreamble();
Console.WriteLine("UTF8WithPreamble");
Console.WriteLine(" preamble length: {0}", preamble.Length);
Console.Write(" preamble: ");
ShowArray(preamble);
}
public static void ShowArray(Byte[] bytes)
{
foreach (var b in bytes)
Console.Write("{0:X2} ", b);
Console.WriteLine();
}
}
// The example displays the following output:
// UTF8NoPreamble
// preamble length: 0
// preamble:
//
// UTF8WithPreamble
// preamble length: 3
// preamble: EF BB BF
Imports System.Text
Module Example
Public Sub Main()
' The default constructor does not provide a preamble.
Dim UTF8NoPreamble As New UTF8Encoding()
Dim UTF8WithPreamble As New UTF8Encoding(True)
Dim preamble() As Byte
preamble = UTF8NoPreamble.GetPreamble()
Console.WriteLine("UTF8NoPreamble")
Console.WriteLine(" preamble length: {0}", preamble.Length)
Console.Write(" preamble: ")
ShowArray(preamble)
Console.WriteLine()
preamble = UTF8WithPreamble.GetPreamble()
Console.WriteLine("UTF8WithPreamble")
Console.WriteLine(" preamble length: {0}", preamble.Length)
Console.Write(" preamble: ")
ShowArray(preamble)
End Sub
Public Sub ShowArray(bytes As Byte())
For Each b In bytes
Console.Write("{0:X2} ", b)
Next
Console.WriteLine()
End Sub
End Module
' The example displays the following output:
' UTF8NoPreamble
' preamble length: 0
' preamble:
'
' UTF8WithPreamble
' preamble length: 3
' preamble: EF BB BF
En el ejemplo siguiente se crean instancias de dos UTF8Encoding objetos, el primero llamando al constructor sin UTF8Encoding() parámetros, que no proporciona una lista de materiales y el segundo llamando al UTF8Encoding(Boolean) constructor con su encoderShouldEmitUTF8Identifier
argumento establecido true
en . A continuación, llama al GetPreamble método para escribir la BOM en un archivo antes de escribir una cadena codificada en UF8. Como se muestra en la salida de la consola del ejemplo, el archivo que guarda los bytes del segundo codificador tiene tres bytes más que el primero.
using System;
using System.IO;
using System.Text;
public class Example
{
public static void Main()
{
String s = "This is a string to write to a file using UTF-8 encoding.";
// Write a file using the default constructor without a BOM.
var enc = new UTF8Encoding();
Byte[] bytes = enc.GetBytes(s);
WriteToFile("NoPreamble.txt", enc, bytes);
// Use BOM.
enc = new UTF8Encoding(true);
WriteToFile("Preamble.txt", enc, bytes);
}
private static void WriteToFile(String fn, Encoding enc, Byte[] bytes)
{
var fs = new FileStream(fn, FileMode.Create);
Byte[] preamble = enc.GetPreamble();
fs.Write(preamble, 0, preamble.Length);
Console.WriteLine("Preamble has {0} bytes", preamble.Length);
fs.Write(bytes, 0, bytes.Length);
Console.WriteLine("Wrote {0} bytes to {1}.", fs.Length, fn);
fs.Close();
Console.WriteLine();
}
}
// The example displays the following output:
// Preamble has 0 bytes
// Wrote 57 bytes to NoPreamble.txt.
//
// Preamble has 3 bytes
// Wrote 60 bytes to Preamble.txt.
Imports System.IO
Imports System.Text
Module Example
Public Sub Main()
Dim s As String = "This is a string to write to a file using UTF-8 encoding."
' Write a file using the default constructor without a BOM.
Dim enc As New UTF8Encoding()
Dim bytes() As Byte = enc.GetBytes(s)
WriteToFile("NoPreamble.txt", enc, bytes)
' Use BOM.
enc = New UTF8Encoding(True)
WriteToFile("Preamble.txt", enc, bytes)
End Sub
Private Sub WriteToFile(fn As String, enc As Encoding, bytes As Byte())
Dim fs As New FileStream(fn, FileMode.Create)
Dim preamble() As Byte = enc.GetPreamble()
fs.Write(preamble, 0, preamble.Length)
Console.WriteLine("Preamble has {0} bytes", preamble.Length)
fs.Write(bytes, 0, bytes.Length)
Console.WriteLine("Wrote {0} bytes to {1}.", fs.Length, fn)
fs.Close()
Console.WriteLine()
End Sub
End Module
' The example displays the following output:
' Preamble has 0 bytes
' Wrote 57 bytes to NoPreamble.txt.
'
' Preamble has 3 bytes
' Wrote 60 bytes to Preamble.txt.
También puede comparar los archivos mediante el fc
comando en una ventana de consola, o puede inspeccionar los archivos en un editor de texto que incluya un modo de vista hexadecimal. Tenga en cuenta que, cuando el archivo se abre en un editor que admite UTF-8, no se muestra la boM.
Comentarios
El UTF8Encoding objeto puede proporcionar un preámbulo, que es una matriz de bytes que se puede prefijar a la secuencia de bytes resultantes del proceso de codificación. Anteponer una secuencia de bytes codificados con una marca de orden de bytes (punto de código U+FEFF) ayuda al descodificador a determinar el orden de bytes y el formato de transformación, o UTF. La marca de orden de bytes Unicode (BOM) se serializa como 0xEF 0xBB 0xBF. Tenga en cuenta que el estándar Unicode no requiere ni recomienda el uso de una BOM para secuencias codificadas UTF-8.
Puede crear una instancia de un UTF8Encoding objeto cuyo GetPreamble método devuelve una LISTA de materiales válida de las siguientes maneras:
Recuperando el UTF8Encoding objeto devuelto por la Encoding.UTF8 propiedad .
Llamando a un UTF8Encoding constructor con un
encoderShouldEmitUTF8Identifier
parámetro y estableciendo su valor establecido entrue
.
Todos los demás UTF8Encoding objetos están configurados para devolver una matriz vacía en lugar de una lista boM válida.
La LISTA de materiales proporciona casi cierta identificación de una codificación para los archivos que, de lo contrario, han perdido una referencia a su codificación, como datos web sin etiquetar o archivos de texto aleatorios etiquetados incorrectamente almacenados cuando una empresa no tenía problemas internacionales. A menudo, es posible que se eviten problemas de usuario si los datos están etiquetados de forma coherente y correcta.
En el caso de los estándares que proporcionan un tipo de codificación, una BOM es algo redundante. Sin embargo, se puede usar para ayudar a un servidor a enviar el encabezado de codificación correcto. Como alternativa, se puede usar como reserva en caso de que, de lo contrario, se pierda la codificación.
El uso de una marca BOM tiene algunas desventajas. Por ejemplo, saber cómo limitar los campos de base de datos que usan una marca BOM puede ser difícil. La concatenación de archivos también puede ser un problema, por ejemplo, cuando los archivos se combinan de manera que un carácter innecesario puede acabar en el medio de los datos. Sin embargo, a pesar de los pocos inconvenientes, se recomienda encarecidamente el uso de una marca BOM.
Para obtener más información sobre el orden de bytes y la marca de orden de bytes, vea el estándar Unicode en la Página principal de Unicode.
Importante
Para asegurarse de que los bytes codificados se descodifican correctamente cuando se guardan como un archivo o como una secuencia, puede prefijar el principio de una secuencia de bytes codificados con un preámbulo. Tenga en cuenta que el GetBytes método no antepone una lista de materiales a una secuencia de bytes codificados; proporcionar una BOM al principio de una secuencia de bytes adecuada es responsabilidad del desarrollador.