Classe System.Text.Encoding
Cet article vous offre des remarques complémentaires à la documentation de référence pour cette API.
La classe Encoding représente un encodage de caractères.
L'encodage est le processus de transformation d'un jeu de caractères Unicode en une séquence d'octets. En revanche, le décodage est le processus de transformation d’une séquence d’octets encodés en un ensemble de caractères Unicode. Pour plus d’informations sur les formats de transformation Unicode (UTFs) et d’autres encodages pris en charge par Encoding, consultez Encodage de caractères dans .NET.
Encoding est destiné à fonctionner sur des caractères Unicode au lieu de données binaires arbitraires, telles que des tableaux d’octets. Si vous devez encoder des données binaires arbitraires en texte, vous devez utiliser un protocole tel que uuencode, qui est implémenté par des méthodes telles que Convert.ToBase64CharArray.
.NET fournit les implémentations suivantes de la Encoding classe pour prendre en charge les encodages Unicode actuels et d’autres encodages :
ASCIIEncoding encode les caractères Unicode en tant que caractères ASCII 7 bits uniques. Cet encodage prend uniquement en charge les valeurs de caractères comprises entre U+0000 et U+007F. Page de codes 20127. Disponible également par le biais de la ASCII propriété.
UTF7Encoding encode des caractères Unicode à l’aide de l’encodage UTF-7. Cet encodage prend en charge toutes les valeurs de caractères Unicode. Page de codes 65000. Disponible également par le biais de la UTF7 propriété.
UTF8Encoding encode des caractères Unicode à l’aide de l’encodage UTF-8. Cet encodage prend en charge toutes les valeurs de caractères Unicode. Page de codes 65001. Disponible également par le biais de la UTF8 propriété.
UnicodeEncoding encode des caractères Unicode à l’aide de l’encodage UTF-16. Les commandes d’octets little endian et big endian sont prises en charge. Disponible également par le biais de la Unicode propriété et de la BigEndianUnicode propriété.
UTF32Encoding encode les caractères Unicode à l’aide de l’encodage UTF-32. Les commandes d’octets little endian (page de codes 12000) et big endian (page de codes 12001) sont prises en charge. Disponible également par le biais de la UTF32 propriété.
La Encoding classe est principalement destinée à effectuer une conversion entre différents encodages et Unicode. Souvent, l’une des classes Unicode dérivées est le bon choix pour votre application.
Utilisez la GetEncoding méthode pour obtenir d’autres encodages et appelez la GetEncodings méthode pour obtenir la liste de tous les encodages.
Liste des encodages
Le tableau suivant répertorie les encodages pris en charge par .NET. Il répertorie le numéro de page de codes de chaque encodage et les valeurs des propriétés et EncodingInfo.DisplayName des EncodingInfo.Name encodages. Une case activée marque dans la prise en charge de .NET Framework, la prise en charge de .NET Core ou la colonne de prise en charge .NET 5 et ultérieure indique que la page de codes est prise en charge en mode natif par cette implémentation .NET, quelle que soit la plateforme sous-jacente. Pour .NET Framework, la disponibilité d’autres encodages répertoriés dans la table dépend du système d’exploitation. Pour .NET Core et .NET 5 et versions ultérieures, d’autres encodages sont disponibles à l’aide de la System.Text.CodePagesEncodingProvider classe ou en dérivant de la System.Text.EncodingProvider classe.
Remarque
Les pages de codes dont EncodingInfo.Name la propriété correspond à une norme internationale ne sont pas nécessairement conformes à cette norme.
Page de codes | Nom | Nom d’affichage | Prise en charge du .NET Framework | Support de .NET Core | Prise en charge ultérieure de .NET 5 |
---|---|---|---|---|---|
37 | IBM037 | IBM EBCDIC (États-Unis-Canada) | |||
437 | IBM437 | États-Unis OEM | |||
500 | IBM500 | IBM EBCDIC (International) | |||
708 | ASMO-708 | Arabe (ASMO 708) | |||
720 | DOS-720 | Arabe (DOS) | |||
737 | ibm737 | Grec (DOS) | |||
775 | ibm775 | Baltique (DOS) | |||
850 | ibm850 | Europe occidentale (DOS) | |||
852 | ibm852 | Europe centrale (DOS) | |||
855 | IBM855 | OEM Cyrillique | |||
857 | ibm857 | Turc (DOS) | |||
858 | IBM00858 | OEM Multilingue Latin I | |||
860 | IBM860 | Portugais (DOS) | |||
861 | ibm861 | Islandais (DOS) | |||
862 | DOS-862 | Hébreu (DOS) | |||
863 | IBM863 | Français canadien (DOS) | |||
864 | IBM864 | Arabe (864) | |||
865 | IBM865 | Nordique (DOS) | |||
866 | cp866 | Cyrillique (DOS) | |||
869 | ibm869 | Grec, Moderne (DOS) | |||
870 | IBM870 | IBM EBCDIC (Latin-2 multilingue) | |||
874 | windows-874 | Thaï (Windows) | |||
875 | cp875 | IBM EBCDIC (grec moderne) | |||
932 | shift_jis | Japonais (Shift-JIS) | |||
936 | gb2312 | Chinois simplifié (GB2312) | ✓ | ||
949 | ks_c_5601-1987 | Coréen | |||
950 | big5 | Chinois traditionnel (Big5) | |||
1026 | IBM1026 | IBM EBCDIC (Turc Latin-5) | |||
1047 | IBM01047 | IBM Latin-1 | |||
1140 | IBM01140 | IBM EBCDIC (US-Canada-Euro) | |||
1141 | IBM01141 | IBM EBCDIC (Allemagne-Euro) | |||
1142 | IBM01142 | IBM EBCDIC (Danemark-Norvège-Euro) | |||
1143 | IBM01143 | IBM EBCDIC (Finlande-Suède-Euro) | |||
1144 | IBM01144 | IBM EBCDIC (Italie-Euro) | |||
1145 | IBM01145 | IBM EBCDIC (Espagne-Euro) | |||
1146 | IBM01146 | IBM EBCDIC (Royaume-Uni-Euro) | |||
1147 | IBM01147 | IBM EBCDIC (France-Euro) | |||
1148 | IBM01148 | IBM EBCDIC (International-Euro) | |||
1149 | IBM01149 | IBM EBCDIC (Islandais-Euro) | |||
1200 | utf-16 | Unicode | ✓ | ✓ | ✓ |
1201 | unicodeFFFE | Unicode (Big endian) | ✓ | ✓ | ✓ |
1250 | windows-1250 | Europe centrale (Windows) | |||
1251 | windows-1251 | Cyrillique (Windows) | |||
1252 | Windows-1252 | Europe de l’Ouest (Windows) | ✓ | ||
1253 | windows-1253 | Grec (Windows) | |||
1254 | windows-1254 | Turc (Windows) | |||
1 255 | windows-1255 | Hébreu (Windows) | |||
1256 | windows-1256 | Arabe (Windows) | |||
1257 | windows-1257 | Baltique (Windows) | |||
1258 | windows-1258 | Vietnamien (Windows) | |||
1361 | Johab | Coréen (Johab) | |||
10000 | Macintosh | Europe occidentale (Mac) | |||
10001 | x-mac-japonais | Japonais (Mac) | |||
10002 | x-mac-chinesetrad | Chinois traditionnel (Mac) | |||
10003 | x-mac-coréen | Coréen (Mac) | ✓ | ||
10004 | x-mac-arabe | Arabe (Mac) | |||
10005 | x-mac-hébreu | Hébreu (Mac) | |||
10006 | x-mac-grec | Grec (Mac) | |||
10007 | x-mac-cyrillique | Cyrillique (Mac) | |||
10008 | x-mac-chinesesimp | Chinois simplifié (Mac) | ✓ | ||
10010 | x-mac-roumain | Roumain (Mac) | |||
10017 | x-mac-ukrainien | Ukrainien (Mac) | |||
10021 | x-mac-thai | Thaï (Mac) | |||
10029 | x-mac-ce | Europe centrale (Mac) | |||
10079 | x-mac-islande | Islandais (Mac) | |||
10081 | x-mac-turkish | Turc (Mac) | |||
10082 | x-mac-croate | Croate (Mac) | |||
12 000 | utf-32 | Unicode (UTF-32) | ✓ | ✓ | ✓ |
12001 | utf-32BE | Unicode (UTF-32 Big endian) | ✓ | ✓ | ✓ |
20000 | X-Chinois-CNS | Chinois traditionnel (CNS) | |||
20001 | x-cp20001 | TCA Taïwan | |||
20002 | x-Chinois-Eten | Chinois traditionnel (Eten) | |||
20003 | x-cp20003 | IBM5550 Taïwan | |||
20004 | x-cp20004 | TeleText Taïwan | |||
20005 | x-cp20005 | Wang Taiwan | |||
20105 | x-IA5 | Europe occidentale (IA5) | |||
20106 | x-IA5-Allemand | Allemand (IA5) | |||
20107 | x-IA5-Suédois | Suédois (IA5) | |||
20108 | x-IA5-Norvégien | Norvégien (IA5) | |||
20127 | us-ascii | US-ASCII | ✓ | ✓ | ✓ |
20261 | x-cp20261 | T.61 | |||
20269 | x-cp20269 | ISO-6937 | |||
20273 | IBM273 | IBM EBCDIC (Allemagne) | |||
20277 | IBM277 | IBM EBCDIC (Danemark-Norvège) | |||
20278 | IBM278 | IBM EBCDIC (Finlande-Suède) | |||
20280 | IBM280 | IBM EBCDIC (Italie) | |||
20284 | IBM284 | IBM EBCDIC (Espagne) | |||
20285 | IBM285 | IBM EBCDIC (Royaume-Uni) | |||
20290 | IBM290 | IBM EBCDIC (katakana japonais) | |||
20297 | IBM297 | IBM EBCDIC (France) | |||
20420 | IBM420 | IBM EBCDIC (arabe) | |||
20423 | IBM423 | IBM EBCDIC (grec) | |||
20424 | IBM424 | IBM EBCDIC (hébreu) | |||
20833 | x-EBCDIC-KoreanExtended | IBM EBCDIC (coréen étendu) | |||
20838 | IBM-Thaï | IBM EBCDIC (Thaï) | |||
20866 | koi8-r | Cyrillique (KOI8-R) | |||
20871 | IBM871 | IBM EBCDIC (Islandais) | |||
20880 | IBM880 | IBM EBCDIC (Russe cyrillique) | |||
20905 | IBM905 | IBM EBCDIC (turc) | |||
20924 | IBM00924 | IBM Latin-1 | |||
20932 | EUC-JP | Japonais (JIS 0208-1990 et 0212-1990) | |||
20936 | x-cp20936 | Chinois simplifié (GB2312-80) | ✓ | ||
20949 | x-cp20949 | Wansung coréen | ✓ | ||
21025 | cp1025 | IBM EBCDIC (cyrillique serbe-bulgare) | |||
21866 | koi8-u | Cyrillique (KOI8-U) | |||
28591 | iso-8859-1 | Europe occidentale (ISO) | ✓ | ✓ | ✓ |
28592 | iso-8859-2 | Europe centrale (ISO) | |||
28593 | iso-8859-3 | Latin 3 (ISO) | |||
28594 | iso-8859-4 | Baltique (ISO) | |||
28595 | iso-8859-5 | Cyrillique (ISO) | |||
28596 | iso-8859-6 | Arabe (ISO) | |||
28597 | iso-8859-7 | Grec (ISO) | |||
28598 | iso-8859-8 | Hébreu (ISO-Visual) | ✓ | ||
28599 | iso-8859-9 | Turc (ISO) | |||
28603 | iso-8859-13 | Estonien (ISO) | |||
28605 | iso-8859-15 | Latin 9 (ISO) | |||
29001 | x-Europa | Europe | |||
38598 | iso-8859-8-i | Hébreu (ISO-Logique) | ✓ | ||
50220 | iso-2022-jp | Japonais (JIS) | ✓ | ||
50221 | csISO2022JP | Japonais (JIS-Allow 1 octets Kana) | ✓ | ||
50222 | iso-2022-jp | Japonais (JIS-Allow 1 octet Kana - SO/SI) | ✓ | ||
50225 | iso-2022-kr | Coréen (ISO) | ✓ | ||
50227 | x-cp50227 | Chinois simplifié (ISO-2022) | ✓ | ||
51932 | euc-jp | Japonais (EUC) | ✓ | ||
51936 | EUC-CN | Chinois simplifié (EUC) | ✓ | ||
51949 | euc-kr | Coréen (EUC) | ✓ | ||
52936 | hz-gb-2312 | Chinois simplifié (HZ) | ✓ | ||
54936 | GB18030 | Chinois simplifié (GB18030) | ✓ | ||
57002 | x-iscii-de | ISCII Devanagari | ✓ | ||
57003 | x-iscii-be | ISCII Bengali | ✓ | ||
57004 | x-iscii-ta | ISCII Tamoul | ✓ | ||
57005 | x-iscii-te | ISCII Telugu | ✓ | ||
57006 | x-iscii-as | ISCII Assamese | ✓ | ||
57007 | x-iscii-ou | ISCII Oriya | ✓ | ||
57008 | x-iscii-ka | ISCII Kannada | ✓ | ||
57009 | x-iscii-ma | ISCII Malayalam | ✓ | ||
57010 | x-iscii-gu | ISCII Gujarati | ✓ | ||
57011 | x-iscii-pa | ISCII Punjabi | ✓ | ||
65 000 | utf-7 | Unicode (UTF-7) | ✓ | ✓ | |
65 001 | utf-8 | Unicode (UTF-8) | ✓ | ✓ | ✓ |
L’exemple suivant appelle les méthodes et GetEncoding(String) les GetEncoding(Int32) méthodes pour obtenir l’encodage de page de codes grec (Windows). Il compare les objets retournés par les Encoding appels de méthode pour montrer qu’ils sont égaux, puis les mappages affichent le point de code Unicode et la valeur de page de codes correspondante pour chaque caractère de l’alphabet grec.
using System;
using System.Text;
public class Example
{
public static void Main()
{
Encoding enc = Encoding.GetEncoding(1253);
Encoding altEnc = Encoding.GetEncoding("windows-1253");
Console.WriteLine("{0} = Code Page {1}: {2}", enc.EncodingName,
altEnc.CodePage, enc.Equals(altEnc));
string greekAlphabet = "Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η " +
"Θ θ Ι ι Κ κ Λ λ Μ μ Ν ν Ξ ξ " +
"Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ " +
"Φ φ Χ χ Ψ ψ Ω ω";
Console.OutputEncoding = Encoding.UTF8;
byte[] bytes = enc.GetBytes(greekAlphabet);
Console.WriteLine("{0,-12} {1,20} {2,20:X2}", "Character",
"Unicode Code Point", "Code Page 1253");
for (int ctr = 0; ctr < bytes.Length; ctr++) {
if (greekAlphabet[ctr].Equals(' '))
continue;
Console.WriteLine("{0,-12} {1,20} {2,20:X2}", greekAlphabet[ctr],
GetCodePoint(greekAlphabet[ctr]), bytes[ctr]);
}
}
private static string GetCodePoint(char ch)
{
string retVal = "u+";
byte[] bytes = Encoding.Unicode.GetBytes(ch.ToString());
for (int ctr = bytes.Length - 1; ctr >= 0; ctr--)
retVal += bytes[ctr].ToString("X2");
return retVal;
}
}
// The example displays the following output:
// Character Unicode Code Point Code Page 1253
// Α u+0391 C1
// α u+03B1 E1
// Β u+0392 C2
// β u+03B2 E2
// Γ u+0393 C3
// γ u+03B3 E3
// Δ u+0394 C4
// δ u+03B4 E4
// Ε u+0395 C5
// ε u+03B5 E5
// Ζ u+0396 C6
// ζ u+03B6 E6
// Η u+0397 C7
// η u+03B7 E7
// Θ u+0398 C8
// θ u+03B8 E8
// Ι u+0399 C9
// ι u+03B9 E9
// Κ u+039A CA
// κ u+03BA EA
// Λ u+039B CB
// λ u+03BB EB
// Μ u+039C CC
// μ u+03BC EC
// Ν u+039D CD
// ν u+03BD ED
// Ξ u+039E CE
// ξ u+03BE EE
// Ο u+039F CF
// ο u+03BF EF
// Π u+03A0 D0
// π u+03C0 F0
// Ρ u+03A1 D1
// ρ u+03C1 F1
// Σ u+03A3 D3
// σ u+03C3 F3
// ς u+03C2 F2
// Τ u+03A4 D4
// τ u+03C4 F4
// Υ u+03A5 D5
// υ u+03C5 F5
// Φ u+03A6 D6
// φ u+03C6 F6
// Χ u+03A7 D7
// χ u+03C7 F7
// Ψ u+03A8 D8
// ψ u+03C8 F8
// Ω u+03A9 D9
// ω u+03C9 F9
Imports System.Text
Module Example
Public Sub Main()
Dim enc As Encoding = Encoding.GetEncoding(1253)
Dim altEnc As Encoding = Encoding.GetEncoding("windows-1253")
Console.WriteLine("{0} = Code Page {1}: {2}", enc.EncodingName,
altEnc.CodePage, enc.Equals(altEnc))
Dim greekAlphabet As String = "Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η " +
"Θ θ Ι ι Κ κ Λ λ Μ μ Ν ν Ξ ξ " +
"Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ " +
"Φ φ Χ χ Ψ ψ Ω ω"
Console.OutputEncoding = Encoding.UTF8
Dim bytes() As Byte = enc.GetBytes(greekAlphabet)
Console.WriteLine("{0,-12} {1,20} {2,20:X2}", "Character",
"Unicode Code Point", "Code Page 1253")
For ctr As Integer = 0 To bytes.Length - 1
If greekAlphabet(ctr).Equals(" "c) Then Continue For
Console.WriteLine("{0,-12} {1,20} {2,20:X2}", greekAlphabet(ctr),
GetCodePoint(greekAlphabet(ctr)), bytes(ctr))
Next
End Sub
Private Function GetCodePoint(ch As String) As String
Dim retVal As String = "u+"
Dim bytes() As Byte = Encoding.Unicode.GetBytes(ch)
For ctr As Integer = bytes.Length - 1 To 0 Step -1
retVal += bytes(ctr).ToString("X2")
Next
Return retVal
End Function
End Module
' The example displays the following output:
' Character Unicode Code Point Code Page 1253
' Α u+0391 C1
' α u+03B1 E1
' Β u+0392 C2
' β u+03B2 E2
' Γ u+0393 C3
' γ u+03B3 E3
' Δ u+0394 C4
' δ u+03B4 E4
' Ε u+0395 C5
' ε u+03B5 E5
' Ζ u+0396 C6
' ζ u+03B6 E6
' Η u+0397 C7
' η u+03B7 E7
' Θ u+0398 C8
' θ u+03B8 E8
' Ι u+0399 C9
' ι u+03B9 E9
' Κ u+039A CA
' κ u+03BA EA
' Λ u+039B CB
' λ u+03BB EB
' Μ u+039C CC
' μ u+03BC EC
' Ν u+039D CD
' ν u+03BD ED
' Ξ u+039E CE
' ξ u+03BE EE
' Ο u+039F CF
' ο u+03BF EF
' Π u+03A0 D0
' π u+03C0 F0
' Ρ u+03A1 D1
' ρ u+03C1 F1
' Σ u+03A3 D3
' σ u+03C3 F3
' ς u+03C2 F2
' Τ u+03A4 D4
' τ u+03C4 F4
' Υ u+03A5 D5
' υ u+03C5 F5
' Φ u+03A6 D6
' φ u+03C6 F6
' Χ u+03A7 D7
' χ u+03C7 F7
' Ψ u+03A8 D8
' ψ u+03C8 F8
' Ω u+03A9 D9
' ω u+03C9 F9
Si les données à convertir sont disponibles uniquement dans les blocs séquentiels (par exemple, les données lues à partir d’un flux) ou si la quantité de données est si importante qu’elle doit être divisée en blocs plus petits, vous devez utiliser la Decoder méthode ou Encoder la GetEncoder méthode fournieGetDecoder, respectivement, d’une classe dérivée.
Les encodeurs UTF-16 et UTF-32 peuvent utiliser l’ordre d’octet du big endian (octet le plus significatif en premier) ou l’ordre d’octets du petit octet endian (octet le moins significatif en premier). Par exemple, la lettre majuscule latine A (U+0041) est sérialisée comme suit (en hexadécimal) :
- UTF-16 big endian byte order : 00 41
- UTF-16 little endian byte order : 41 00
- Ordre d’octet de big endian UTF-32 : 00 00 00 41
- UTF-32 little endian byte order : 41 00 00 00
Il est généralement plus efficace de stocker des caractères Unicode à l’aide de l’ordre d’octet natif. Par exemple, il est préférable d’utiliser l’ordre d’octets little endian sur les plateformes little endian, telles que les ordinateurs Intel.
La GetPreamble méthode récupère un tableau d’octets qui inclut la marque d’ordre d’octets (BOM). Si ce tableau d’octets est précédé d’un flux encodé, il aide le décodeur à identifier le format d’encodage utilisé.
Pour plus d’informations sur l’ordre d’octet et la marque d’ordre d’octet, consultez la norme Unicode sur la page d’accueil Unicode.
Notez que les classes d’encodage autorisent les erreurs à :
- Passez en mode silencieux à un caractère « ? ».
- Utilisez un caractère « meilleur ajustement ».
- Passez à un comportement spécifique à l’application à l’aide EncoderFallback des classes et DecoderFallback des classes avec le caractère de remplacement Unicode U+FFFD.
Vous devez lever une exception sur toute erreur de flux de données. Une application utilise un indicateur « throwonerror » le cas échéant ou utilise les classes et DecoderExceptionFallback les EncoderExceptionFallback classes. La meilleure solution de secours n’est souvent pas recommandée, car elle peut entraîner une perte de données ou une confusion et est plus lente que les remplacements de caractères simples. Pour les encodages ANSI, le meilleur comportement d’ajustement est la valeur par défaut.