Classe System.Text.Encoding

Cet article vous offre des remarques complémentaires à la documentation de référence pour cette API.

La classe Encoding représente un encodage de caractères.

L'encodage est le processus de transformation d'un jeu de caractères Unicode en une séquence d'octets. En revanche, le décodage est le processus de transformation d’une séquence d’octets encodés en un ensemble de caractères Unicode. Pour plus d’informations sur les formats de transformation Unicode (UTFs) et d’autres encodages pris en charge par Encoding, consultez Encodage de caractères dans .NET.

Encoding est destiné à fonctionner sur des caractères Unicode au lieu de données binaires arbitraires, telles que des tableaux d’octets. Si vous devez encoder des données binaires arbitraires en texte, vous devez utiliser un protocole tel que uuencode, qui est implémenté par des méthodes telles que Convert.ToBase64CharArray.

.NET fournit les implémentations suivantes de la Encoding classe pour prendre en charge les encodages Unicode actuels et d’autres encodages :

  • ASCIIEncoding encode les caractères Unicode en tant que caractères ASCII 7 bits uniques. Cet encodage prend uniquement en charge les valeurs de caractères comprises entre U+0000 et U+007F. Page de codes 20127. Disponible également par le biais de la ASCII propriété.

  • UTF7Encoding encode des caractères Unicode à l’aide de l’encodage UTF-7. Cet encodage prend en charge toutes les valeurs de caractères Unicode. Page de codes 65000. Disponible également par le biais de la UTF7 propriété.

  • UTF8Encoding encode des caractères Unicode à l’aide de l’encodage UTF-8. Cet encodage prend en charge toutes les valeurs de caractères Unicode. Page de codes 65001. Disponible également par le biais de la UTF8 propriété.

  • UnicodeEncoding encode des caractères Unicode à l’aide de l’encodage UTF-16. Les commandes d’octets little endian et big endian sont prises en charge. Disponible également par le biais de la Unicode propriété et de la BigEndianUnicode propriété.

  • UTF32Encoding encode les caractères Unicode à l’aide de l’encodage UTF-32. Les commandes d’octets little endian (page de codes 12000) et big endian (page de codes 12001) sont prises en charge. Disponible également par le biais de la UTF32 propriété.

La Encoding classe est principalement destinée à effectuer une conversion entre différents encodages et Unicode. Souvent, l’une des classes Unicode dérivées est le bon choix pour votre application.

Utilisez la GetEncoding méthode pour obtenir d’autres encodages et appelez la GetEncodings méthode pour obtenir la liste de tous les encodages.

Liste des encodages

Le tableau suivant répertorie les encodages pris en charge par .NET. Il répertorie le numéro de page de codes de chaque encodage et les valeurs des propriétés et EncodingInfo.DisplayName des EncodingInfo.Name encodages. Une case activée marque dans la prise en charge de .NET Framework, la prise en charge de .NET Core ou la colonne de prise en charge .NET 5 et ultérieure indique que la page de codes est prise en charge en mode natif par cette implémentation .NET, quelle que soit la plateforme sous-jacente. Pour .NET Framework, la disponibilité d’autres encodages répertoriés dans la table dépend du système d’exploitation. Pour .NET Core et .NET 5 et versions ultérieures, d’autres encodages sont disponibles à l’aide de la System.Text.CodePagesEncodingProvider classe ou en dérivant de la System.Text.EncodingProvider classe.

Remarque

Les pages de codes dont EncodingInfo.Name la propriété correspond à une norme internationale ne sont pas nécessairement conformes à cette norme.

Page de codes Nom Nom d’affichage Prise en charge du .NET Framework Support de .NET Core Prise en charge ultérieure de .NET 5
37 IBM037 IBM EBCDIC (États-Unis-Canada)
437 IBM437 États-Unis OEM
500 IBM500 IBM EBCDIC (International)
708 ASMO-708 Arabe (ASMO 708)
720 DOS-720 Arabe (DOS)
737 ibm737 Grec (DOS)
775 ibm775 Baltique (DOS)
850 ibm850 Europe occidentale (DOS)
852 ibm852 Europe centrale (DOS)
855 IBM855 OEM Cyrillique
857 ibm857 Turc (DOS)
858 IBM00858 OEM Multilingue Latin I
860 IBM860 Portugais (DOS)
861 ibm861 Islandais (DOS)
862 DOS-862 Hébreu (DOS)
863 IBM863 Français canadien (DOS)
864 IBM864 Arabe (864)
865 IBM865 Nordique (DOS)
866 cp866 Cyrillique (DOS)
869 ibm869 Grec, Moderne (DOS)
870 IBM870 IBM EBCDIC (Latin-2 multilingue)
874 windows-874 Thaï (Windows)
875 cp875 IBM EBCDIC (grec moderne)
932 shift_jis Japonais (Shift-JIS)
936 gb2312 Chinois simplifié (GB2312)
949 ks_c_5601-1987 Coréen
950 big5 Chinois traditionnel (Big5)
1026 IBM1026 IBM EBCDIC (Turc Latin-5)
1047 IBM01047 IBM Latin-1
1140 IBM01140 IBM EBCDIC (US-Canada-Euro)
1141 IBM01141 IBM EBCDIC (Allemagne-Euro)
1142 IBM01142 IBM EBCDIC (Danemark-Norvège-Euro)
1143 IBM01143 IBM EBCDIC (Finlande-Suède-Euro)
1144 IBM01144 IBM EBCDIC (Italie-Euro)
1145 IBM01145 IBM EBCDIC (Espagne-Euro)
1146 IBM01146 IBM EBCDIC (Royaume-Uni-Euro)
1147 IBM01147 IBM EBCDIC (France-Euro)
1148 IBM01148 IBM EBCDIC (International-Euro)
1149 IBM01149 IBM EBCDIC (Islandais-Euro)
1200 utf-16 Unicode
1201 unicodeFFFE Unicode (Big endian)
1250 windows-1250 Europe centrale (Windows)
1251 windows-1251 Cyrillique (Windows)
1252 Windows-1252 Europe de l’Ouest (Windows)
1253 windows-1253 Grec (Windows)
1254 windows-1254 Turc (Windows)
1 255 windows-1255 Hébreu (Windows)
1256 windows-1256 Arabe (Windows)
1257 windows-1257 Baltique (Windows)
1258 windows-1258 Vietnamien (Windows)
1361 Johab Coréen (Johab)
10000 Macintosh Europe occidentale (Mac)
10001 x-mac-japonais Japonais (Mac)
10002 x-mac-chinesetrad Chinois traditionnel (Mac)
10003 x-mac-coréen Coréen (Mac)
10004 x-mac-arabe Arabe (Mac)
10005 x-mac-hébreu Hébreu (Mac)
10006 x-mac-grec Grec (Mac)
10007 x-mac-cyrillique Cyrillique (Mac)
10008 x-mac-chinesesimp Chinois simplifié (Mac)
10010 x-mac-roumain Roumain (Mac)
10017 x-mac-ukrainien Ukrainien (Mac)
10021 x-mac-thai Thaï (Mac)
10029 x-mac-ce Europe centrale (Mac)
10079 x-mac-islande Islandais (Mac)
10081 x-mac-turkish Turc (Mac)
10082 x-mac-croate Croate (Mac)
12 000 utf-32 Unicode (UTF-32)
12001 utf-32BE Unicode (UTF-32 Big endian)
20000 X-Chinois-CNS Chinois traditionnel (CNS)
20001 x-cp20001 TCA Taïwan
20002 x-Chinois-Eten Chinois traditionnel (Eten)
20003 x-cp20003 IBM5550 Taïwan
20004 x-cp20004 TeleText Taïwan
20005 x-cp20005 Wang Taiwan
20105 x-IA5 Europe occidentale (IA5)
20106 x-IA5-Allemand Allemand (IA5)
20107 x-IA5-Suédois Suédois (IA5)
20108 x-IA5-Norvégien Norvégien (IA5)
20127 us-ascii US-ASCII
20261 x-cp20261 T.61
20269 x-cp20269 ISO-6937
20273 IBM273 IBM EBCDIC (Allemagne)
20277 IBM277 IBM EBCDIC (Danemark-Norvège)
20278 IBM278 IBM EBCDIC (Finlande-Suède)
20280 IBM280 IBM EBCDIC (Italie)
20284 IBM284 IBM EBCDIC (Espagne)
20285 IBM285 IBM EBCDIC (Royaume-Uni)
20290 IBM290 IBM EBCDIC (katakana japonais)
20297 IBM297 IBM EBCDIC (France)
20420 IBM420 IBM EBCDIC (arabe)
20423 IBM423 IBM EBCDIC (grec)
20424 IBM424 IBM EBCDIC (hébreu)
20833 x-EBCDIC-KoreanExtended IBM EBCDIC (coréen étendu)
20838 IBM-Thaï IBM EBCDIC (Thaï)
20866 koi8-r Cyrillique (KOI8-R)
20871 IBM871 IBM EBCDIC (Islandais)
20880 IBM880 IBM EBCDIC (Russe cyrillique)
20905 IBM905 IBM EBCDIC (turc)
20924 IBM00924 IBM Latin-1
20932 EUC-JP Japonais (JIS 0208-1990 et 0212-1990)
20936 x-cp20936 Chinois simplifié (GB2312-80)
20949 x-cp20949 Wansung coréen
21025 cp1025 IBM EBCDIC (cyrillique serbe-bulgare)
21866 koi8-u Cyrillique (KOI8-U)
28591 iso-8859-1 Europe occidentale (ISO)
28592 iso-8859-2 Europe centrale (ISO)
28593 iso-8859-3 Latin 3 (ISO)
28594 iso-8859-4 Baltique (ISO)
28595 iso-8859-5 Cyrillique (ISO)
28596 iso-8859-6 Arabe (ISO)
28597 iso-8859-7 Grec (ISO)
28598 iso-8859-8 Hébreu (ISO-Visual)
28599 iso-8859-9 Turc (ISO)
28603 iso-8859-13 Estonien (ISO)
28605 iso-8859-15 Latin 9 (ISO)
29001 x-Europa Europe
38598 iso-8859-8-i Hébreu (ISO-Logique)
50220 iso-2022-jp Japonais (JIS)
50221 csISO2022JP Japonais (JIS-Allow 1 octets Kana)
50222 iso-2022-jp Japonais (JIS-Allow 1 octet Kana - SO/SI)
50225 iso-2022-kr Coréen (ISO)
50227 x-cp50227 Chinois simplifié (ISO-2022)
51932 euc-jp Japonais (EUC)
51936 EUC-CN Chinois simplifié (EUC)
51949 euc-kr Coréen (EUC)
52936 hz-gb-2312 Chinois simplifié (HZ)
54936 GB18030 Chinois simplifié (GB18030)
57002 x-iscii-de ISCII Devanagari
57003 x-iscii-be ISCII Bengali
57004 x-iscii-ta ISCII Tamoul
57005 x-iscii-te ISCII Telugu
57006 x-iscii-as ISCII Assamese
57007 x-iscii-ou ISCII Oriya
57008 x-iscii-ka ISCII Kannada
57009 x-iscii-ma ISCII Malayalam
57010 x-iscii-gu ISCII Gujarati
57011 x-iscii-pa ISCII Punjabi
65 000 utf-7 Unicode (UTF-7)
65 001 utf-8 Unicode (UTF-8)

L’exemple suivant appelle les méthodes et GetEncoding(String) les GetEncoding(Int32) méthodes pour obtenir l’encodage de page de codes grec (Windows). Il compare les objets retournés par les Encoding appels de méthode pour montrer qu’ils sont égaux, puis les mappages affichent le point de code Unicode et la valeur de page de codes correspondante pour chaque caractère de l’alphabet grec.

using System;
using System.Text;

public class Example
{
   public static void Main()
   {
      Encoding enc = Encoding.GetEncoding(1253);
      Encoding altEnc = Encoding.GetEncoding("windows-1253");
      Console.WriteLine("{0} = Code Page {1}: {2}", enc.EncodingName,
                        altEnc.CodePage, enc.Equals(altEnc));
      string greekAlphabet = "Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η " +
                             "Θ θ Ι ι Κ κ Λ λ Μ μ Ν ν Ξ ξ " +
                             "Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ " +
                             "Φ φ Χ χ Ψ ψ Ω ω";
      Console.OutputEncoding = Encoding.UTF8;
      byte[] bytes = enc.GetBytes(greekAlphabet);
      Console.WriteLine("{0,-12} {1,20} {2,20:X2}", "Character",
                        "Unicode Code Point", "Code Page 1253");
      for (int ctr = 0; ctr < bytes.Length; ctr++) {
         if (greekAlphabet[ctr].Equals(' '))
            continue;

         Console.WriteLine("{0,-12} {1,20} {2,20:X2}", greekAlphabet[ctr],
                           GetCodePoint(greekAlphabet[ctr]), bytes[ctr]);
      }
   }

   private static string GetCodePoint(char ch)
   {
      string retVal = "u+";
      byte[] bytes = Encoding.Unicode.GetBytes(ch.ToString());
      for (int ctr = bytes.Length - 1; ctr >= 0; ctr--)
         retVal += bytes[ctr].ToString("X2");

      return retVal;
   }
}
// The example displays the following output:
//       Character      Unicode Code Point       Code Page 1253
//       Α                          u+0391                   C1
//       α                          u+03B1                   E1
//       Β                          u+0392                   C2
//       β                          u+03B2                   E2
//       Γ                          u+0393                   C3
//       γ                          u+03B3                   E3
//       Δ                          u+0394                   C4
//       δ                          u+03B4                   E4
//       Ε                          u+0395                   C5
//       ε                          u+03B5                   E5
//       Ζ                          u+0396                   C6
//       ζ                          u+03B6                   E6
//       Η                          u+0397                   C7
//       η                          u+03B7                   E7
//       Θ                          u+0398                   C8
//       θ                          u+03B8                   E8
//       Ι                          u+0399                   C9
//       ι                          u+03B9                   E9
//       Κ                          u+039A                   CA
//       κ                          u+03BA                   EA
//       Λ                          u+039B                   CB
//       λ                          u+03BB                   EB
//       Μ                          u+039C                   CC
//       μ                          u+03BC                   EC
//       Ν                          u+039D                   CD
//       ν                          u+03BD                   ED
//       Ξ                          u+039E                   CE
//       ξ                          u+03BE                   EE
//       Ο                          u+039F                   CF
//       ο                          u+03BF                   EF
//       Π                          u+03A0                   D0
//       π                          u+03C0                   F0
//       Ρ                          u+03A1                   D1
//       ρ                          u+03C1                   F1
//       Σ                          u+03A3                   D3
//       σ                          u+03C3                   F3
//       ς                          u+03C2                   F2
//       Τ                          u+03A4                   D4
//       τ                          u+03C4                   F4
//       Υ                          u+03A5                   D5
//       υ                          u+03C5                   F5
//       Φ                          u+03A6                   D6
//       φ                          u+03C6                   F6
//       Χ                          u+03A7                   D7
//       χ                          u+03C7                   F7
//       Ψ                          u+03A8                   D8
//       ψ                          u+03C8                   F8
//       Ω                          u+03A9                   D9
//       ω                          u+03C9                   F9
Imports System.Text

Module Example
   Public Sub Main()
      Dim enc As Encoding = Encoding.GetEncoding(1253)
      Dim altEnc As Encoding = Encoding.GetEncoding("windows-1253")
      Console.WriteLine("{0} = Code Page {1}: {2}", enc.EncodingName,
                        altEnc.CodePage, enc.Equals(altEnc))
      Dim greekAlphabet As String = "Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η " +
                                    "Θ θ Ι ι Κ κ Λ λ Μ μ Ν ν Ξ ξ " +
                                    "Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ " +
                                    "Φ φ Χ χ Ψ ψ Ω ω"
      Console.OutputEncoding = Encoding.UTF8
      Dim bytes() As Byte = enc.GetBytes(greekAlphabet)
      Console.WriteLine("{0,-12} {1,20} {2,20:X2}", "Character",
                        "Unicode Code Point", "Code Page 1253")
      For ctr As Integer = 0 To bytes.Length - 1
         If greekAlphabet(ctr).Equals(" "c) Then Continue For

         Console.WriteLine("{0,-12} {1,20} {2,20:X2}", greekAlphabet(ctr),
                           GetCodePoint(greekAlphabet(ctr)), bytes(ctr))
      Next

   End Sub
   
   Private Function GetCodePoint(ch As String) As String
      Dim retVal As String = "u+"
      Dim bytes() As Byte = Encoding.Unicode.GetBytes(ch)
      For ctr As Integer = bytes.Length - 1 To 0 Step -1
         retVal += bytes(ctr).ToString("X2")
      Next
      Return retVal
   End Function
End Module
' The example displays the following output:
'    Character      Unicode Code Point       Code Page 1253
'    Α                          u+0391                   C1
'    α                          u+03B1                   E1
'    Β                          u+0392                   C2
'    β                          u+03B2                   E2
'    Γ                          u+0393                   C3
'    γ                          u+03B3                   E3
'    Δ                          u+0394                   C4
'    δ                          u+03B4                   E4
'    Ε                          u+0395                   C5
'    ε                          u+03B5                   E5
'    Ζ                          u+0396                   C6
'    ζ                          u+03B6                   E6
'    Η                          u+0397                   C7
'    η                          u+03B7                   E7
'    Θ                          u+0398                   C8
'    θ                          u+03B8                   E8
'    Ι                          u+0399                   C9
'    ι                          u+03B9                   E9
'    Κ                          u+039A                   CA
'    κ                          u+03BA                   EA
'    Λ                          u+039B                   CB
'    λ                          u+03BB                   EB
'    Μ                          u+039C                   CC
'    μ                          u+03BC                   EC
'    Ν                          u+039D                   CD
'    ν                          u+03BD                   ED
'    Ξ                          u+039E                   CE
'    ξ                          u+03BE                   EE
'    Ο                          u+039F                   CF
'    ο                          u+03BF                   EF
'    Π                          u+03A0                   D0
'    π                          u+03C0                   F0
'    Ρ                          u+03A1                   D1
'    ρ                          u+03C1                   F1
'    Σ                          u+03A3                   D3
'    σ                          u+03C3                   F3
'    ς                          u+03C2                   F2
'    Τ                          u+03A4                   D4
'    τ                          u+03C4                   F4
'    Υ                          u+03A5                   D5
'    υ                          u+03C5                   F5
'    Φ                          u+03A6                   D6
'    φ                          u+03C6                   F6
'    Χ                          u+03A7                   D7
'    χ                          u+03C7                   F7
'    Ψ                          u+03A8                   D8
'    ψ                          u+03C8                   F8
'    Ω                          u+03A9                   D9
'    ω                          u+03C9                   F9

Si les données à convertir sont disponibles uniquement dans les blocs séquentiels (par exemple, les données lues à partir d’un flux) ou si la quantité de données est si importante qu’elle doit être divisée en blocs plus petits, vous devez utiliser la Decoder méthode ou Encoder la GetEncoder méthode fournieGetDecoder, respectivement, d’une classe dérivée.

Les encodeurs UTF-16 et UTF-32 peuvent utiliser l’ordre d’octet du big endian (octet le plus significatif en premier) ou l’ordre d’octets du petit octet endian (octet le moins significatif en premier). Par exemple, la lettre majuscule latine A (U+0041) est sérialisée comme suit (en hexadécimal) :

  • UTF-16 big endian byte order : 00 41
  • UTF-16 little endian byte order : 41 00
  • Ordre d’octet de big endian UTF-32 : 00 00 00 41
  • UTF-32 little endian byte order : 41 00 00 00

Il est généralement plus efficace de stocker des caractères Unicode à l’aide de l’ordre d’octet natif. Par exemple, il est préférable d’utiliser l’ordre d’octets little endian sur les plateformes little endian, telles que les ordinateurs Intel.

La GetPreamble méthode récupère un tableau d’octets qui inclut la marque d’ordre d’octets (BOM). Si ce tableau d’octets est précédé d’un flux encodé, il aide le décodeur à identifier le format d’encodage utilisé.

Pour plus d’informations sur l’ordre d’octet et la marque d’ordre d’octet, consultez la norme Unicode sur la page d’accueil Unicode.

Notez que les classes d’encodage autorisent les erreurs à :

  • Passez en mode silencieux à un caractère « ? ».
  • Utilisez un caractère « meilleur ajustement ».
  • Passez à un comportement spécifique à l’application à l’aide EncoderFallback des classes et DecoderFallback des classes avec le caractère de remplacement Unicode U+FFFD.

Vous devez lever une exception sur toute erreur de flux de données. Une application utilise un indicateur « throwonerror » le cas échéant ou utilise les classes et DecoderExceptionFallback les EncoderExceptionFallback classes. La meilleure solution de secours n’est souvent pas recommandée, car elle peut entraîner une perte de données ou une confusion et est plus lente que les remplacements de caractères simples. Pour les encodages ANSI, le meilleur comportement d’ajustement est la valeur par défaut.