Classe System.Text.Encoding

Remarque

Cet article fournit des remarques supplémentaires à la documentation de référence de cette API.

La Encoding classe représente un encodage de caractères.

L’encodage est le processus de transformation d’un ensemble de caractères Unicode en une séquence d’octets. En revanche, le décodage est le processus de transformation d’une séquence d’octets encodés en un ensemble de caractères Unicode. Pour plus d’informations sur les formats de transformation Unicode (UTFs) et d’autres encodages pris en charge par Encoding, consultez Encodage de caractères dans .NET.

Encoding est destiné à fonctionner sur des caractères Unicode au lieu de données binaires arbitraires, telles que des tableaux d’octets. Si vous devez encoder des données binaires arbitraires en texte, vous devez utiliser un protocole tel que uuencode, qui est implémenté par des méthodes telles que Convert.ToBase64CharArray.

.NET fournit les implémentations suivantes de la Encoding classe pour prendre en charge les encodages Unicode actuels et d’autres encodages :

ASCIIEncoding encode les caractères Unicode en tant que caractères ASCII 7 bits uniques. Cet encodage prend uniquement en charge les valeurs de caractères comprises entre U+0000 et U+007F. Page de codes 20127. Disponible également via la propriété ASCII.
UTF7Encoding encode des caractères Unicode à l’aide de l’encodage UTF-7. Cet encodage prend en charge toutes les valeurs de caractères Unicode. Page de codes 65000. Disponible également via la propriété UTF7.
UTF8Encoding encode des caractères Unicode à l’aide de l’encodage UTF-8. Cet encodage prend en charge toutes les valeurs de caractères Unicode. Page de codes 65001. Disponible également via la propriété UTF8.
UnicodeEncoding encode des caractères Unicode à l’aide de l’encodage UTF-16. Les ordres des octets Little Endian et Big Endian sont pris en charge. Disponible également par le biais de la Unicode propriété et de la BigEndianUnicode propriété.
UTF32Encoding encode les caractères Unicode à l’aide de l’encodage UTF-32. Les ordres d’octets Little Endian (page de codes 12000) et Big Endian (page de codes 12001) sont pris en charge. Disponible également via la propriété UTF32.

La Encoding classe est principalement destinée à effectuer une conversion entre différents encodages et Unicode. Souvent, l’une des classes Unicode dérivées est le bon choix pour votre application.

Utilisez la GetEncoding méthode pour obtenir d’autres encodages et appelez la GetEncodings méthode pour obtenir la liste de tous les encodages.

Liste des encodages

Le tableau suivant répertorie les encodages pris en charge par .NET. Il répertorie le numéro de page de code de chaque encodage et les valeurs des propriétés EncodingInfo.Name et EncodingInfo.DisplayName de l’encodage. Une coche dans la prise en charge du .NET Framework, la prise en charge de .NET Core ou la prise en charge de .NET 5 et ultérieurs indique que la page de codes est prise en charge nativement par cette implémentation .NET, quelle que soit la plateforme sous-jacente. Pour .NET Framework, la disponibilité d’autres encodages répertoriés dans la table dépend du système d’exploitation. Pour .NET Core et .NET 5 et versions ultérieures, d’autres encodages sont disponibles à l’aide de la System.Text.CodePagesEncodingProvider classe ou en dérivant de la System.Text.EncodingProvider classe.

Remarque

Les pages de codes dont EncodingInfo.Name la propriété correspond à une norme internationale ne sont pas nécessairement conformes à cette norme.

Page de codes	Nom	Nom affiché	Prise en charge du .NET Framework	Prise en charge de .NET Core	Prise en charge de .NET 5 et des versions ultérieures
37	IBM037	IBM EBCDIC (US-Canada)
437	IBM437	OEM États-Unis
5:00	IBM500	IBM EBCDIC (International)
7:08	ASMO-708	Arabe (ASMO 708)
720	DOS-720	Arabe (DOS)
7:37	ibm737	Grec (DOS)
775	ibm775	Baltique (DOS)
850	ibm850	Europe occidentale (DOS)
852	ibm852	Europe centrale (DOS)
855	IBM855	Cyrillique OEM
857	ibm857	Turc (DOS)
858	IBM00858	OEM Multilingue Latin I
860	IBM860	Portugais (DOS)
861	ibm861	Islandais (DOS)
862	DOS-862	Hébreu (DOS)
863	IBM863	Canadien français (DOS)
864	IBM864	Arabe (864)
865	IBM865	Nordique (DOS)
866	cp866	Cyrillique (DOS)
869	ibm869	Grec moderne (DOS)
870	IBM870	IBM EBCDIC (Latin-2 multilingue)
874	windows-874	Thaï (Windows)
875	cp875	IBM EBCDIC (Grec Moderne)
932	shift_jis	Japonais (Shift-JIS)
936	gb2312	Chinois simplifié (GB2312)	✓
949	ks_c_5601-1987	Coréen
950	big5	Chinois traditionnel (Big5)
1026	IBM1026	IBM EBCDIC (Turc Latin-5)
1047	IBM01047	IBM Latin-1
1140	IBM01140	IBM EBCDIC (US-Canada-Euro)
1141	IBM01141	IBM EBCDIC (Germany-Euro)
1142	IBM01142	IBM EBCDIC (Danemark-Norway-Euro)
1143	IBM01143	IBM EBCDIC (Finlande-Sweden-Euro)
1144	IBM01144	IBM EBCDIC (Italy-Euro)
1145	IBM01145	IBM EBCDIC (Spain-Euro)
1146	IBM01146	IBM EBCDIC (UK-Euro)
1147	IBM01147	IBM EBCDIC (France-Euro)
1148	IBM01148	IBM EBCDIC (International-Euro)
1149	IBM01149	IBM EBCDIC (Icelandic-Euro)
1 200	utf-16	Unicode	✓	✓	✓
1201	unicodeFFFE	Unicode (Big endian - ordonnancement des octets)	✓	✓	✓
1250	windows-1250	Europe centrale (Windows)
1251	windows-1251	Cyrillique (Windows)
1252	Windows-1252	Europe occidentale (Windows)	✓
1253	windows-1253	Grec (Windows)
1254	windows-1254	Turc (Windows)
1 255	windows-1255	Hébreu (Windows)
1256	windows-1256	Arabe (Windows)
1257	windows-1257	Baltique (Windows)
1258	windows-1258	Vietnamien (Windows)
1361	Johab	Coréen (Johab)
10 000	Macintosh	Europe occidentale (Mac)
10001	x-mac-japonais	Japonais (Mac)
10002	x-mac-chinoistrad	Chinois traditionnel (Mac)
10003	x-mac-coréen	Coréen (Mac)	✓
10004	x-mac-arabe	Arabe (Mac)
10005	x-mac-hébreu	Hébreu (Mac)
10006	x-mac-grec	Grec (Mac)
10007	x-mac-cyrillique	Cyrillique (Mac)
10008	x-mac-chinoissimp	Chinois simplifié (Mac)	✓
10010	x-mac-roumain	Roumain (Mac)
10017	x-mac-ukrainien	Ukrainien (Mac)
10021	x-mac-thaï	Thaï (Mac)
10029	x-mac-ce	Europe centrale (Mac)
10079	x-mac-islande	Islandais (Mac)
10081	x-mac-turc	Turc (Mac)
10082	x-mac-croatian	Croate (Mac)
12 000	utf-32	Unicode (UTF-32)	✓	✓	✓
12001	utf-32BE	Unicode (UTF-32 Big endian)	✓	✓	✓
20000	x-Chinois-CNS	Chinois traditionnel (CNS)
20001	x-cp20001	TCA Taïwan
20002	x-Chinois-Eten	Chinois traditionnel (Eten)
20003	x-cp20003	IBM5550 Taïwan
20004	x-cp20004	TeleText Taïwan
20005	x-cp20005	Wang Taïwan
20105	x-IA5	Europe occidentale (IA5)
20106	x-IA5-Allemand	Allemand (IA5)
20107	x-IA5-Suédois	Suédois (IA5)
20108	x-IA5-Norvégien	Norvégien (IA5)
20127	us-ascii	US-ASCII	✓	✓	✓
20261	x-cp20261	T.61
20269	x-cp20269	ISO-6937
20273	IBM273	IBM EBCDIC (Allemagne)
20277	IBM277	IBM EBCDIC (Denmark-Norway)
20278	IBM278	IBM EBCDIC (Finland-Sweden)
20280	IBM280	IBM EBCDIC (Italie)
20284	IBM284	IBM EBCDIC (Espagne)
20285	IBM285	IBM EBCDIC (Royaume-Uni)
20290	IBM290	IBM EBCDIC (katakana japonais)
20297	IBM297	IBM EBCDIC (France)
20420	IBM420	IBM EBCDIC (arabe)
20423	IBM423	IBM EBCDIC (Grec)
20424	IBM424	IBM EBCDIC (hébreu)
20833	x-EBCDIC-CoréenÉtendu	IBM EBCDIC (coréen étendu)
20838	IBM-Thaï	IBM EBCDIC (Thaï)
20866	koi8-r	Cyrillique (KOI8-R)
20871	IBM871	IBM EBCDIC (Islandais)
20880	IBM880	IBM EBCDIC (Russe cyrillique)
20905	IBM905	IBM EBCDIC (Turc)
20924	IBM00924	IBM Latin-1
20932	EUC-JP	Japonais (JIS 0208-1990 et 0212-1990)
20936	x-cp20936	Chinois simplifié (GB2312-80)	✓
20949	x-cp20949	Wansung coréen	✓
21025	cp1025	IBM EBCDIC (Serbian-Bulgariancyrillique)
21866	koi8-u	Cyrillique (KOI8-U)
28591	iso-8859-1	Europe occidentale (ISO)	✓	✓	✓
28592	iso-8859-2	Europe centrale (ISO)
28593	iso-8859-3	Latin 3 (ISO)
28594	iso-8859-4	Baltique (ISO)
28595	iso-8859-5	Cyrillique (ISO)
28596	iso-8859-6	Arabe (ISO)
28597	iso-8859-7	Grec (ISO)
28598	iso-8859-8	Hébreu (ISO-Visual)	✓
28599	iso-8859-9	Turc (ISO)
28603	iso-8859-13	Estonien (ISO)
28605	iso-8859-15	Latin 9 (ISO)
29001	x-Europa	Europe
38598	iso-8859-8-i	Hébreu (ISO-Logical)	✓
50220	iso-2022-jp	Japonais (JIS)	✓
50221	csISO2022JP	Japonais (JIS-Allow 1 octet Kana)	✓
50222	iso-2022-jp	Japonais (JIS-Allow 1 octet Kana - SO/SI)	✓
50225	iso-2022-kr	Coréen (ISO)	✓
50227	x-cp50227	Chinois simplifié (ISO-2022)	✓
51932	euc-jp	Japonais (EUC)	✓
51936	EUC-CN	Chinois simplifié (EUC)	✓
51949	euc-kr	Coréen (EUC)	✓
52,936	hz-gb-2312	Chinois simplifié (HZ)	✓
54936	GB18030	Chinois simplifié (GB18030)	✓
57002	x-iscii-de	ISCII Devanagari	✓
57003	x-iscii-be	ISCII Bengali	✓
57004	x-iscii-ta	ISCII Tamoul	✓
57005	x-iscii-te	ISCII Telugu	✓
57006	x-iscii-as	ISCII Assamais	✓
57007	x-iscii-ou	ISCII Oriya	✓
57008	x-iscii-ka	ISCII Kannada	✓
57009	x-iscii-ma	ISCII Malayalam	✓
57010	x-iscii-gu	ISCII Gujarati	✓
57011	x-iscii-pa	norme de codage ISCII pour le pendjabi	✓
65 000	utf-7	Unicode (UTF-7)	✓	✓
65001	utf-8	Unicode (UTF-8)	✓	✓	✓

L’exemple suivant appelle les méthodes GetEncoding(Int32) et GetEncoding(String) pour obtenir l’encodage de la page de codes grecque (Windows). Il compare les objets retournés par les appels de méthode Encoding pour montrer qu’ils sont égaux, puis affiche le point de code Unicode et la valeur de page de code correspondante pour chaque caractère de l’alphabet grec.

using System;
using System.Text;

public class Example
{
   public static void Main()
   {
      Encoding enc = Encoding.GetEncoding(1253);
      Encoding altEnc = Encoding.GetEncoding("windows-1253");
      Console.WriteLine($"{enc.EncodingName} = Code Page {altEnc.CodePage}: {enc.Equals(altEnc)}");
      string greekAlphabet = "Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η " +
                             "Θ θ Ι ι Κ κ Λ λ Μ μ Ν ν Ξ ξ " +
                             "Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ " +
                             "Φ φ Χ χ Ψ ψ Ω ω";
      Console.OutputEncoding = Encoding.UTF8;
      byte[] bytes = enc.GetBytes(greekAlphabet);
      Console.WriteLine("{0,-12} {1,20} {2,20:X2}", "Character",
                        "Unicode Code Point", "Code Page 1253");
      for (int ctr = 0; ctr < bytes.Length; ctr++) {
         if (greekAlphabet[ctr].Equals(' '))
            continue;

         Console.WriteLine("{0,-12} {1,20} {2,20:X2}", greekAlphabet[ctr],
                           GetCodePoint(greekAlphabet[ctr]), bytes[ctr]);
      }
   }

   private static string GetCodePoint(char ch)
   {
      string retVal = "u+";
      byte[] bytes = Encoding.Unicode.GetBytes(ch.ToString());
      for (int ctr = bytes.Length - 1; ctr >= 0; ctr--)
         retVal += bytes[ctr].ToString("X2");

      return retVal;
   }
}
// The example displays the following output:
//       Character      Unicode Code Point       Code Page 1253
//       Α                          u+0391                   C1
//       α                          u+03B1                   E1
//       Β                          u+0392                   C2
//       β                          u+03B2                   E2
//       Γ                          u+0393                   C3
//       γ                          u+03B3                   E3
//       Δ                          u+0394                   C4
//       δ                          u+03B4                   E4
//       Ε                          u+0395                   C5
//       ε                          u+03B5                   E5
//       Ζ                          u+0396                   C6
//       ζ                          u+03B6                   E6
//       Η                          u+0397                   C7
//       η                          u+03B7                   E7
//       Θ                          u+0398                   C8
//       θ                          u+03B8                   E8
//       Ι                          u+0399                   C9
//       ι                          u+03B9                   E9
//       Κ                          u+039A                   CA
//       κ                          u+03BA                   EA
//       Λ                          u+039B                   CB
//       λ                          u+03BB                   EB
//       Μ                          u+039C                   CC
//       μ                          u+03BC                   EC
//       Ν                          u+039D                   CD
//       ν                          u+03BD                   ED
//       Ξ                          u+039E                   CE
//       ξ                          u+03BE                   EE
//       Ο                          u+039F                   CF
//       ο                          u+03BF                   EF
//       Π                          u+03A0                   D0
//       π                          u+03C0                   F0
//       Ρ                          u+03A1                   D1
//       ρ                          u+03C1                   F1
//       Σ                          u+03A3                   D3
//       σ                          u+03C3                   F3
//       ς                          u+03C2                   F2
//       Τ                          u+03A4                   D4
//       τ                          u+03C4                   F4
//       Υ                          u+03A5                   D5
//       υ                          u+03C5                   F5
//       Φ                          u+03A6                   D6
//       φ                          u+03C6                   F6
//       Χ                          u+03A7                   D7
//       χ                          u+03C7                   F7
//       Ψ                          u+03A8                   D8
//       ψ                          u+03C8                   F8
//       Ω                          u+03A9                   D9
//       ω                          u+03C9                   F9

Imports System.Text

Module Example
   Public Sub Main()
      Dim enc As Encoding = Encoding.GetEncoding(1253)
      Dim altEnc As Encoding = Encoding.GetEncoding("windows-1253")
      Console.WriteLine("{0} = Code Page {1}: {2}", enc.EncodingName,
                        altEnc.CodePage, enc.Equals(altEnc))
      Dim greekAlphabet As String = "Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η " +
                                    "Θ θ Ι ι Κ κ Λ λ Μ μ Ν ν Ξ ξ " +
                                    "Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ " +
                                    "Φ φ Χ χ Ψ ψ Ω ω"
      Console.OutputEncoding = Encoding.UTF8
      Dim bytes() As Byte = enc.GetBytes(greekAlphabet)
      Console.WriteLine("{0,-12} {1,20} {2,20:X2}", "Character",
                        "Unicode Code Point", "Code Page 1253")
      For ctr As Integer = 0 To bytes.Length - 1
         If greekAlphabet(ctr).Equals(" "c) Then Continue For

         Console.WriteLine("{0,-12} {1,20} {2,20:X2}", greekAlphabet(ctr),
                           GetCodePoint(greekAlphabet(ctr)), bytes(ctr))
      Next

   End Sub
   
   Private Function GetCodePoint(ch As String) As String
      Dim retVal As String = "u+"
      Dim bytes() As Byte = Encoding.Unicode.GetBytes(ch)
      For ctr As Integer = bytes.Length - 1 To 0 Step -1
         retVal += bytes(ctr).ToString("X2")
      Next
      Return retVal
   End Function
End Module
' The example displays the following output:
'    Character      Unicode Code Point       Code Page 1253
'    Α                          u+0391                   C1
'    α                          u+03B1                   E1
'    Β                          u+0392                   C2
'    β                          u+03B2                   E2
'    Γ                          u+0393                   C3
'    γ                          u+03B3                   E3
'    Δ                          u+0394                   C4
'    δ                          u+03B4                   E4
'    Ε                          u+0395                   C5
'    ε                          u+03B5                   E5
'    Ζ                          u+0396                   C6
'    ζ                          u+03B6                   E6
'    Η                          u+0397                   C7
'    η                          u+03B7                   E7
'    Θ                          u+0398                   C8
'    θ                          u+03B8                   E8
'    Ι                          u+0399                   C9
'    ι                          u+03B9                   E9
'    Κ                          u+039A                   CA
'    κ                          u+03BA                   EA
'    Λ                          u+039B                   CB
'    λ                          u+03BB                   EB
'    Μ                          u+039C                   CC
'    μ                          u+03BC                   EC
'    Ν                          u+039D                   CD
'    ν                          u+03BD                   ED
'    Ξ                          u+039E                   CE
'    ξ                          u+03BE                   EE
'    Ο                          u+039F                   CF
'    ο                          u+03BF                   EF
'    Π                          u+03A0                   D0
'    π                          u+03C0                   F0
'    Ρ                          u+03A1                   D1
'    ρ                          u+03C1                   F1
'    Σ                          u+03A3                   D3
'    σ                          u+03C3                   F3
'    ς                          u+03C2                   F2
'    Τ                          u+03A4                   D4
'    τ                          u+03C4                   F4
'    Υ                          u+03A5                   D5
'    υ                          u+03C5                   F5
'    Φ                          u+03A6                   D6
'    φ                          u+03C6                   F6
'    Χ                          u+03A7                   D7
'    χ                          u+03C7                   F7
'    Ψ                          u+03A8                   D8
'    ψ                          u+03C8                   F8
'    Ω                          u+03A9                   D9
'    ω                          u+03C9                   F9

Si les données à convertir sont disponibles uniquement sous forme de blocs séquentiels (par exemple, les données lues à partir d'un flux) ou si la quantité de données est si importante qu'elle doit être divisée en blocs plus petits, vous devez utiliser la méthode Decoder ou la méthode Encoder fournie, respectivement, par la méthode GetDecoder ou la méthode GetEncoder d'une classe dérivée.

Les encodeurs UTF-16 et UTF-32 peuvent utiliser l’ordre d’octets big endian (octet le plus significatif en premier) ou l’ordre d’octets little endian (octet le moins significatif en premier). Par exemple, la lettre majuscule latine A (U+0041) est sérialisée comme suit (en hexadécimal) :

Ordre des octets UTF-16 Big Endian : 00 41
Ordre des octets UTF-16 Little Endian : 41 00
Ordre des octets UTF-32 Big Endian : 00 00 00 41
Ordre des octets UTF-32 Little Endian : 41 00 00 00

Il est généralement plus efficace de stocker des caractères Unicode à l’aide de l’ordre d’octet natif. Par exemple, il est préférable d’utiliser l’ordre d’octets little endian sur les plateformes little endian, telles que les ordinateurs Intel.

La GetPreamble méthode récupère un tableau d’octets qui inclut la marque d’ordre d’octets (BOM). Si ce tableau d’octets est précédé d’un flux encodé, il aide le décodeur à identifier le format d’encodage utilisé.

Pour plus d’informations sur l’ordre d’octet et la marque d’ordre d’octet, consultez la norme Unicode sur la page d’accueil Unicode.

Notez que les classes d’encodage autorisent les erreurs à :

Modifier discrètement par un caractère « ? ».
Utiliser le caractère « le plus adapté ».
Changer pour un comportement spécifique à l'application en utilisant les classes EncoderFallback et DecoderFallback avec le caractère de remplacement Unicode U+FFFD.

Vous devez lever une exception sur toute erreur de flux de données. Une application utilise un indicateur « throwonerror » le cas échéant ou les classes EncoderExceptionFallback et DecoderExceptionFallback. La meilleure solution de secours n’est souvent pas recommandée, car elle peut entraîner une perte de données ou une confusion et est plus lente que les remplacements de caractères simples. Pour les encodages ANSI, le meilleur comportement d’ajustement est la valeur par défaut.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-06-21

Classe System.Text.Encoding

Liste des encodages

Commentaires

Ressources supplémentaires