Classes de caractères dans les expressions régulières

Une classe de caractères définit un jeu de caractères, chacun d'entre eux pouvant apparaître dans une chaîne d'entrée pour aboutir à une correspondance. Le langage d’expression régulière dans .NET prend en charge les classes de caractères suivantes :

Groupes de caractères positifs. Un caractère de la chaîne d'entrée doit correspondre à l'un des jeux de caractères spécifié. Pour plus d’informations, consultez Groupe de caractères positifs.
Groupes de caractères négatifs. Un caractère de la chaîne d'entrée ne doit pas correspondre à l'un des jeux de caractères spécifié. Pour plus d’informations, consultez Groupe de caractères négatif.
Tout caractère. Le caractère . (point) dans une expression régulière est un caractère générique qui correspond à n'importe quel caractère sauf \n. Pour plus d’informations, consultez N’importe quel caractère.
Catégorie Unicode générale ou bloc nommé. Un caractère de la chaîne d'entrée doit être membre d'une catégorie Unicode particulière ou doit figurer dans une plage contiguë de caractères Unicode pour aboutir à une correspondance. Pour plus d’informations, consultez Catégorie Unicode ou bloc Unicode.
Catégorie Unicode générale négative ou bloc nommé. Un caractère de la chaîne d'entrée ne doit pas être membre d'une catégorie Unicode particulière ou ne doit pas figurer dans une plage contiguë de caractères Unicode pour aboutir à une correspondance. Pour plus d’informations, consultez Catégorie ou bloc Unicode négatifs.
Caractère de mot. Un caractère de la chaîne d'entrée peut appartenir à l'une des catégories Unicode appropriées aux caractères contenus dans les mots. Pour plus d’informations, consultez Caractère de Mot.
Caractère autre qu'un caractère de mot. Un caractère de la chaîne d’entrée peut appartenir à n’importe quelle catégorie Unicode qui n’est pas un caractère de mot. Pour plus d’informations, consultez Caractère non Word.
Espace blanc. Un caractère dans la chaîne d’entrée peut être n’importe quel caractère de séparateur Unicode et l’un des nombreux caractères de contrôle. Pour plus d’informations, consultez Espace blanc.
Caractère autre qu'un espace blanc. Un caractère dans la chaîne d’entrée peut être n’importe quel caractère qui n’est pas un caractère d’espace blanc. Pour plus d’informations, consultez Caractère autre qu’un espace blanc.
Chiffre décimal. Un caractère dans la chaîne d’entrée peut être n’importe quel caractère classé comme un chiffre décimal Unicode. Pour plus d’informations, consultez Chiffre décimal.
Chiffre non décimal. Un caractère de la chaîne d'entrée peut correspondre à autre chose qu'un chiffre décimal Unicode. Pour plus d’informations, consultez Chiffre décimal.

.NET prend en charge les expressions de soustraction de classe de caractères, ce qui vous permet de définir un ensemble de caractères en excluant une classe de caractères d'une autre classe de caractères. Pour plus d’informations, consultez Soustraction de classe de caractères.

Note

Les classes de caractères qui font correspondre les caractères par catégorie, comme \w pour faire correspondre les caractères alphabétiques, ou \p{} pour les faire correspondre à une catégorie Unicode, s’appuient sur la classe CharUnicodeInfo pour fournir des informations sur les catégories de caractères. Dans .NET Framework 4.6.2 et versions ultérieures, les catégories de caractères sont basées sur The Unicode Standard, version 8.0.0.

Groupe de caractères positif : [ ]

Un groupe de caractères positif spécifie une liste de caractères, dont l’un peut apparaître dans une chaîne d’entrée pour qu’une correspondance se produise. Cette liste de caractères peut être spécifiée individuellement, sous forme de plage ou les deux.

La syntaxe de la spécification d'une liste de différents caractères est comme suit :

[*character_group*]

Où character_group est une liste des caractères individuels qui peuvent apparaître dans la chaîne d’entrée pour qu’une correspondance réussisse. groupe_caractères peut être constitué de n’importe quelle combinaison d’un ou de plusieurs caractères littéraux, de caractères d’échappement ou de classes de caractères.

La syntaxe de la spécification d'une plage de caractères est comme suit :

[firstCharacter-lastCharacter]

Où firstCharacter est le caractère qui commence la plage et lastCharacter est le caractère qui termine la plage. Une plage de caractères est une série contiguë de caractères définie par la spécification du premier caractère de la série, d'un trait d'union (-), puis du dernier caractère de la série. Deux caractères sont contigus s'ils présentent des points de code Unicode adjacents. premierCaractère doit être le caractère avec le code de caractère le plus faible et dernierCaractère doit être le caractère avec le code de caractère le plus élevé.

Note

Étant donné qu’un groupe de caractères positif peut inclure à la fois un ensemble de caractères et une plage de caractères, un caractère de trait d’union (-) est toujours interprété comme séparateur de plage, sauf s’il s’agit du premier ou du dernier caractère du groupe.

Pour inclure un trait d’union en tant que membre non périphérique d’un groupe de caractères, placez-le dans une séquence d’échappement. Par exemple, pour créer un groupe de caractères pour le caractère a et les caractères de - à /, la syntaxe correcte est [a\--/].

Quelques modèles d'expressions régulières courants qui contiennent des classes de caractères positifs apparaissent dans le tableau suivant.

Modèle	Description
`[aeiou]`	Mettre en correspondance toutes les voyelles.
`[\p{P}\d]`	Mettre en correspondance tous les signes de ponctuation et chiffres décimaux.
`[\s\p{P}]`	Mettre en correspondance tous les espaces blancs et signes de ponctuation.

L'exemple suivant définit un groupe de caractères positif qui contient les caractères « a » et « e » afin que la chaîne d'entrée contienne les mots « grey » ou « gray » suivis par un autre mot pour produire une correspondance.

static void PositiveCharacterGroup()
{
    string pattern = @"gr[ae]y\s\S+?[\s\p{P}]";
    string input = "The gray wolf jumped over the grey wall.";
    MatchCollection matches = Regex.Matches(input, pattern);
    foreach (Match match in matches)
        Console.WriteLine($"'{match.Value}'");
}
// The example displays the following output:
//       'gray wolf '
//       'grey wall.'

Sub PositiveCharacterGroup()
    Dim pattern As String = "gr[ae]y\s\S+?[\s\p{P}]"
    Dim input As String = "The gray wolf jumped over the grey wall."
    Dim matches As MatchCollection = Regex.Matches(input, pattern)
    For Each match As Match In matches
        Console.WriteLine($"'{match.Value}'")
    Next
End Sub
' The example displays the following output:
'       'gray wolf '
'       'grey wall.'

L'expression régulière gr[ae]y\s\S+?[\s|\p{P}] est définie comme suit :

Modèle	Description
`gr`	Mettre en correspondance les caractères littéraux « gr ».
`[ae]`	Mettre en correspondance un « a » ou un « e ».
`y\s`	Mettre en correspondance le caractère littéral « y » suivi d'un espace blanc.
`\S+?`	Mettre en correspondance un ou plusieurs caractères autres que des espaces blancs, mais le moins possible.
`[\s\p{P}]`	Mettre en correspondance un espace blanc ou un signe de ponctuation.

L'exemple suivant correspond aux mots qui commencent par une majuscule. Il utilise la sous-expression [A-Z] pour représenter la plage de majuscules de A à Z.

static void CharacterRange()
{
    string pattern = @"\b[A-Z]\w*\b";
    string input = "A city Albany Zulu maritime Marseilles";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       A
//       Albany
//       Zulu
//       Marseilles

Sub CharacterRange()
    Dim pattern As String = "\b[A-Z]\w*\b"
    Dim input As String = "A city Albany Zulu maritime Marseilles"
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       A
'       Albany
'       Zulu
'       Marseilles

L'expression régulière \b[A-Z]\w*\b est définie comme indiqué dans le tableau suivant.

Modèle	Description
`\b`	Commencez à la frontière d'un mot.
`[A-Z]`	Correspondre à un caractère majuscule entre A et Z.
`\w*`	Mettre en correspondance zéro, un ou plusieurs caractères alphabétiques.
`\b`	Mettre en correspondance la limite d'un mot.

Groupe de caractères négatif : [^]

Un groupe de caractères négatifs spécifie une liste de caractères qui ne doivent pas s'afficher dans une chaîne d'entrée pour produire une correspondance. La liste des caractères peut être spécifiée individuellement, sous forme de plage, ou les deux.

La syntaxe de la spécification d'une liste de différents caractères est comme suit :

[*^character_group*]

Où character_group est une liste des caractères individuels qui ne peuvent pas apparaître dans la chaîne d’entrée pour qu’une correspondance réussisse. groupe_caractères peut être constitué de n’importe quelle combinaison d’un ou de plusieurs caractères littéraux, de caractères d’échappement ou de classes de caractères.

La syntaxe de la spécification d'une plage de caractères est comme suit :

[^*firstCharacter*-*lastCharacter*]

Note

Étant donné qu’un groupe de caractères négatif peut inclure à la fois un ensemble de caractères et une plage de caractères, un caractère de trait d’union (-) est toujours interprété comme séparateur de plage, sauf s’il s’agit du premier ou du dernier caractère du groupe.

Deux ou plusieurs plages de caractères peuvent être concaténées. Par exemple, pour spécifier la plage de chiffres décimaux de « 0 » à « 9 », la plage de lettres minuscules de « a » à « f » et la plage de lettres majuscules de « A » à « F », utilisez [0-9a-fA-F].

Le premier caractère d’insertion (^) d’un groupe de caractères négatif est obligatoire et indique que le groupe de caractères est un groupe de caractères négatif, et non positif.

Important

Un groupe de caractères négatif dans un modèle d’expression régulière plus volumineux n’est pas une assertion de largeur nulle. Autrement dit, après avoir évalué le groupe de caractères négatif, le moteur des expressions régulières avance d'un caractère dans la chaîne d'entrée.

Quelques modèles d'expressions régulières courants qui contiennent des groupes de caractères négatifs apparaissent dans le tableau suivant.

Modèle	Description
`[^aeiou]`	Mettre en correspondance tous les caractères, à l'exception des voyelles.
`[^\p{P}\d]`	Mettre en correspondance tous les caractères, à l'exception des signes de ponctuation et des chiffres décimaux.

L’exemple suivant correspond à n’importe quel mot commençant par les caractères « th » et qui n’est pas suivi d’un « o ».

static void NegativeCharacterGroup()
{
    string pattern = @"\bth[^o]\w+\b";
    string input = "thought thing though them through thus thorough this";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       thing
//       them
//       through
//       thus
//       this

Sub NegativeCharacterGroup()
    Dim pattern As String = "\bth[^o]\w+\b"
    Dim input As String = "thought thing though them through thus thorough this"
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       thing
'       them
'       through
'       thus
'       this

L'expression régulière \bth[^o]\w+\b est définie comme indiqué dans le tableau suivant.

Modèle	Description
`\b`	Commencez à la frontière d'un mot.
`th`	Mettre en correspondance les caractères littéraux « th ».
`[^o]`	Correspondre à tout caractère qui n’est pas un « o ».
`\w+`	Faire correspondre un ou plusieurs caractères de mot.
`\b`	Terminer à une limite de mot.

N’importe quel caractère : .

Le point (.) correspond à n’importe quel caractère sauf \n (caractère de saut de ligne), avec les deux qualifications suivantes :

Si un modèle d'expression régulière est modifié par l'option RegexOptions.Singleline ou si la partie du modèle qui contient la classe de caractères . est modifiée par l'option s, . correspond à n'importe quel caractère. Pour plus d’informations, consultez Options des expressions régulières.

À compter de .NET 11, si l’option RegexOptions.AnyNewLine est spécifiée, . exclut toutes les séquences de nouvelles lignes communes au lieu de uniquement \n. Si les deux Singleline et AnyNewLine sont spécifiés, Singleline est prioritaire et . correspond à chaque caractère. Pour plus d’informations, consultez le mode AnyNewLine.

L'exemple suivant illustre le comportement différent de la classe de caractères . par défaut et avec l'option RegexOptions.Singleline. L'expression régulière ^.+ commence au début de la chaîne et correspond à tous les caractères. Par défaut, la correspondance se termine à la fin de la première ligne ; le modèle d’expression régulière correspond au caractère de retour chariot, \r, mais il ne correspond pas à \n. Étant donné que l'option RegexOptions.Singleline interprète la chaîne d'entrée entière comme une ligne unique, il correspond à chaque caractère de la chaîne d'entrée, notamment \n.

static void AnyCharacterMultiline()
{
    string pattern = "^.+";
    string input = "This is one line and" + Environment.NewLine + "this is the second.";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(Regex.Escape(match.Value));

    Console.WriteLine();
    foreach (Match match in Regex.Matches(input, pattern, RegexOptions.Singleline))
        Console.WriteLine(Regex.Escape(match.Value));
}
// The example displays the following output:
//       This\ is\ one\ line\ and\r
//
//       This\ is\ one\ line\ and\r\nthis\ is\ the\ second\.

Sub AnyCharacterMultiline()
    Dim pattern As String = "^.+"
    Dim input As String = "This is one line and" + Environment.NewLine + "this is the second."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(Regex.Escape(match.Value))
    Next

    Console.WriteLine()
    For Each match As Match In Regex.Matches(input, pattern, RegexOptions.Singleline)
        Console.WriteLine(Regex.Escape(match.Value))
    Next
End Sub
' The example displays the following output:
'       This\ is\ one\ line\ and\r
'
'       This\ is\ one\ line\ and\r\nthis\ is\ the\ second\.

Note

Par défaut, parce qu’il correspond à n’importe quel caractère sauf \n, la classe de caractères . correspond également à \r (retour chariot). Avec RegexOptions.AnyNewLine, . exclut \r et d'autres séquences de saut de ligne également.

Dans un groupe de caractères négatif ou positif, un point est traité comme un caractère littéral de point, et non pas comme une classe de caractères. Pour plus d’informations, consultez Groupe de caractères positifs et Groupe de caractères négatifs plus haut dans cet article. L'exemple suivant en propose une illustration. Il définit une expression régulière qui inclut le point (.) à la fois en tant que classe de caractères et en tant que membre d'un groupe de caractères positif. L’expression régulière \b.*[.?!;:](\s|\z) commence à une limite de mot, correspond à n’importe quel caractère tant qu’elle ne rencontre pas l’un des cinq signes de ponctuation, y compris le point, puis correspond à un espace blanc ou à la fin de la chaîne.
```
static void AnyCharacterSingleline()
{
    string pattern = @"\b.*[.?!;:](\s|\z)";
    string input = "this. what: is? go, thing.";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       this. what: is? go, thing.
```
```
Sub AnyCharacterSingleline()
    Dim pattern As String = "\b.*[.?!;:](\s|\z)"
    Dim input As String = "this. what: is? go, thing."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       this. what: is? go, thing.
```

Note

Étant donné qu'il correspond à n'importe quel caractère, l'élément de langage . est souvent utilisé avec un quantificateur limitatif si un modèle d'expression régulière essaie de correspondre plusieurs fois à n'importe quel caractère. Pour plus d’informations, consultez Quantificateurs.

Catégorie Unicode ou bloc Unicode : \p{}

La norme Unicode assigne une catégorie générale à chaque caractère. Par exemple, un caractère particulier peut être une lettre majuscule (représentée par la Lu catégorie), un chiffre décimal (la Nd catégorie), un symbole mathématique (la Sm catégorie) ou un séparateur de paragraphe (la Zl catégorie). Les jeux de caractères spécifiques de la norme Unicode occupent également une plage spécifique ou un bloc de points de code consécutifs. Par exemple, l'alphabet latin de base se trouve de \u0000 à \u007F, alors que le jeu de caractères arabe se trouve de \u0600 à \u06FF.

Le constructeur d'expressions régulières

\p{ nom}

Correspond à n’importe quel caractère appartenant à une catégorie générale Unicode ou à un bloc nommé, où le nom est l’abréviation de catégorie ou le nom de bloc nommé. Pour obtenir la liste des abréviations de catégorie, consultez la section Catégories générales Unicode prises en charge plus loin dans cet article. Pour obtenir la liste des blocs nommés, consultez la section Blocs nommés pris en charge plus loin dans cet article.

Conseil

La correspondance peut être améliorée si la chaîne est d’abord normalisée en appelant la String.Normalize méthode.

L’exemple suivant utilise la construction \p{nom} pour mettre en correspondance une catégorie Unicode générale (dans ce cas, la catégorie Pd ou Punctuation, Dash) et un bloc nommé (les blocs nommés IsGreek et IsBasicLatin).

static void UnicodeCategory()
{
    string pattern = @"\b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+";
    string input = "Ελληνική Γλώσσα - Greek Language";

    Console.WriteLine(Regex.IsMatch(input, pattern));        // Displays True.
}

Sub UnicodeCategory()
    Dim pattern As String = "\b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+"
    Dim input As String = "Ελληνική Γλώσσα - Greek Language"

    Console.WriteLine(Regex.IsMatch(input, pattern))        ' Displays True.
End Sub

L'expression régulière \b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+ est définie comme indiqué dans le tableau suivant.

Modèle	Description
`\b`	Commencez à la frontière d'un mot.
`\p{IsGreek}+`	Mettre en correspondance un ou plusieurs caractères grecs.
`(\s)?`	Mettre en correspondance zéro ou un espace blanc.
`(\p{IsGreek}+(\s)?)+`	Mettre en correspondance le modèle d’un ou plusieurs caractères grecs, suivis de zéro ou d’un espace blanc, une ou plusieurs fois.
`\p{Pd}`	Mettre en correspondance un signe de ponctuation tiret.
`\s`	Mettre en correspondance un espace blanc.
`\p{IsBasicLatin}+`	Mettre en correspondance un ou plusieurs caractères latins de base.
`(\s)?`	Mettre en correspondance zéro ou un espace blanc.
`(\p{IsBasicLatin}+(\s)?)+`	Mettre en correspondance un ou plusieurs caractères latins de base suivis de zéro ou d’un espace blanc, une ou plusieurs fois.

Catégorie Unicode négative ou bloc Unicode : \P{}

La norme Unicode assigne une catégorie générale à chaque caractère. Par exemple, un caractère particulier peut être une lettre majuscule (représenté par la catégorie Lu), un chiffre décimal (catégorie Nd), un symbole mathématique (catégorie Sm) ou un séparateur de paragraphe (catégorie Zl). Les jeux de caractères spécifiques de la norme Unicode occupent également une plage spécifique ou un bloc de points de code consécutifs. Par exemple, l'alphabet latin de base se trouve de \u0000 à \u007F, alors que le jeu de caractères arabe se trouve de \u0600 à \u06FF.

Le constructeur d'expressions régulières

\P{ nom}

Correspond à tout caractère qui n’appartient pas à une catégorie générale Unicode ou à un bloc nommé, où le nom est l’abréviation de catégorie ou le nom de bloc nommé. Pour obtenir la liste des abréviations de catégorie, consultez la section Catégories générales Unicode prises en charge plus loin dans cet article. Pour obtenir la liste des blocs nommés, consultez la section Blocs nommés pris en charge plus loin dans cet article.

Conseil

La correspondance peut être améliorée si la chaîne est d’abord normalisée en appelant la String.Normalize méthode.

L'exemple suivant utilise la construction \P{nom} pour supprimer tous les symboles monétaires (dans ce cas, la catégorie Sc ou Symbol, Currency) des chaînes numériques.

static void NegativeUnicodeCategory()
{
    string pattern = @"(\P{Sc})+";

    string[] values = { "$164,091.78", "£1,073,142.68", "73¢", "€120" };
    foreach (string value in values)
        Console.WriteLine(Regex.Match(value, pattern).Value);
}
// The example displays the following output:
//       164,091.78
//       1,073,142.68
//       73
//       120

Sub NegativeUnicodeCategory()
    Dim pattern As String = "(\P{Sc})+"

    Dim values() As String = {"$164,091.78", "£1,073,142.68", "73¢", "€120"}
    For Each value As String In values
        Console.WriteLine(Regex.Match(value, pattern).Value)
    Next
End Sub
' The example displays the following output:
'       164,091.78
'       1,073,142.68
'       73
'       120

Le modèle (\P{Sc})+ d’expression régulière correspond à un ou plusieurs caractères qui ne sont pas des symboles monétaires ; il supprime efficacement tout symbole monétaire de la chaîne de résultat.

Caractère « Word » : \w

\w correspond à n'importe quel caractère alphabétique. Un caractère de mot est un membre d'une des catégories Unicode répertoriées dans le tableau suivant.

Catégorie	Description
Ll	Letter, Lowercase
Lu	Letter, Uppercase
Lt	Letter, Titlecase
Lo	Lettre, Autre
Lm	Letter, Modifier
Mn	Mark, Nonspacing
Nd	Nombre, chiffre décimal
Pc	Punctuation, Connector. Cette catégorie inclut dix caractères dont le plus souvent utilisé est le caractère LOWLINE (_), u+005F.

Si un comportement conforme à ECMAScript est spécifié, \w est équivalent à [a-zA-Z_0-9]. Pour plus d’informations sur les expressions régulières ECMAScript, consultez la section « Comportement de correspondance ECMAScript » dans Options des expressions régulières.

Note

Étant donné qu'il correspond à n'importe quel caractère alphabétique, l'élément de langage \w est souvent utilisé avec un quantificateur limitatif si un modèle d'expression régulière essaie de correspondre plusieurs fois à n'importe quel caractère alphabétique, suivi par un caractère alphabétique spécifique. Pour plus d’informations, consultez Quantificateurs.

L'exemple suivant utilise l'élément de langage \w pour faire correspondre les caractères dupliqués dans un mot. L'exemple définit un modèle d'expression régulière, (\w)\1, qui peut être interprété comme suit.

Élément	Description
(\w)	Mettre en correspondance un caractère de mot. Il s'agit du premier groupe de capture.
\1	Mettre en correspondance la valeur de la première capture.

static void WordCharacter()
{
    string pattern = @"(\w)\1";
    string[] words = { "trellis", "seer", "latter", "summer",
                       "hoarse", "lesser", "aardvark", "stunned" };
    foreach (string word in words)
    {
        Match match = Regex.Match(word, pattern);
        if (match.Success)
            Console.WriteLine($"'{match.Value}' found in '{word}' at position {match.Index}.");
        else
            Console.WriteLine($"No double characters in '{word}'.");
    }
}
// The example displays the following output:
//       'll' found in 'trellis' at position 3.
//       'ee' found in 'seer' at position 1.
//       'tt' found in 'latter' at position 2.
//       'mm' found in 'summer' at position 2.
//       No double characters in 'hoarse'.
//       'ss' found in 'lesser' at position 2.
//       'aa' found in 'aardvark' at position 0.
//       'nn' found in 'stunned' at position 3.

Sub WordCharacter()
    Dim pattern As String = "(\w)\1"
    Dim words() As String = {"trellis", "seer", "latter", "summer",
                             "hoarse", "lesser", "aardvark", "stunned"}
    For Each word As String In words
        Dim match As Match = Regex.Match(word, pattern)
        If match.Success Then
            Console.WriteLine($"'{match.Value}' found in '{word}' at position {match.Index}.")
        Else
            Console.WriteLine($"No double characters in '{word}'.")
        End If
    Next
End Sub
' The example displays the following output:
'       'll' found in 'trellis' at position 3.
'       'ee' found in 'seer' at position 1.
'       'tt' found in 'latter' at position 2.
'       'mm' found in 'summer' at position 2.
'       No double characters in 'hoarse'.
'       'ss' found in 'lesser' at position 2.
'       'aa' found in 'aardvark' at position 0.
'       'nn' found in 'stunned' at position 3.

Caractère autre qu’un mot : \W

\W correspond à tout caractère autre qu'un caractère alphabétique. L'élément de langage \W est équivalent à la classe de caractères suivante :

[^\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Lm}\p{Mn}\p{Nd}\p{Pc}]

En d’autres termes, il correspond à n’importe quel caractère à l’exception de ceux inclus dans les catégories Unicode répertoriées dans le tableau suivant.

Catégorie	Description
Ll	Letter, Lowercase
Lu	Letter, Uppercase
Lt	Letter, Titlecase
Lo	Lettre, Autre
Lm	Letter, Modifier
Mn	Mark, Nonspacing
Nd	Nombre, chiffre décimal
Pc	Punctuation, Connector. Cette catégorie inclut dix caractères dont le plus souvent utilisé est le caractère LOWLINE (_), u+005F.

Si un comportement conforme à ECMAScript est spécifié, \W est équivalent à [^a-zA-Z_0-9]. Pour plus d’informations sur les expressions régulières ECMAScript, consultez la section « Comportement de correspondance ECMAScript » dans Options des expressions régulières.

Note

Étant donné qu'il correspond à n'importe quel caractère non alphabétique, l'élément de langage \W est souvent utilisé avec un quantificateur limitatif si un modèle d'expression régulière essaie de correspondre plusieurs fois à n'importe quel caractère non alphabétique suivi d'un caractère non alphabétique spécifique. Pour plus d’informations, consultez Quantificateurs.

L'exemple suivant illustre la classe de caractères \W. Il définit un modèle d'expression régulière, \b(\w+)(\W){1,2}, qui correspond à un mot suivi d'un ou deux caractères non alphabétiques, comme un espace ou un signe de ponctuation. L'expression régulière est interprétée comme indiqué dans le tableau suivant.

Élément	Description
\b	Commencer la correspondance à la limite d'un mot.
(\w+)	Faire correspondre un ou plusieurs caractères de mot. Il s'agit du premier groupe de capture.
(\W){1,2}	Mettre en correspondance un caractère autre qu'un mot une ou deux fois. Il s'agit du deuxième groupe de capture.

static void NonWordCharacter()
{
    string pattern = @"\b(\w+)(\W){1,2}";
    string input = "The old, grey mare slowly walked across the narrow, green pasture.";
    foreach (Match match in Regex.Matches(input, pattern))
    {
        Console.WriteLine(match.Value);
        Console.Write("   Non-word character(s):");
        CaptureCollection captures = match.Groups[2].Captures;
        for (int ctr = 0; ctr < captures.Count; ctr++)
            Console.Write(@"'{0}' (\u{1}){2}", captures[ctr].Value,
                          Convert.ToUInt16(captures[ctr].Value[0]).ToString("X4"),
                          ctr < captures.Count - 1 ? ", " : "");
        Console.WriteLine();
    }
}
// The example displays the following output:
//       The
//          Non-word character(s):' ' (\u0020)
//       old,
//          Non-word character(s):',' (\u002C), ' ' (\u0020)
//       grey
//          Non-word character(s):' ' (\u0020)
//       mare
//          Non-word character(s):' ' (\u0020)
//       slowly
//          Non-word character(s):' ' (\u0020)
//       walked
//          Non-word character(s):' ' (\u0020)
//       across
//          Non-word character(s):' ' (\u0020)
//       the
//          Non-word character(s):' ' (\u0020)
//       narrow,
//          Non-word character(s):',' (\u002C), ' ' (\u0020)
//       green
//          Non-word character(s):' ' (\u0020)
//       pasture.
//          Non-word character(s):'.' (\u002E)

Sub NonWordCharacter()
    Dim pattern As String = "\b(\w+)(\W){1,2}"
    Dim input As String = "The old, grey mare slowly walked across the narrow, green pasture."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
        Console.Write("   Non-word character(s):")
        Dim captures As CaptureCollection = match.Groups(2).Captures
        For ctr As Integer = 0 To captures.Count - 1
            Console.Write("'{0}' (\u{1}){2}", captures(ctr).Value,
                          Convert.ToUInt16(captures(ctr).Value.Chars(0)).ToString("X4"),
                          If(ctr < captures.Count - 1, ", ", ""))
        Next
        Console.WriteLine()
    Next
End Sub
' The example displays the following output:
'       The
'          Non-word character(s):' ' (\u0020)
'       old,
'          Non-word character(s):',' (\u002C), ' ' (\u0020)
'       grey
'          Non-word character(s):' ' (\u0020)
'       mare
'          Non-word character(s):' ' (\u0020)
'       slowly
'          Non-word character(s):' ' (\u0020)
'       walked
'          Non-word character(s):' ' (\u0020)
'       across
'          Non-word character(s):' ' (\u0020)
'       the
'          Non-word character(s):' ' (\u0020)
'       narrow,
'          Non-word character(s):',' (\u002C), ' ' (\u0020)
'       green
'          Non-word character(s):' ' (\u0020)
'       pasture.
'          Non-word character(s):'.' (\u002E)

Étant donné que l'objet Group du deuxième groupe de capture ne contient qu'un seul caractère autre qu'un mot capturé, l'exemple extrait tous les caractères autres que des mots capturés de l'objet CaptureCollection retourné par la propriété Group.Captures.

Espace : \s

\s correspond à n'importe quel caractère blanc. Il équivaut aux séquences d’échappement et aux catégories Unicode répertoriées dans le tableau suivant.

Catégorie	Description
`\f`	Saut de page, \u000C.
`\n`	Saut de ligne, \u000A.
`\r`	Retour chariot, \u000D.
`\t`	Tabulation, \u0009.
`\v`	Tabulation verticale, \u000B.
`\x85`	Caractère À LA LIGNE (NEL), \u0085.
`\p{Z}`	Correspond à tous les caractères de séparation. Cela inclut les catégories `Zs`, `Zl` et `Zp`.

Si un comportement conforme à ECMAScript est spécifié, \s est équivalent à [ \f\n\r\t\v]. Pour plus d’informations sur les expressions régulières ECMAScript, consultez la section « Comportement de correspondance ECMAScript » dans Options des expressions régulières.

L'exemple suivant illustre la classe de caractères \s. Il définit un modèle d'expression régulière, \b\w+(e)?s(\s|$), qui correspond à un mot se terminant par "s" ou par "es", suivi d'un espace ou de la fin de la chaîne d'entrée. L'expression régulière est interprétée comme indiqué dans le tableau suivant.

Élément	Description
\b	Commencer la correspondance à la limite d'un mot.
\w+	Faire correspondre un ou plusieurs caractères de mot.
(e)?	Mettre en correspondance un « e » zéro ou une fois.
s	Mettre en correspondance un « s ».
(\s\|$)	Mettre en correspondance un espace blanc ou la fin de la chaîne d’entrée.

static void WhitespaceCharacter()
{
    string pattern = @"\b\w+(e)?s(\s|$)";
    string input = "matches stores stops leave leaves";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       matches
//       stores
//       stops
//       leaves

Sub WhitespaceCharacter()
    Dim pattern As String = "\b\w+(e)?s(\s|$)"
    Dim input As String = "matches stores stops leave leaves"
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       matches
'       stores
'       stops
'       leaves

Caractère autre qu’un espace : \S

\S correspond à tout caractère autre qu'un espace. Il équivaut au modèle d’expression régulière [^\f\n\r\t\v\x85\p{Z}], ou à l’opposé du modèle d’expression régulière équivalente à \s, qui correspond aux caractères d’espace blanc. Pour plus d'informations, consultez Espace blanc : \s.

Si un comportement conforme à ECMAScript est spécifié, \S est équivalent à [^ \f\n\r\t\v]. Pour plus d’informations sur les expressions régulières ECMAScript, consultez la section « Comportement de correspondance ECMAScript » dans Options des expressions régulières.

L'exemple suivant illustre l'élément de langage \S. Le modèle d'expression régulière \b(\S+)\s? met en correspondance des chaînes délimitées par des espaces blancs. Le deuxième élément de l'objet GroupCollection de la correspondance contient la chaîne correspondante. L'expression régulière peut être interprétée comme indiqué dans le tableau suivant.

Élément	Description
`\b`	Commencer la correspondance à la limite d'un mot.
`(\S+)`	Mettre en correspondance un ou plusieurs caractères autres que des espaces blancs. Il s'agit du premier groupe de capture.
`\s?`	Mettre en correspondance zéro ou un espace blanc.

static void NonWhitespaceCharacter()
{
    string pattern = @"\b(\S+)\s?";
    string input = "This is the first sentence of the first paragraph. " +
                          "This is the second sentence.\n" +
                          "This is the only sentence of the second paragraph.";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Groups[1]);
}
// The example displays the following output:
//    This
//    is
//    the
//    first
//    sentence
//    of
//    the
//    first
//    paragraph.
//    This
//    is
//    the
//    second
//    sentence.
//    This
//    is
//    the
//    only
//    sentence
//    of
//    the
//    second
//    paragraph.

Sub NonWhitespaceCharacter()
    Dim pattern As String = "\b(\S+)\s?"
    Dim input As String = "This is the first sentence of the first paragraph. " +
                          "This is the second sentence." + Environment.NewLine +
                          "This is the only sentence of the second paragraph."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Groups(1))
    Next
End Sub
' The example displays the following output:
'    This
'    is
'    the
'    first
'    sentence
'    of
'    the
'    first
'    paragraph.
'    This
'    is
'    the
'    second
'    sentence.
'    This
'    is
'    the
'    only
'    sentence
'    of
'    the
'    second
'    paragraph.

Caractère numérique décimal : \d

\d correspond à n'importe quel chiffre décimal. Il équivaut au \p{Nd} modèle d’expression régulière, qui inclut les chiffres décimaux standard 0-9 et les chiffres décimaux de nombreux autres jeux de caractères.

Si un comportement conforme à ECMAScript est spécifié, \d est équivalent à [0-9]. Pour plus d’informations sur les expressions régulières ECMAScript, consultez la section « Comportement de correspondance ECMAScript » dans Options des expressions régulières.

L'exemple suivant illustre l'élément de langage \d. Il teste si une chaîne d’entrée représente un numéro de téléphone valide dans le États-Unis et le Canada. Le modèle d'expression régulière ^($?\d{3}$?[\s-])?\d{3}-\d{4}$ est défini comme indiqué dans le tableau suivant.

Élément	Description
`^`	Commencer la correspondance au début de la chaîne d'entrée.
`\(?`	Correspondre à zéro ou un caractère littéral « ( ».
`\d{3}`	Mettre en correspondance trois chiffres décimaux.
`\)?`	Faire correspondre zéro ou un symbole littéral « ) ».
`[\s-]`	Mettre en correspondance un trait d'union ou un espace blanc.
`($?\d{3}$?[\s-])?`	Mettre en correspondance une parenthèse ouvrante facultative suivie de trois chiffres décimaux, d'une parenthèse fermante facultative et d'un espace blanc ou d'un tiret, zéro ou une fois. Il s'agit du premier groupe de capture.
`\d{3}-\d{4}`	Mettre en correspondance trois chiffres décimaux suivis d'un trait d'union et de quatre chiffres décimaux supplémentaires.
`$`	Mettre en correspondance la fin de la chaîne d'entrée.

static void DigitCharacter()
{
    string pattern = @"^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$";
    string[] inputs = { "111 111-1111", "222-2222", "222 333-444",
                        "(212) 111-1111", "111-AB1-1111",
                        "212-111-1111", "01 999-9999" };

    foreach (string input in inputs)
    {
        if (Regex.IsMatch(input, pattern))
            Console.WriteLine(input + ": matched");
        else
            Console.WriteLine(input + ": match failed");
    }
}
// The example displays the following output:
//       111 111-1111: matched
//       222-2222: matched
//       222 333-444: match failed
//       (212) 111-1111: matched
//       111-AB1-1111: match failed
//       212-111-1111: matched
//       01 999-9999: match failed

Sub DigitCharacter()
    Dim pattern As String = "^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$"
    Dim inputs() As String = {"111 111-1111", "222-2222", "222 333-444",
                               "(212) 111-1111", "111-AB1-1111",
                               "212-111-1111", "01 999-9999"}

    For Each input As String In inputs
        If Regex.IsMatch(input, pattern) Then
            Console.WriteLine(input + ": matched")
        Else
            Console.WriteLine(input + ": match failed")
        End If
    Next
End Sub
' The example displays the following output:
'       111 111-1111: matched
'       222-2222: matched
'       222 333-444: match failed
'       (212) 111-1111: matched
'       111-AB1-1111: match failed
'       212-111-1111: matched
'       01 999-9999: match failed

Caractère autre qu’un chiffre : \D

\D correspond à n'importe quel caractère autre qu'un chiffre. Il équivaut au \P{Nd} modèle d’expression régulière.

Si un comportement conforme à ECMAScript est spécifié, \D est équivalent à [^0-9]. Pour plus d’informations sur les expressions régulières ECMAScript, consultez la section « Comportement de correspondance ECMAScript » dans Options des expressions régulières.

L'exemple suivant illustre l'élément de langage \D. Il teste si une chaîne telle qu'un numéro de référence se compose de la combinaison appropriée de caractères décimaux et autres que des décimaux. Le modèle d'expression régulière ^\D\d{1,5}\D*$ est défini comme indiqué dans le tableau suivant.

Élément	Description
`^`	Commencer la correspondance au début de la chaîne d'entrée.
`\D`	Mettre en correspondance un caractère autre qu'un chiffre.
`\d{1,5}`	Mettre en correspondance de un à cinq chiffres décimaux.
`\D*`	Mettre en correspondance zéro, un ou plusieurs caractères non décimaux.
`$`	Mettre en correspondance la fin de la chaîne d'entrée.

static void NonDigitCharacter()
{
    string pattern = @"^\D\d{1,5}\D*$";
    string[] inputs = { "A1039C", "AA0001", "C18A", "Y938518" };

    foreach (string input in inputs)
    {
        if (Regex.IsMatch(input, pattern))
            Console.WriteLine(input + ": matched");
        else
            Console.WriteLine(input + ": match failed");
    }
}
// The example displays the following output:
//       A1039C: matched
//       AA0001: match failed
//       C18A: matched
//       Y938518: match failed

Sub NonDigitCharacter()
    Dim pattern As String = "^\D\d{1,5}\D*$"
    Dim inputs() As String = {"A1039C", "AA0001", "C18A", "Y938518"}

    For Each input As String In inputs
        If Regex.IsMatch(input, pattern) Then
            Console.WriteLine(input + ": matched")
        Else
            Console.WriteLine(input + ": match failed")
        End If
    Next
End Sub
' The example displays the following output:
'       A1039C: matched
'       AA0001: match failed
'       C18A: matched
'       Y938518: match failed

Catégories générales Unicode prises en charge

La norme Unicode définit les catégories générales répertoriées dans le tableau suivant. Pour plus d’informations, consultez les sous-rubriques « Format de fichier UCD » et « Valeurs des catégories générales » dans la Base de données de caractères Unicode, Sec. 5.7.1, Tableau 12.

Catégorie	Description
`Lu`	Letter, Uppercase
`Ll`	Letter, Lowercase
`Lt`	Letter, Titlecase
`Lm`	Letter, Modifier
`Lo`	Lettre, Autre
`L`	Tous les caractères alphabétiques. Cela inclut les caractères `Lu`, `Ll`, `Lt`, `Lm` et `Lo`.
`Mn`	Mark, Nonspacing
`Mc`	Mark, Spacing Combining
`Me`	Mark, Enclosing
`M`	Toutes les marques de combinaison. Cela inclut les catégories `Mn`, `Mc` et `Me`.
`Nd`	Nombre, chiffre décimal
`Nl`	Nombre, Lettre
`No`	Nombre, Autres
`N`	Tous les nombres. Cela inclut les catégories `Nd`, `Nl` et `No`.
`Pc`	Ponctuation, connecteur
`Pd`	Ponctuation, Tiret
`Ps`	Punctuation, Open
`Pe`	Punctuation, Close
`Pi`	Punctuation, Initial quote (peut se comporter comme Ps ou Pe selon l'utilisation)
`Pf`	Ponctuation, guillemet final (peut se comporter comme Ps ou Pe selon l’utilisation)
`Po`	Ponctuation, Autre
`P`	Tous les caractères de ponctuation. Cela inclut les catégories `Pc`, `Pd`, `Ps`, `Pe`, `Pi`, `Pf` et `Po`.
`Sm`	Symbole, Mathématiques
`Sc`	Symbole, devise
`Sk`	Symbole, modificateur
`So`	Symbole, Autre
`S`	Tous les symboles. Cela inclut les catégories `Sm`, `Sc`, `Sk` et `So`.
`Zs`	Séparateur, Espace
`Zl`	Séparateur, Ligne
`Zp`	Separator, Paragraph
`Z`	Tous les caractères séparateurs. Cela inclut les catégories `Zs`, `Zl` et `Zp`.
`Cc`	Other, Control
`Cf`	Autre, Format
`Cs`	Autre, Substitut
`Co`	Autres utilisations privées
`Cn`	Autre, non affecté ou non-caractère
`C`	Tous les autres caractères. Cela inclut les catégories `Cc`, `Cf`, `Cs`, `Co` et `Cn`.

Vous pouvez déterminer la catégorie Unicode de n'importe quel caractère particulier en passant ce caractère à la méthode GetUnicodeCategory. L'exemple suivant utilise la méthode GetUnicodeCategory pour déterminer la catégorie de chaque élément dans un tableau qui contient des caractères latins sélectionnés.

static void GetUnicodeCategory()
{
    char[] chars = { 'a', 'X', '8', ',', ' ', '\u0009', '!' };

    foreach (char ch in chars)
        Console.WriteLine($"'{Regex.Escape(ch.ToString())}': {Char.GetUnicodeCategory(ch)}");
}
// The example displays the following output:
//       'a': LowercaseLetter
//       'X': UppercaseLetter
//       '8': DecimalDigitNumber
//       ',': OtherPunctuation
//       '\ ': SpaceSeparator
//       '\t': Control
//       '!': OtherPunctuation

Sub GetUnicodeCategory()
    Dim chars() As Char = {"a"c, "X"c, "8"c, ","c, " "c, ChrW(9), "!"c}

    For Each ch As Char In chars
        Console.WriteLine("'{0}': {1}", Regex.Escape(ch.ToString()),
                          Char.GetUnicodeCategory(ch))
    Next
End Sub
' The example displays the following output:
'       'a': LowercaseLetter
'       'X': UppercaseLetter
'       '8': DecimalDigitNumber
'       ',': OtherPunctuation
'       '\ ': SpaceSeparator
'       '\t': Control
'       '!': OtherPunctuation

Blocs nommés pris en charge

.NET fournit les blocs nommés répertoriés dans le tableau suivant. Le jeu de blocs nommés pris en charge est basé sur Unicode 4.0 et Perl 5.6. Pour une expression régulière qui utilise des blocs nommés, consultez la section Catégorie Unicode ou bloc Unicode : \p{}.

Plage de points de code	Nom du bloc
0000 - 007F	`IsBasicLatin`
0080 - 00FF	`IsLatin-1Supplement`
0100 - 017F	`IsLatinExtended-A`
0180 - 024F	`IsLatinExtended-B`
0250 - 02AF	`IsIPAExtensions`
02B0 - 02FF	`IsSpacingModifierLetters`
0300 - 036F	`IsCombiningDiacriticalMarks`
0370 - 03FF	`IsGreek` ou `IsGreekandCoptic`
0400 - 04FF	`IsCyrillic`
0500 - 052F	`IsCyrillicSupplement`
0530 - 058F	`IsArmenian`
0590 - 05FF	`IsHebrew`
0600 - 06FF	`IsArabic`
0700 - 074F	`IsSyriac`
0780 - 07BF	`IsThaana`
0900 - 097F	`IsDevanagari`
0980 - 09FF	`IsBengali`
0A00 - 0A7F	`IsGurmukhi`
0A80 - 0AFF	`IsGujarati`
0B00 - 0B7F	`IsOriya`
0B80 - 0BFF	`IsTamil`
0C00 - 0C7F	`IsTelugu`
0C80 - 0CFF	`IsKannada`
0D00 - 0D7F	`IsMalayalam`
0D80 - 0DFF	`IsSinhala`
0E00 - 0E7F	`IsThai`
0E80 - 0EFF	`IsLao`
0F00 - 0FFF	`IsTibetan`
1000 - 109F	`IsMyanmar`
10A0 - 10FF	`IsGeorgian`
1100 - 11FF	`IsHangulJamo`
1200 - 137F	`IsEthiopic`
13A0 - 13FF	`IsCherokee`
1400 - 167F	`IsUnifiedCanadianAboriginalSyllabics`
1680 - 169F	`IsOgham`
16A0 - 16FF	`IsRunic`
1700 - 171F	`IsTagalog`
1720 - 173F	`IsHanunoo`
1740 - 175F	`IsBuhid`
1760 - 177F	`IsTagbanwa`
1780 - 17FF	`IsKhmer`
1800 - 18AF	`IsMongolian`
1900 - 194F	`IsLimbu`
1950 - 197F	`IsTaiLe`
19E0 - 19FF	`IsKhmerSymbols`
1D00 - 1D7F	`IsPhoneticExtensions`
1E00 - 1EFF	`IsLatinExtendedAdditional`
1F00 - 1FFF	`IsGreekExtended`
2000 - 206F	`IsGeneralPunctuation`
2070 - 209F	`IsSuperscriptsandSubscripts`
20A0 - 20CF	`IsCurrencySymbols`
20D0 - 20FF	`IsCombiningDiacriticalMarksforSymbols` ou `IsCombiningMarksforSymbols`
2100 - 214F	`IsLetterlikeSymbols`
2150 - 218F	`IsNumberForms`
2190 - 21FF	`IsArrows`
2200 - 22FF	`IsMathematicalOperators`
2300 - 23FF	`IsMiscellaneousTechnical`
2400 - 243F	`IsControlPictures`
2440 - 245F	`IsOpticalCharacterRecognition`
2460 - 24FF	`IsEnclosedAlphanumerics`
2500 - 257F	`IsBoxDrawing`
2580 - 259F	`IsBlockElements`
25A0 - 25FF	`IsGeometricShapes`
2600 - 26FF	`IsMiscellaneousSymbols`
2700 - 27BF	`IsDingbats`
27C0 - 27EF	`IsMiscellaneousMathematicalSymbols-A`
27F0 - 27FF	`IsSupplementalArrows-A`
2800 - 28FF	`IsBraillePatterns`
2900 - 297F	`IsSupplementalArrows-B`
2980 - 29FF	`IsMiscellaneousMathematicalSymbols-B`
2A00 - 2AFF	`IsSupplementalMathematicalOperators`
2B00 - 2BFF	`IsMiscellaneousSymbolsandArrows`
2E80 - 2EFF	`IsCJKRadicalsSupplement`
2F00 - 2FDF	`IsKangxiRadicals`
2FF0 - 2FFF	`IsIdeographicDescriptionCharacters`
3000 - 303F	`IsCJKSymbolsandPunctuation`
3040 - 309F	`IsHiragana`
30A0 - 30FF	`IsKatakana`
3100 - 312F	`IsBopomofo`
3130 - 318F	`IsHangulCompatibilityJamo`
3190 - 319F	`IsKanbun`
31A0 - 31BF	`IsBopomofoExtended`
31F0 - 31FF	`IsKatakanaPhoneticExtensions`
3200 - 32FF	`IsEnclosedCJKLettersandMonths`
3300 - 33FF	`IsCJKCompatibility`
3400 - 4DBF	`IsCJKUnifiedIdeographsExtensionA`
4DC0 - 4DFF	`IsYijingHexagramSymbols`
4E00 - 9FFF	`IsCJKUnifiedIdeographs`
A000 - A48F	`IsYiSyllables`
A490 - A4CF	`IsYiRadicals`
AC00 - D7AF	`IsHangulSyllables`
D800 - DB7F	`IsHighSurrogates`
DB80 - DBFF	`IsHighPrivateUseSurrogates`
DC00 - DFFF	`IsLowSurrogates`
E000 - F8FF	`IsPrivateUse` ou `IsPrivateUseArea`
F900 - FAFF	`IsCJKCompatibilityIdeographs`
FB00 - FB4F	`IsAlphabeticPresentationForms`
FB50 - FDFF	`IsArabicPresentationForms-A`
FE00 - FE0F	`IsVariationSelectors`
FE20 - FE2F	`IsCombiningHalfMarks`
FE30 - FE4F	`IsCJKCompatibilityForms`
FE50 - FE6F	`IsSmallFormVariants`
FE70 - FEFF	`IsArabicPresentationForms-B`
FF00 - FFEF	`IsHalfwidthandFullwidthForms`
FFF0 - FFFF	`IsSpecials`

Soustraction de classe de caractères : [groupe_base - [groupe_exclu]]

Une classe de caractères définit un jeu de caractères. La soustraction de classes de caractères donne un ensemble de caractères résultant de l'exclusion des caractères d'une classe de caractères par rapport à une autre.

Une expression de soustraction de classe de caractères a la forme suivante :

[ base_group-[excluded_group]]

Les crochets ([]) et le trait d'union (-) sont obligatoires. Le groupe_base est un groupe de caractères positif ou négatif. Le composant groupe_exclu est un autre groupe de caractères positif ou négatif, ou une autre expression de soustraction de classe de caractères (autrement dit, vous pouvez imbriquer des expressions de soustraction de classe de caractères).

Par exemple, supposons que vous disposiez d'un groupe de base composé de la plage de caractères « a » à « z ». Pour définir le jeu de caractères composé du groupe de base, à l'exception du caractère « m », utilisez [a-z-[m]]. Pour définir le jeu de caractères composé du groupe de base, à l'exception du jeu de caractères « d », « j » et « p », utilisez [a-z-[djp]]. Pour définir le jeu de caractères composé du groupe de base, à l'exception de la plage de caractères allant de « m » à « p », utilisez [a-z-[m-p]].

Prenons l'exemple de l'expression de soustraction de classe de caractères imbriquée, [a-z-[d-w-[m-o]]]. L'expression est évaluée à partir de la plage de caractères la plus profonde, vers l'extérieur. Tout d'abord, la plage de caractères « m » à « o » est soustraite de la plage de caractères « d » à « w », ce qui génère le jeu de caractères « d » à « l » et « p » à « w ». Ce jeu est ensuite soustrait de la plage de caractères allant de « a » à « z », ce qui produit le jeu de caractères [abcmnoxyz].

Vous pouvez utiliser n'importe quelle classe de caractères avec la soustraction de classe de caractères. Pour définir le jeu de caractères qui se compose de tous les caractères Unicode de \u0000 à \uFFFF, à l'exception des espaces (\s), les caractères de la catégorie générale de ponctuation (\p{P}), les caractères du bloc nommé IsGreek (\p{IsGreek}) et le caractère de contrôle Unicode LIGNE SUIVANTE (\x85), utilisez [\u0000-\uFFFF-[\s\p{P}\p{IsGreek}\x85]].

Choisissez des classes de caractères pour une expression de soustraction de classe de caractères qui donnent des résultats utiles. Évitez une expression qui génère un jeu de caractères vide, qui ne peut pas correspondre à quoi que ce soit, ou une expression équivalente au groupe de base d’origine. Par exemple, l'ensemble vide est le résultat de l'expression [\p{IsBasicLatin}-[\x00-\x7F]], qui retranche tous les caractères de l'intervalle IsBasicLatin de la catégorie générale IsBasicLatin. De même, le groupe de base d'origine résulte de l'expression [a-z-[0-9]]. Cela est dû au fait que le groupe de base, qui est la plage de caractères de « a » à « z », ne contient aucun caractère dans le groupe exclu, qui est la plage de caractères de chiffres décimaux de « 0 » à « 9 ».

L'exemple suivant définit une expression régulière, ^[0-9-[2468]]+$, qui correspond à zéro et aux nombres impairs d'une chaîne d'entrée. L'expression régulière est interprétée comme indiqué dans le tableau suivant.

Élément	Description
^	Commencer la correspondance au démarrage de la chaîne d'entrée.
`[0-9-[2468]]+`	Mettre en correspondance une ou plusieurs occurrences de n'importe quel caractère de 0 à 9 à l'exception de 2, 4, 6 et 8. En d'autres termes, mettre en correspondance une ou plusieurs occurrences de zéro ou d'un chiffre impair.
$	Terminer la correspondance à la fin de la chaîne d'entrée.

static void CharacterClassSubtraction()
{
    string[] inputs = { "123", "13579753", "3557798", "335599901" };
    string pattern = @"^[0-9-[2468]]+$";

    foreach (string input in inputs)
    {
        Match match = Regex.Match(input, pattern);
        if (match.Success)
            Console.WriteLine(match.Value);
    }
}
// The example displays the following output:
//       13579753
//       335599901

Sub CharacterClassSubtraction()
    Dim inputs() As String = {"123", "13579753", "3557798", "335599901"}
    Dim pattern As String = "^[0-9-[2468]]+$"

    For Each input As String In inputs
        Dim match As Match = Regex.Match(input, pattern)
        If match.Success Then Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       13579753
'       335599901

Voir aussi

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-15

Classes de caractères dans les expressions régulières

Groupe de caractères positif : [ ]

Groupe de caractères négatif : [^]

N’importe quel caractère : .

Catégorie Unicode ou bloc Unicode : \p{}

Catégorie Unicode négative ou bloc Unicode : \P{}

Caractère « Word » : \w

Caractère autre qu’un mot : \W

Espace : \s

Caractère autre qu’un espace : \S

Caractère numérique décimal : \d

Caractère autre qu’un chiffre : \D

Catégories générales Unicode prises en charge

Blocs nommés pris en charge

Soustraction de classe de caractères : [groupe_base - [groupe_exclu]]

Voir aussi

Commentaires

Ressources supplémentaires