Klasy znaków w wyrażeniach regularnych

Klasa znaków definiuje zestaw znaków, z którego każdy jeden znak może wystąpić w ciągu wejściowym, aby dopasowanie zakończyło się sukcesem. Język wyrażeń regularnych w .NET obsługuje następujące klasy znaków:

Grupy znaków pozytywnych. Znak w ciągu wejściowym musi odpowiadać jednemu ze znaków z określonego zestawu znaków. Aby uzyskać więcej informacji, zobacz Grupa znaku pozytywnego.
Grupy znaków negatywnych. Znak w ciągu wejściowym nie może odpowiadać żadnemu ze znaków z określonego zestawu znaków. Aby uzyskać więcej informacji, zobacz Grupa znaków negatywnych.
Dowolny znak. Znak . (kropka lub kropka) w wyrażeniu regularnym jest symbolem wieloznacznym, który pasuje do dowolnego znaku z wyjątkiem znaku \n. Aby uzyskać więcej informacji, zobacz Dowolny znak.
Ogólna kategoria Unicode lub blok nazwany. Aby dopasowanie zakończyło się sukcesem, znak w ciągu wejściowym musi być elementem członkowskim określonej kategorii Unicode lub musi należeć do ciągłego zakresu znaków Unicode. Aby uzyskać więcej informacji, zobacz Kategoria Unicode lub Blok Unicode.
Negatywna ogólna kategoria Unicode lub blok nazwany. Aby dopasowanie zakończyło się sukcesem, znak w ciągu wejściowym nie może być elementem członkowskim określonej kategorii Unicode, ani nie może należeć do ciągłego zakresu znaków Unicode. Aby uzyskać więcej informacji, zobacz Ujemna kategoria Unicode lub blok Unicode.
Znak słowa. Znak w ciągu wejściowym może należeć do dowolnej kategorii Unicode, która jest odpowiednia dla znaków w wyrazach. Aby uzyskać więcej informacji, zobacz znak Word.
Znak nie będący częścią wyrazu. Znak w ciągu wejściowym może należeć do dowolnej kategorii Unicode, która nie jest znakiem alfanumerycznym. Aby uzyskać więcej informacji, zobacz Non-Word Character.
Znak spacji. Znak w ciągu wejściowym może być dowolnym znakiem separatora Unicode i jednym z wielu znaków sterujących. Aby uzyskać więcej informacji, zobacz Znak Białej Spacji.
Znak niebędący odstępem. Znak w ciągu wejściowym może być dowolnym znakiem, który nie jest znakiem spacji. Aby uzyskać więcej informacji, zobacz Znak inny niż biały.
Cyfra dziesiętna. Znak w ciągu wejściowym może być dowolnym znakiem sklasyfikowanym jako cyfra dziesiętna Unicode. Aby uzyskać więcej informacji, zobacz Znak cyfry dziesiętnej.
Cyfra niebędąca cyfrą dziesiętną. Znak w ciągu wejściowym może być dowolnym znakiem innym niż cyfra dziesiętna Unicode. Aby uzyskać więcej informacji, zobacz Znak cyfry dziesiętnej.

.NET obsługuje wyrażenia odejmowania klas znaków, co umożliwia zdefiniowanie zestawu znaków w wyniku wykluczenia jednej klasy znaków z innej klasy znaków. Aby uzyskać więcej informacji, zobacz Odejmowanie klasy znaków.

Uwaga

Klasy znaków pasujące do znaków według kategorii, takie jak \w, aby dopasować znaki słowne lub \p{}, aby dopasować kategorię Unicode, polegają na klasie CharUnicodeInfo do podawania informacji o kategoriach znaków. W .NET Framework 4.6.2 i nowszych wersjach kategorie znaków są oparte na The Unicode Standard, Wersja 8.0.0.

Grupa znaków dodatnich: [ ]

Grupa znaków dodatnich określa listę znaków, z których każda może pojawić się w ciągu wejściowym, aby wystąpiło dopasowanie. Ta lista znaków może być określona indywidualnie, jako zakres lub w obu tych sposobach.

Składnia służąca do określenia listy indywidualnych znaków jest następująca:

[*character_group*]

Gdzie character_group jest listą poszczególnych znaków, które mogą pojawić się w ciągu wejściowym, aby dopasowanie powiodło się. character_group może składać się z dowolnej kombinacji co najmniej jednego znaku literowego, znaków specjalnych, lub klas znaków.

Składnia służąca do określania zakresu znaków jest następująca:

[firstCharacter-lastCharacter]

Gdzie firstCharacter jest znakiem rozpoczynającym zakres, a lastCharacter jest znakiem kończącym zakres. Zakres znaków jest ciągłą serią znaków definiowaną przez określenie pierwszego znaku w serii, łącznika (-), a następnie ostatniego znaku w serii. Dwa znaki są ciągłe, jeśli mają sąsiadujące punkty kodowe Unicode. firstCharacter musi być znakiem o niższym punkcie kodu, a lastCharacter musi być znakiem o wyższym punkcie kodu.

Uwaga

Ponieważ grupa znaków dodatnich może zawierać zarówno zestaw znaków, jak i zakres znaków, znak łącznika (-) jest zawsze interpretowany jako separator zakresu, chyba że jest to pierwszy lub ostatni znak grupy.

Aby dołączyć łącznik jako element członkowski nieperyferalny grupy znaków, należy go uniknić. Na przykład aby utworzyć grupę znaków dla znaku a i znaków z - do /, poprawna składnia to [a\--/].

W poniższej tabeli wymieniono niektóre typowe wzorce wyrażeń regularnych zawierających klasy znaków pozytywnych.

Wzorzec	opis
`[aeiou]`	Dopasuj wszystkie samogłoski.
`[\p{P}\d]`	Dopasuj wszystkie znaki interpunkcyjne i cyfry dziesiętne.
`[\s\p{P}]`	Dopasuj wszystkie białe znaki i znaki interpunkcyjne.

W poniższym przykładzie zdefiniowano grupę znaków pozytywnych, która zawiera znaki „a” i „e”, tak że ciąg wejściowy musi zawierać słowa „grey” lub „gray”, a następnie inne słowo, aby wystąpiło dopasowanie.

static void PositiveCharacterGroup()
{
    string pattern = @"gr[ae]y\s\S+?[\s\p{P}]";
    string input = "The gray wolf jumped over the grey wall.";
    MatchCollection matches = Regex.Matches(input, pattern);
    foreach (Match match in matches)
        Console.WriteLine($"'{match.Value}'");
}
// The example displays the following output:
//       'gray wolf '
//       'grey wall.'

Sub PositiveCharacterGroup()
    Dim pattern As String = "gr[ae]y\s\S+?[\s\p{P}]"
    Dim input As String = "The gray wolf jumped over the grey wall."
    Dim matches As MatchCollection = Regex.Matches(input, pattern)
    For Each match As Match In matches
        Console.WriteLine($"'{match.Value}'")
    Next
End Sub
' The example displays the following output:
'       'gray wolf '
'       'grey wall.'

Wyrażenie gr[ae]y\s\S+?[\s|\p{P}] regularne jest definiowane w następujący sposób:

Wzorzec	opis
`gr`	Dopasuj dosłowne znaki „gr”.
`[ae]`	Dopasuj „a” lub „e”.
`y\s`	Dopasuj dosłowny znak „y”, po którym następuje spacja.
`\S+?`	Dopasowuje jeden lub więcej znaków, które nie są znakami odstępu, jednak możliwie najmniej.
`[\s\p{P}]`	Dopasować znak odstępu lub znak interpunkcyjny.

W poniższym przykładzie dopasowywane są wyrazy zaczynające się od wielkiej litery. Używa wyrażenia podrzędnego [A-Z] do reprezentowania zakresu liter wielkich z A do Z.

static void CharacterRange()
{
    string pattern = @"\b[A-Z]\w*\b";
    string input = "A city Albany Zulu maritime Marseilles";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       A
//       Albany
//       Zulu
//       Marseilles

Sub CharacterRange()
    Dim pattern As String = "\b[A-Z]\w*\b"
    Dim input As String = "A city Albany Zulu maritime Marseilles"
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       A
'       Albany
'       Zulu
'       Marseilles

Wyrażenie \b[A-Z]\w*\b regularne jest definiowane, jak pokazano w poniższej tabeli.

Wzorzec	opis
`\b`	Rozpocznij na granicy wyrazu.
`[A-Z]`	Dopasowywany jest dowolny znak wielkiej litery z zakresu od A do Z.
`\w*`	Dopasowuje zero lub więcej znaków słowa.
`\b`	Dopasuj granicę wyrazu.

Grupa znaków ujemnych: [^]

Grupa znaków negatywnych określa listę znaków, z których żaden nie może wystąpić w ciągu wejściowym, aby wystąpiło dopasowanie. Listę znaków można określić indywidualnie, jako zakres lub oba.

Składnia służąca do określenia listy indywidualnych znaków jest następująca:

[*^character_group*]

Gdzie character_group jest listą poszczególnych znaków, które nie mogą pojawić się w ciągu wejściowym, aby dopasowanie powiodło się. character_group może składać się z dowolnej kombinacji co najmniej jednego znaku literowego, znaków specjalnych, lub klas znaków.

Składnia służąca do określania zakresu znaków jest następująca:

[^*firstCharacter*-*lastCharacter*]

Uwaga

Ponieważ grupa znaków ujemnych może zawierać zarówno zestaw znaków, jak i zakres znaków, znak łącznika (-) jest zawsze interpretowany jako separator zakresu, chyba że jest to pierwszy lub ostatni znak grupy.

Można połączyć dwa lub więcej zakresów znaków. Aby na przykład określić zakres cyfr dziesiętnych od "0" do "9", zakres małych liter od "a" do "f" oraz zakres wielkich liter od "A" do "F", użyj .[0-9a-fA-F]

Wiodący znak karetki (^) w grupie znaków ujemnych jest obowiązkowy i wskazuje, że grupa znaków jest grupą znaków ujemnych zamiast grupy znaków dodatnich.

Ważne

Grupa znaków ujemnych w większym wzorcu wyrażenia regularnego nie jest asercją o zerowej szerokości. Czyli po dokonaniu oceny negatywnej grupy znaków, silnik wyrażeń regularnych przesuwa się o jeden znak do przodu w ciągu wejściowym.

W poniższej tabeli wymieniono niektóre typowe wzorce wyrażeń regularnych zawierających grupy znaków negatywnych.

Wzorzec	opis
`[^aeiou]`	Dopasowuje wszystkie znaki z wyjątkiem samogłosek.
`[^\p{P}\d]`	Dopasowuje wszystkie znaki z wyjątkiem znaków interpunkcyjnych oraz znaków cyfr dziesiętnych.

Poniższy przykład pasuje do dowolnego wyrazu rozpoczynającego się od znaków "th", po których nie jest litera "o".

static void NegativeCharacterGroup()
{
    string pattern = @"\bth[^o]\w+\b";
    string input = "thought thing though them through thus thorough this";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       thing
//       them
//       through
//       thus
//       this

Sub NegativeCharacterGroup()
    Dim pattern As String = "\bth[^o]\w+\b"
    Dim input As String = "thought thing though them through thus thorough this"
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       thing
'       them
'       through
'       thus
'       this

Wyrażenie \bth[^o]\w+\b regularne jest definiowane, jak pokazano w poniższej tabeli.

Wzorzec	opis
`\b`	Rozpocznij na granicy wyrazu.
`th`	Dopasować dosłowne znaki „th”.
`[^o]`	Dopasowuje dowolny znak, który nie jest znakiem "o".
`\w+`	Dopasowuje jeden lub więcej znaków słów.
`\b`	Kończy na granicy wyrazu.

Dowolny znak: .

Znak kropki (.) pasuje do dowolnego znaku z wyjątkiem \n (znak nowego wiersza), z następującymi dwoma zastrzeżeniami:

Jeśli wzorzec wyrażenia regularnego jest modyfikowany przez opcję RegexOptions.Singleline, lub część wzorca, która zawiera klasę znaków ., jest modyfikowana przez opcję s, . dopasowuje się do dowolnego znaku. Aby uzyskać więcej informacji, zobacz Opcje wyrażeń regularnych.

Począwszy od .NET 11, jeśli określono opcję RegexOptions.AnyNewLine, . wyklucza wszystkie typowe sekwencje nowego wiersza zamiast tylko \n. Jeśli zarówno Singleline, jak i AnyNewLine są określone, Singleline ma pierwszeństwo, a . dopasowuje każdy znak. Aby uzyskać więcej informacji, zobacz Tryb AnyNewLine.

Poniższy przykład ilustruje różne zachowanie . klasy znaków domyślnie i z opcją RegexOptions.Singleline . Wyrażenie ^.+ regularne rozpoczyna się na początku ciągu i pasuje do każdego znaku. Domyślnie dopasowanie kończy się na końcu pierwszego wiersza, wzorzec wyrażenia regularnego pasuje do znaku powrotu karetki \r, ale nie pasuje do \n. RegexOptions.Singleline Ponieważ opcja interpretuje cały ciąg wejściowy jako pojedynczy wiersz, pasuje do każdego znaku w ciągu wejściowym, w tym \n.

static void AnyCharacterMultiline()
{
    string pattern = "^.+";
    string input = "This is one line and" + Environment.NewLine + "this is the second.";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(Regex.Escape(match.Value));

    Console.WriteLine();
    foreach (Match match in Regex.Matches(input, pattern, RegexOptions.Singleline))
        Console.WriteLine(Regex.Escape(match.Value));
}
// The example displays the following output:
//       This\ is\ one\ line\ and\r
//
//       This\ is\ one\ line\ and\r\nthis\ is\ the\ second\.

Sub AnyCharacterMultiline()
    Dim pattern As String = "^.+"
    Dim input As String = "This is one line and" + Environment.NewLine + "this is the second."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(Regex.Escape(match.Value))
    Next

    Console.WriteLine()
    For Each match As Match In Regex.Matches(input, pattern, RegexOptions.Singleline)
        Console.WriteLine(Regex.Escape(match.Value))
    Next
End Sub
' The example displays the following output:
'       This\ is\ one\ line\ and\r
'
'       This\ is\ one\ line\ and\r\nthis\ is\ the\ second\.

Uwaga

Domyślnie, ponieważ pasuje do dowolnego znaku z wyjątkiem \n, . klasa znaków również pasuje do \r (znak powrotu karetki). Z RegexOptions.AnyNewLine funkcja . wyklucza \r oraz inne sekwencje nowego wiersza.

W grupie znaków pozytywnych lub negatywnych kropka jest traktowana jako literalny znak kropki, a nie jako klasa znaków. Aby uzyskać więcej informacji, zobacz Pozytywna grupa znaków i Grupa negatywnych znaków wcześniej w tym artykule. Poniższy przykład przedstawia ilustrację przez zdefiniowanie wyrażenia regularnego zawierającego znak kropki (.) zarówno jako klasę znaków, jak i jako składową grupy znaków dodatnich. Regularne wyrażenie \b.*[.?!;:](\s|\z) rozpoczyna się na granicy słowa, dopasowuje dowolny znak, aż napotka jeden z pięciu znaków interpunkcyjnych, w tym kropkę, a następnie dopasowuje znak odstępu lub koniec ciągu.
```
static void AnyCharacterSingleline()
{
    string pattern = @"\b.*[.?!;:](\s|\z)";
    string input = "this. what: is? go, thing.";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       this. what: is? go, thing.
```
```
Sub AnyCharacterSingleline()
    Dim pattern As String = "\b.*[.?!;:](\s|\z)"
    Dim input As String = "this. what: is? go, thing."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       this. what: is? go, thing.
```

Uwaga

Ponieważ element języka . pasuje do dowolnego znaku, jest często używany z leniwym kwantyfikatorem, jeśli wzorzec wyrażenia regularnego próbuje dopasować dowolny znak wiele razy. Aby uzyskać więcej informacji, zobacz Kwantyfikatory.

Kategoria Unicode lub blok Unicode: \p{}

W standardzie Unicode każdemu znakowi przypisuje się kategorię ogólną. Na przykład określony znak może być wielką literą (reprezentowaną przez kategorię Lu), cyfrą dziesiętną (kategorię Nd), symbolem matematycznym (kategorię Sm) lub separatorem akapitu (kategorię Zl). Określone zestawy znaków w standardzie Unicode zajmują również określony zakres lub blok kolejnych punktów kodowych. Na przykład podstawowy zestaw znaków łacińskich można znaleźć w zakresie od \u0000 do \u007F, podczas gdy zestaw znaków arabskich znajduje się w zakresie od \u0600 do \u06FF.

Konstrukcja wyrażenia regularnego

\p{ nazwa}

Pasuje do dowolnego znaku należącego do kategorii ogólnej Unicode lub nazwanego bloku, gdzie nazwa jest skrótem kategorii lub nazwą bloku. Aby uzyskać listę skrótów kategorii, zobacz sekcję Obsługiwane kategorie ogólne Unicode w dalszej części tego artykułu. Aby uzyskać listę nazwanych bloków, zobacz sekcję Supported Named Blocks w dalszej części tego artykułu.

Wskazówka

Dopasowanie można poprawić, jeśli ciąg jest najpierw znormalizowany, wywołując metodę String.Normalize .

W poniższym przykładzie użyto \p{konstrukcji o nazwie}, aby dopasować zarówno ogólną kategorię Unicode (w tym przypadku kategorię Pd interpunkcji, Dash) oraz nazwane bloki ( IsGreek i IsBasicLatin).

static void UnicodeCategory()
{
    string pattern = @"\b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+";
    string input = "Ελληνική Γλώσσα - Greek Language";

    Console.WriteLine(Regex.IsMatch(input, pattern));        // Displays True.
}

Sub UnicodeCategory()
    Dim pattern As String = "\b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+"
    Dim input As String = "Ελληνική Γλώσσα - Greek Language"

    Console.WriteLine(Regex.IsMatch(input, pattern))        ' Displays True.
End Sub

Wyrażenie \b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+ regularne jest definiowane, jak pokazano w poniższej tabeli.

Wzorzec	opis
`\b`	Rozpocznij na granicy wyrazu.
`\p{IsGreek}+`	Dopasuj jeden lub więcej znaków greckich.
`(\s)?`	Dopasowuje zero lub jeden znak białej spacji.
`(\p{IsGreek}+(\s)?)+`	Dopasuj wzorzec składający się z jednego lub więcej znaków greckich, po których następuje zero lub jeden znak odstępu, powtarzając ten układ jeden lub więcej razy.
`\p{Pd}`	Dopasuj znak interpunkcyjny, znak łącznika.
`\s`	Dopasowuje znak odstępu.
`\p{IsBasicLatin}+`	Dopasowuje jeden lub więcej podstawowych znaków łacińskich.
`(\s)?`	Dopasowuje zero lub jeden znak białej spacji.
`(\p{IsBasicLatin}+(\s)?)+`	Dopasowuje wzorzec jednego lub większej liczby podstawowych znaków łacińskich, po których występuje zero lub jeden znak odstępu, jeden lub więcej razy.

Negatywna kategoria Unicode lub blok Unicode: \P{}

W standardzie Unicode każdemu znakowi przypisuje się kategorię ogólną. Na przykład określony znak może być wielką literą (reprezentowaną przez Lu kategorię), cyfrą dziesiętną (Nd kategorią), symbolem matematycznym (Sm kategorią) lub separatorem akapitu (Zl kategorią). Określone zestawy znaków w standardzie Unicode zajmują również określony zakres lub blok kolejnych punktów kodowych. Na przykład podstawowy zestaw znaków łacińskich można znaleźć w zakresie od \u0000 do \u007F, podczas gdy zestaw znaków arabskich znajduje się w zakresie od \u0600 do \u06FF.

Konstrukcja wyrażenia regularnego

\P{ nazwa}

Pasuje do dowolnego znaku, który nie należy do kategorii ogólnej Unicode lub nazwanego bloku, gdzie nazwa jest skrótem kategorii lub nazwanym nazwą bloku. Aby uzyskać listę skrótów kategorii, zobacz sekcję Obsługiwane kategorie ogólne Unicode w dalszej części tego artykułu. Aby uzyskać listę nazwanych bloków, zobacz sekcję Supported Named Blocks w dalszej części tego artykułu.

Wskazówka

Dopasowanie można poprawić, jeśli ciąg jest najpierw znormalizowany, wywołując metodę String.Normalize .

W poniższym przykładzie użyto \P{name} konstrukcji, aby usunąć wszelkie symbole waluty (w tym przypadku Sc, czyli kategoria Symbol, Waluta) z ciągów liczbowych.

static void NegativeUnicodeCategory()
{
    string pattern = @"(\P{Sc})+";

    string[] values = { "$164,091.78", "£1,073,142.68", "73¢", "€120" };
    foreach (string value in values)
        Console.WriteLine(Regex.Match(value, pattern).Value);
}
// The example displays the following output:
//       164,091.78
//       1,073,142.68
//       73
//       120

Sub NegativeUnicodeCategory()
    Dim pattern As String = "(\P{Sc})+"

    Dim values() As String = {"$164,091.78", "£1,073,142.68", "73¢", "€120"}
    For Each value As String In values
        Console.WriteLine(Regex.Match(value, pattern).Value)
    Next
End Sub
' The example displays the following output:
'       164,091.78
'       1,073,142.68
'       73
'       120

Wzorzec (\P{Sc})+ wyrażenia regularnego pasuje do jednego lub kilku znaków, które nie są symbolami walutowymi; skutecznie usuwa wszelkie symbole waluty z ciągu wynikowego.

znak Word: \w

\w pasuje do dowolnego znaku słowa. Znak słowa jest elementem członkowskim każdej z kategorii Unicode wymienionej w poniższej tabeli.

Kategoria	opis
Ll	Litera, mała litera
Lu	Litera, Wielkie litery
Lt	Pierwsza litera, Styl tytułowy
Lo	Litera, Inne
Lm	Litera, Modyfikator
Mn	Znacznik, Bez odstępu
Nd	Liczba, Cyfra dziesiętna
Pc	Znak interpunkcyjny, Łącznik. Ta kategoria obejmuje dziesięć znaków, z których najczęściej używany jest znak LOWLINE (_), u+005F.

Jeśli określono zachowanie zgodne ze standardem ECMAScript, \w jest równoważne .[a-zA-Z_0-9] Aby uzyskać informacje na temat wyrażeń regularnych ECMAScript, zobacz sekcję "EcMAScript Matching Behavior" w temacie Regular Expression Options (Opcje wyrażeń regularnych).

Uwaga

Ponieważ pasuje do dowolnego znaku słownego, element języka \w jest często używany z leniwym kwantyfikatorem, jeśli wzorzec wyrażenia regularnego próbuje dopasować dowolny znak słownego wiele razy, a następnie określony znak słownego. Aby uzyskać więcej informacji, zobacz Kwantyfikatory.

W poniższym przykładzie użyto \w elementu języka, aby dopasować zduplikowane znaki w słowie. W przykładzie zdefiniowano wzorzec wyrażenia regularnego , (\w)\1który można interpretować w następujący sposób.

Element	opis
(\w)	Dopasuj znak słowa. Jest to pierwsza grupa przechwytywania.
\1	Dopasuj wartość pierwszego przechwycenia.

static void WordCharacter()
{
    string pattern = @"(\w)\1";
    string[] words = { "trellis", "seer", "latter", "summer",
                       "hoarse", "lesser", "aardvark", "stunned" };
    foreach (string word in words)
    {
        Match match = Regex.Match(word, pattern);
        if (match.Success)
            Console.WriteLine($"'{match.Value}' found in '{word}' at position {match.Index}.");
        else
            Console.WriteLine($"No double characters in '{word}'.");
    }
}
// The example displays the following output:
//       'll' found in 'trellis' at position 3.
//       'ee' found in 'seer' at position 1.
//       'tt' found in 'latter' at position 2.
//       'mm' found in 'summer' at position 2.
//       No double characters in 'hoarse'.
//       'ss' found in 'lesser' at position 2.
//       'aa' found in 'aardvark' at position 0.
//       'nn' found in 'stunned' at position 3.

Sub WordCharacter()
    Dim pattern As String = "(\w)\1"
    Dim words() As String = {"trellis", "seer", "latter", "summer",
                             "hoarse", "lesser", "aardvark", "stunned"}
    For Each word As String In words
        Dim match As Match = Regex.Match(word, pattern)
        If match.Success Then
            Console.WriteLine($"'{match.Value}' found in '{word}' at position {match.Index}.")
        Else
            Console.WriteLine($"No double characters in '{word}'.")
        End If
    Next
End Sub
' The example displays the following output:
'       'll' found in 'trellis' at position 3.
'       'ee' found in 'seer' at position 1.
'       'tt' found in 'latter' at position 2.
'       'mm' found in 'summer' at position 2.
'       No double characters in 'hoarse'.
'       'ss' found in 'lesser' at position 2.
'       'aa' found in 'aardvark' at position 0.
'       'nn' found in 'stunned' at position 3.

Znak niewyrazowy: \W

\W pasuje do dowolnego znaku nie będącego częścią słowa. Element języka \W jest równoważny z następującą klasą znaków:

[^\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Lm}\p{Mn}\p{Nd}\p{Pc}]

Innymi słowy, pasuje do dowolnego znaku z wyjątkiem tych w kategoriach Unicode wymienionych w poniższej tabeli.

Kategoria	opis
Ll	Litera, mała litera
Lu	Litera, Wielkie litery
Lt	Pierwsza litera, Styl tytułowy
Lo	Litera, Inne
Lm	Litera, Modyfikator
Mn	Znacznik, Bez odstępu
Nd	Liczba, Cyfra dziesiętna
Pc	Znak interpunkcyjny, Łącznik. Ta kategoria obejmuje dziesięć znaków, z których najczęściej używany jest znak LOWLINE (_), u+005F.

Jeśli określono zachowanie zgodne ze standardem ECMAScript, \W jest równoważne .[^a-zA-Z_0-9] Aby uzyskać informacje na temat wyrażeń regularnych ECMAScript, zobacz sekcję "EcMAScript Matching Behavior" w temacie Regular Expression Options (Opcje wyrażeń regularnych).

Uwaga

Ponieważ pasuje do dowolnego znaku niebędącego częścią słowa, element języka \W jest często używany z leniwym kwantyfikatorem, jeśli wzorzec wyrażenia regularnego próbuje dopasować dowolny znak niebędący częścią słowa wiele razy z następującym po nim określonym znakiem nie będącym częścią słowa. Aby uzyskać więcej informacji, zobacz Kwantyfikatory.

Poniższy przykład ilustruje klasę \W znaków. Definiuje wzorzec wyrażenia regularnego , \b(\w+)(\W){1,2}który pasuje do wyrazu, po którym następuje jeden lub dwa znaki inne niż wyrazy, takie jak biały znak lub znak interpunkcyjny. Wyrażenie regularne jest interpretowane tak jak pokazano w poniższej tabeli.

Element	opis
\b	Rozpocznij dopasowywanie na granicy wyrazu.
(\w+)	Dopasowuje jeden lub więcej znaków słów. Jest to pierwsza grupa przechwytywania.
(\W){1,2}	Dopasuj znak nieliterowy raz lub dwa razy. Jest to druga grupa przechwytywania.

static void NonWordCharacter()
{
    string pattern = @"\b(\w+)(\W){1,2}";
    string input = "The old, grey mare slowly walked across the narrow, green pasture.";
    foreach (Match match in Regex.Matches(input, pattern))
    {
        Console.WriteLine(match.Value);
        Console.Write("   Non-word character(s):");
        CaptureCollection captures = match.Groups[2].Captures;
        for (int ctr = 0; ctr < captures.Count; ctr++)
            Console.Write(@"'{0}' (\u{1}){2}", captures[ctr].Value,
                          Convert.ToUInt16(captures[ctr].Value[0]).ToString("X4"),
                          ctr < captures.Count - 1 ? ", " : "");
        Console.WriteLine();
    }
}
// The example displays the following output:
//       The
//          Non-word character(s):' ' (\u0020)
//       old,
//          Non-word character(s):',' (\u002C), ' ' (\u0020)
//       grey
//          Non-word character(s):' ' (\u0020)
//       mare
//          Non-word character(s):' ' (\u0020)
//       slowly
//          Non-word character(s):' ' (\u0020)
//       walked
//          Non-word character(s):' ' (\u0020)
//       across
//          Non-word character(s):' ' (\u0020)
//       the
//          Non-word character(s):' ' (\u0020)
//       narrow,
//          Non-word character(s):',' (\u002C), ' ' (\u0020)
//       green
//          Non-word character(s):' ' (\u0020)
//       pasture.
//          Non-word character(s):'.' (\u002E)

Sub NonWordCharacter()
    Dim pattern As String = "\b(\w+)(\W){1,2}"
    Dim input As String = "The old, grey mare slowly walked across the narrow, green pasture."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
        Console.Write("   Non-word character(s):")
        Dim captures As CaptureCollection = match.Groups(2).Captures
        For ctr As Integer = 0 To captures.Count - 1
            Console.Write("'{0}' (\u{1}){2}", captures(ctr).Value,
                          Convert.ToUInt16(captures(ctr).Value.Chars(0)).ToString("X4"),
                          If(ctr < captures.Count - 1, ", ", ""))
        Next
        Console.WriteLine()
    Next
End Sub
' The example displays the following output:
'       The
'          Non-word character(s):' ' (\u0020)
'       old,
'          Non-word character(s):',' (\u002C), ' ' (\u0020)
'       grey
'          Non-word character(s):' ' (\u0020)
'       mare
'          Non-word character(s):' ' (\u0020)
'       slowly
'          Non-word character(s):' ' (\u0020)
'       walked
'          Non-word character(s):' ' (\u0020)
'       across
'          Non-word character(s):' ' (\u0020)
'       the
'          Non-word character(s):' ' (\u0020)
'       narrow,
'          Non-word character(s):',' (\u002C), ' ' (\u0020)
'       green
'          Non-word character(s):' ' (\u0020)
'       pasture.
'          Non-word character(s):'.' (\u002E)

Ponieważ obiekt drugiej grupy przechwytywania zawiera tylko jeden przechwycony znak, który nie jest słowem, przykład pobiera wszystkie takie znaki z obiektu Group, który jest zwracany przez właściwość CaptureCollection.

Znak odstępu: \s

\s pasuje do dowolnego znaku białej spacji. Odpowiada to sekwencjom ucieczki i kategoriom Unicode wymienionym w poniższej tabeli.

Kategoria	opis
`\f`	Znak wysuwu strony, \u000C.
`\n`	Znak nowego wiersza, \u000A.
`\r`	Znak powrotu karetki, \u000D.
`\t`	Znak tabulacji, \u0009.
`\v`	Znak tabulacji pionowej, \u000B.
`\x85`	Znak NASTĘPNY WIERSZ (NEL) - \u0085.
`\p{Z}`	Pasuje do wszystkich znaków separatora. Obejmuje `Zs`, `Zl` oraz `Zp` kategorie.

Jeśli określono zachowanie zgodne ze standardem ECMAScript, \s jest równoważne .[ \f\n\r\t\v] Aby uzyskać informacje na temat wyrażeń regularnych ECMAScript, zobacz sekcję "EcMAScript Matching Behavior" w temacie Regular Expression Options (Opcje wyrażeń regularnych).

Poniższy przykład ilustruje klasę \s znaków. Definiuje wzorzec wyrażenia regularnego, \b\w+(e)?s(\s|$), który pasuje do słowa kończącego się znakiem "s" lub "es", po którym następuje znak białej przestrzeni lub koniec ciągu wejściowego. Wyrażenie regularne jest interpretowane tak jak pokazano w poniższej tabeli.

Element	opis
\b	Rozpocznij dopasowywanie na granicy wyrazu.
\w+	Dopasowuje jeden lub więcej znaków słów.
(e)?	Dopasuj literę „e” występującą zero lub jeden raz.
s	Dopasuj znak „s”.
(\s\|$)	Dopasuj znak odstępu lub koniec ciągu wejściowego.

static void WhitespaceCharacter()
{
    string pattern = @"\b\w+(e)?s(\s|$)";
    string input = "matches stores stops leave leaves";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Value);
}
// The example displays the following output:
//       matches
//       stores
//       stops
//       leaves

Sub WhitespaceCharacter()
    Dim pattern As String = "\b\w+(e)?s(\s|$)"
    Dim input As String = "matches stores stops leave leaves"
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       matches
'       stores
'       stops
'       leaves

Znak bez odstępu: \S

\S pasuje do dowolnego znaku niebędącego białym znakiem. Jest to odpowiednik wzorca wyrażenia regularnego [^\f\n\r\t\v\x85\p{Z}] lub przeciwieństwo wzorca wyrażenia regularnego, który odpowiada wzorcowi \s, które odpowiada białym znakom. Aby uzyskać więcej informacji, zobacz Znak odstępu: \s.

Jeśli określono zachowanie zgodne ze standardem ECMAScript, \S jest równoważne .[^ \f\n\r\t\v] Aby uzyskać informacje na temat wyrażeń regularnych ECMAScript, zobacz sekcję "EcMAScript Matching Behavior" w temacie Regular Expression Options (Opcje wyrażeń regularnych).

Przykład poniżej ilustruje element języka \S. Wzorzec wyrażenia regularnego \b(\S+)\s? dopasowuje ciągi ograniczone znakami odstępu. Drugi element w obiekcie dopasowania GroupCollection zawiera dopasowany ciąg. Wyrażenie regularne może być interpretowane tak jak pokazano w poniższej tabeli.

Element	opis
`\b`	Rozpocznij dopasowywanie na granicy wyrazu.
`(\S+)`	Dopasowuje jeden lub więcej znaków, które nie są spacjami. Jest to pierwsza grupa przechwytywania.
`\s?`	Dopasowuje zero lub jeden znak białej spacji.

static void NonWhitespaceCharacter()
{
    string pattern = @"\b(\S+)\s?";
    string input = "This is the first sentence of the first paragraph. " +
                          "This is the second sentence.\n" +
                          "This is the only sentence of the second paragraph.";
    foreach (Match match in Regex.Matches(input, pattern))
        Console.WriteLine(match.Groups[1]);
}
// The example displays the following output:
//    This
//    is
//    the
//    first
//    sentence
//    of
//    the
//    first
//    paragraph.
//    This
//    is
//    the
//    second
//    sentence.
//    This
//    is
//    the
//    only
//    sentence
//    of
//    the
//    second
//    paragraph.

Sub NonWhitespaceCharacter()
    Dim pattern As String = "\b(\S+)\s?"
    Dim input As String = "This is the first sentence of the first paragraph. " +
                          "This is the second sentence." + Environment.NewLine +
                          "This is the only sentence of the second paragraph."
    For Each match As Match In Regex.Matches(input, pattern)
        Console.WriteLine(match.Groups(1))
    Next
End Sub
' The example displays the following output:
'    This
'    is
'    the
'    first
'    sentence
'    of
'    the
'    first
'    paragraph.
'    This
'    is
'    the
'    second
'    sentence.
'    This
'    is
'    the
'    only
'    sentence
'    of
'    the
'    second
'    paragraph.

Znak cyfry dziesiętnej: \d

\d pasuje do dowolnej cyfry dziesiętnej. Jest to odpowiednik wzorca wyrażenia regularnego \p{Nd} , który zawiera standardowe cyfry dziesiętne 0–9 i cyfry dziesiętne wielu innych zestawów znaków.

Jeśli określono zachowanie zgodne ze standardem ECMAScript, \d jest równoważne .[0-9] Aby uzyskać informacje na temat wyrażeń regularnych ECMAScript, zobacz sekcję "EcMAScript Matching Behavior" w temacie Regular Expression Options (Opcje wyrażeń regularnych).

Przykład poniżej ilustruje element języka \d. Sprawdza, czy ciąg wejściowy reprezentuje prawidłowy numer telefonu w Stany Zjednoczone i Kanadzie. Wzorzec ^($?\d{3}$?[\s-])?\d{3}-\d{4}$ wyrażenia regularnego jest zdefiniowany, jak pokazano w poniższej tabeli.

Element	opis
`^`	Rozpoczyna dopasowanie na początku ciągu wejściowego.
`\(?`	Dopasowuje zero lub jeden literał znakowy „(”.
`\d{3}`	Dopasuj trzy cyfry.
`\)?`	Dopasuj zero lub jeden znak „)”.
`[\s-]`	Dopasuj łącznik lub znak odstępu.
`($?\d{3}$?[\s-])?`	Dopasowuje opcjonalny nawias otwierający, po którym zero lub jeden raz następują trzy cyfry dziesiętne, opcjonalny nawias zamykający i znak odstępu lub łącznik. Jest to pierwsza grupa przechwytywania.
`\d{3}-\d{4}`	Dopasuj trzy cyfry dziesiętne, po których następuje łącznik i cztery następne cyfry dziesiętne.
`$`	Dopasuj koniec ciągu wejściowego.

static void DigitCharacter()
{
    string pattern = @"^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$";
    string[] inputs = { "111 111-1111", "222-2222", "222 333-444",
                        "(212) 111-1111", "111-AB1-1111",
                        "212-111-1111", "01 999-9999" };

    foreach (string input in inputs)
    {
        if (Regex.IsMatch(input, pattern))
            Console.WriteLine(input + ": matched");
        else
            Console.WriteLine(input + ": match failed");
    }
}
// The example displays the following output:
//       111 111-1111: matched
//       222-2222: matched
//       222 333-444: match failed
//       (212) 111-1111: matched
//       111-AB1-1111: match failed
//       212-111-1111: matched
//       01 999-9999: match failed

Sub DigitCharacter()
    Dim pattern As String = "^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$"
    Dim inputs() As String = {"111 111-1111", "222-2222", "222 333-444",
                               "(212) 111-1111", "111-AB1-1111",
                               "212-111-1111", "01 999-9999"}

    For Each input As String In inputs
        If Regex.IsMatch(input, pattern) Then
            Console.WriteLine(input + ": matched")
        Else
            Console.WriteLine(input + ": match failed")
        End If
    Next
End Sub
' The example displays the following output:
'       111 111-1111: matched
'       222-2222: matched
'       222 333-444: match failed
'       (212) 111-1111: matched
'       111-AB1-1111: match failed
'       212-111-1111: matched
'       01 999-9999: match failed

Znak niecyfrowy: \D

\D pasuje do dowolnego znaku innego niż cyfra. Jest to odpowiednik wzorca wyrażenia regularnego \P{Nd} .

Jeśli określono zachowanie zgodne ze standardem ECMAScript, \D jest równoważne .[^0-9] Aby uzyskać informacje na temat wyrażeń regularnych ECMAScript, zobacz sekcję "EcMAScript Matching Behavior" w temacie Regular Expression Options (Opcje wyrażeń regularnych).

W poniższym przykładzie pokazano element języka \D. Sprawdza, czy ciąg, taki jak numer części, zawiera odpowiednią kombinację znaków dziesiętnych oraz niebędących dziesiętnymi. Wzorzec ^\D\d{1,5}\D*$ wyrażenia regularnego jest zdefiniowany, jak pokazano w poniższej tabeli.

Element	opis
`^`	Rozpoczyna dopasowanie na początku ciągu wejściowego.
`\D`	Dopasuj znak niebędący cyfrą.
`\d{1,5}`	Dopasowuje od jednej do pięciu cyfr dziesiętnych.
`\D*`	Dopasuj zero, jeden lub więcej znaków innych niż dziesiętne.
`$`	Dopasuj koniec ciągu wejściowego.

static void NonDigitCharacter()
{
    string pattern = @"^\D\d{1,5}\D*$";
    string[] inputs = { "A1039C", "AA0001", "C18A", "Y938518" };

    foreach (string input in inputs)
    {
        if (Regex.IsMatch(input, pattern))
            Console.WriteLine(input + ": matched");
        else
            Console.WriteLine(input + ": match failed");
    }
}
// The example displays the following output:
//       A1039C: matched
//       AA0001: match failed
//       C18A: matched
//       Y938518: match failed

Sub NonDigitCharacter()
    Dim pattern As String = "^\D\d{1,5}\D*$"
    Dim inputs() As String = {"A1039C", "AA0001", "C18A", "Y938518"}

    For Each input As String In inputs
        If Regex.IsMatch(input, pattern) Then
            Console.WriteLine(input + ": matched")
        Else
            Console.WriteLine(input + ": match failed")
        End If
    Next
End Sub
' The example displays the following output:
'       A1039C: matched
'       AA0001: match failed
'       C18A: matched
'       Y938518: match failed

Obsługiwane kategorie ogólne Unicode

Standard Unicode określa ogólne kategorie wymienione w poniższej tabeli. Aby uzyskać więcej informacji, zobacz podtematy "Format pliku UCD" i "Ogólne wartości kategorii" w Bazie Danych Znaków Unicode, rozdz. 5.7.1, Tabela 12.

Kategoria	opis
`Lu`	Litera, Wielkie litery
`Ll`	Litera, mała litera
`Lt`	Pierwsza litera, Styl tytułowy
`Lm`	Litera, Modyfikator
`Lo`	Litera, Inne
`L`	Wszystkie znaki literowe. Obejmuje to znaki `Lu`, `Ll`, `Lt`, `Lm` i `Lo`.
`Mn`	Znacznik, Bez odstępu
`Mc`	Znak diakrytyczny, Kombinowanie odstępów
`Me`	Znak, Dołączenie
`M`	Wszystkie znaki łączące. Obejmuje `Mn`, `Mc` oraz `Me` kategorie.
`Nd`	Liczba, Cyfra dziesiętna
`Nl`	Liczba, Litera
`No`	Liczba, Inne
`N`	Wszystkie liczby. Obejmuje `Nd`, `Nl` oraz `No` kategorie.
`Pc`	Znak interpunkcyjny, Łącznik
`Pd`	Znak interpunkcyjny, Kreska
`Ps`	Znak interpunkcyjny, Otwarcie
`Pe`	Interpunkcja, Zamknięcie
`Pi`	Interpunkcja, cudzysłów początkowy (może zachowywać się jak Ps lub Pe w zależności od użycia)
`Pf`	Interpunkcja, końcowy cudzysłów (może zachowywać się jak Ps lub Pe w zależności od użycia)
`Po`	Znak interpunkcyjny, Inne
`P`	Wszystkie znaki interpunkcyjne. Obejmuje to kategorie `Pc`, `Pd`, `Ps`, `Pe`, `Pi`, `Pf` i `Po`.
`Sm`	Symbol, Matematyka
`Sc`	Symbol, Waluta
`Sk`	Symbol, Modyfikator
`So`	Symbol, Inne
`S`	Wszystkie symbole. Obejmuje kategorie `Sm`, `Sc`, `Sk` i `So`.
`Zs`	Separator, Spacja
`Zl`	Separator, Linia
`Zp`	Separator, Akapit
`Z`	Wszystkie znaki separatora. Obejmuje `Zs`, `Zl` oraz `Zp` kategorie.
`Cc`	Inne, Sterowanie
`Cf`	Inne, Formatowanie
`Cs`	Inne, Zastępcze
`Co`	Inne, Do użytku prywatnego
`Cn`	Inne, nieprzypisane lub nietypowe
`C`	Wszystkie inne znaki. Obejmuje `Cc`, `Cf`, `Cs`, `Co` i `Cn` kategorie.

Kategorię Unicode dowolnego określonego znaku można określić, przekazując ten znak do GetUnicodeCategory metody . W poniższym przykładzie użyto GetUnicodeCategory metody , aby określić kategorię każdego elementu w tablicy zawierającej wybrane znaki łacińskie.

static void GetUnicodeCategory()
{
    char[] chars = { 'a', 'X', '8', ',', ' ', '\u0009', '!' };

    foreach (char ch in chars)
        Console.WriteLine($"'{Regex.Escape(ch.ToString())}': {Char.GetUnicodeCategory(ch)}");
}
// The example displays the following output:
//       'a': LowercaseLetter
//       'X': UppercaseLetter
//       '8': DecimalDigitNumber
//       ',': OtherPunctuation
//       '\ ': SpaceSeparator
//       '\t': Control
//       '!': OtherPunctuation

Sub GetUnicodeCategory()
    Dim chars() As Char = {"a"c, "X"c, "8"c, ","c, " "c, ChrW(9), "!"c}

    For Each ch As Char In chars
        Console.WriteLine("'{0}': {1}", Regex.Escape(ch.ToString()),
                          Char.GetUnicodeCategory(ch))
    Next
End Sub
' The example displays the following output:
'       'a': LowercaseLetter
'       'X': UppercaseLetter
'       '8': DecimalDigitNumber
'       ',': OtherPunctuation
'       '\ ': SpaceSeparator
'       '\t': Control
'       '!': OtherPunctuation

Obsługiwane bloki nazwane

.NET zawiera nazwane bloki wymienione w poniższej tabeli. Zestaw obsługiwanych bloków nazwanych jest oparty na standardach Unicode 4.0 i Perl 5.6. Aby zapoznać się z wyrażeniem regularnym, które używa nazwanych bloków, zobacz kategorię Unicode lub blok Unicode: \p{} .

Zakres punktów kodowych	Nazwa bloku
0000–007F	`IsBasicLatin`
0080–00FF	`IsLatin-1Supplement`
0100–017F	`IsLatinExtended-A`
0180–024F	`IsLatinExtended-B`
0250–02AF	`IsIPAExtensions`
02B0–02FF	`IsSpacingModifierLetters`
0300–036F	`IsCombiningDiacriticalMarks`
0370–03FF	`IsGreek` — lub — `IsGreekandCoptic`
0400–04FF	`IsCyrillic`
0500–052F	`IsCyrillicSupplement`
0530–058F	`IsArmenian`
0590–05FF	`IsHebrew`
0600–06FF	`IsArabic`
0700–074F	`IsSyriac`
0780–07BF	`IsThaana`
0900–097F	`IsDevanagari`
0980–09FF	`IsBengali`
0A00–0A7F	`IsGurmukhi`
0A80–0AFF	`IsGujarati`
0B00–0B7F	`IsOriya`
0B80–0BFF	`IsTamil`
0C00–0C7F	`IsTelugu`
0C80–0CFF	`IsKannada`
0D00–0D7F	`IsMalayalam`
0D80–0DFF	`IsSinhala`
0E00–0E7F	`IsThai`
0E80–0EFF	`IsLao`
0F00–0FFF	`IsTibetan`
1000–109F	`IsMyanmar`
10A0–10FF	`IsGeorgian`
1100–11FF	`IsHangulJamo`
1200–137F	`IsEthiopic`
13A0–13FF	`IsCherokee`
1400–167F	`IsUnifiedCanadianAboriginalSyllabics`
1680–169F	`IsOgham`
16A0–16FF	`IsRunic`
1700–171F	`IsTagalog`
1720–173F	`IsHanunoo`
1740–175F	`IsBuhid`
1760–177F	`IsTagbanwa`
1780–17FF	`IsKhmer`
1800–18AF	`IsMongolian`
1900–194F	`IsLimbu`
1950–197F	`IsTaiLe`
19E0–19FF	`IsKhmerSymbols`
1D00–1D7F	`IsPhoneticExtensions`
1E00–1EFF	`IsLatinExtendedAdditional`
1F00–1FFF	`IsGreekExtended`
2000–206F	`IsGeneralPunctuation`
2070–209F	`IsSuperscriptsandSubscripts`
20A0–20CF	`IsCurrencySymbols`
20D0–20FF	`IsCombiningDiacriticalMarksforSymbols` — lub — `IsCombiningMarksforSymbols`
2100–214F	`IsLetterlikeSymbols`
2150–218F	`IsNumberForms`
2190–21FF	`IsArrows`
2200–22FF	`IsMathematicalOperators`
2300–23FF	`IsMiscellaneousTechnical`
2400–243F	`IsControlPictures`
2440–245F	`IsOpticalCharacterRecognition`
2460–24FF	`IsEnclosedAlphanumerics`
2500–257F	`IsBoxDrawing`
2580–259F	`IsBlockElements`
25A0–25FF	`IsGeometricShapes`
2600–26FF	`IsMiscellaneousSymbols`
2700–27BF	`IsDingbats`
27C0–27EF	`IsMiscellaneousMathematicalSymbols-A`
27F0–27FF	`IsSupplementalArrows-A`
2800–28FF	`IsBraillePatterns`
2900–297F	`IsSupplementalArrows-B`
2980–29FF	`IsMiscellaneousMathematicalSymbols-B`
2A00–2AFF	`IsSupplementalMathematicalOperators`
2B00–2BFF	`IsMiscellaneousSymbolsandArrows`
2E80–2EFF	`IsCJKRadicalsSupplement`
2F00–2FDF	`IsKangxiRadicals`
2FF0–2FFF	`IsIdeographicDescriptionCharacters`
3000–303F	`IsCJKSymbolsandPunctuation`
3040–309F	`IsHiragana`
30A0–30FF	`IsKatakana`
3100–312F	`IsBopomofo`
3130–318F	`IsHangulCompatibilityJamo`
3190–319F	`IsKanbun`
31A0–31BF	`IsBopomofoExtended`
31F0–31FF	`IsKatakanaPhoneticExtensions`
3200–32FF	`IsEnclosedCJKLettersandMonths`
3300–33FF	`IsCJKCompatibility`
3400–4DBF	`IsCJKUnifiedIdeographsExtensionA`
4DC0–4DFF	`IsYijingHexagramSymbols`
4E00–9FFF	`IsCJKUnifiedIdeographs`
A000–A48F	`IsYiSyllables`
A490–A4CF	`IsYiRadicals`
AC00–D7AF	`IsHangulSyllables`
D800–DB7F	`IsHighSurrogates`
DB80–DBFF	`IsHighPrivateUseSurrogates`
DC00–DFFF	`IsLowSurrogates`
E000–F8FF	`IsPrivateUse` lub `IsPrivateUseArea`
F900–FAFF	`IsCJKCompatibilityIdeographs`
FB00–FB4F	`IsAlphabeticPresentationForms`
FB50–FDFF	`IsArabicPresentationForms-A`
FE00–FE0F	`IsVariationSelectors`
FE20–FE2F	`IsCombiningHalfMarks`
FE30–FE4F	`IsCJKCompatibilityForms`
FE50–FE6F	`IsSmallFormVariants`
FE70–FEFF	`IsArabicPresentationForms-B`
FF00–FFEF	`IsHalfwidthandFullwidthForms`
FFF0–FFFF	`IsSpecials`

Odejmowanie klas znaków: [base_group — [excluded_group]]

Klasa znaków definiuje zestaw znaków. Wynikiem odejmowania klas znaków jest zestaw znaków będący wynikiem wykluczenia znaków jednej klasy znaków z innej klasy znaków.

Wyrażenie odejmowania klas znaków ma następującą formę:

[ grupa_bazowa-[grupa_wykluczona]]

Nawiasy kwadratowe ([]) i łącznik (-) są obowiązkowe. Base_group jest grupą znaków dodatnich lub grupą znaków ujemnych. Składnik excluded_group jest inną grupą znaków dodatnich lub ujemnych albo innym wyrażeniem odejmowania klasy znaków (czyli można zagnieżdżać wyrażenia odejmowania klasy znaków).

Na przykład załóżmy że grupa podstawowa składa się z zakresu znaków od „a” do „z”. Aby zdefiniować zestaw znaków, który składa się z grupy podstawowej z wyjątkiem znaku "m", użyj .[a-z-[m]] Aby zdefiniować zestaw znaków składających się z grupy podstawowej z wyjątkiem zestawu znaków "d", "j" i "p", użyj polecenia [a-z-[djp]]. Aby zdefiniować zestaw znaków składających się z grupy podstawowej z wyjątkiem zakresu znaków od "m" do "p", użyj polecenia [a-z-[m-p]].

Rozważ wyrażenie odejmowania klasy zagnieżdżonych znaków, [a-z-[d-w-[m-o]]]. Wyrażenie jest oceniane od najbardziej wewnętrznego zakresu znaków na zewnątrz. Najpierw zakres znaków od „m” do „o” jest odejmowany od zakresu znaków od „d” do „w”, wynikiem czego jest zestaw znaków od „d” do „l” oraz od „p” do „w”. Ten zestaw jest następnie odejmowany od zakresu znaków od "a" do "z", co daje zestaw znaków [abcmnoxyz].

Można używać dowolnych klas znaków z operacją odejmowania klas znaków. Aby zdefiniować zestaw znaków, który składa się ze wszystkich znaków Unicode od \u0000 do \uFFFF, z wyjątkiem znaków odstępu (\s), znaków w kategorii ogólnej interpunkcji (\p{P}), znaków w nazwanym bloku IsGreek (\p{IsGreek}) oraz znaku kontrolnego Unicode NEXT LINE (\x85), użyj [\u0000-\uFFFF-[\s\p{P}\p{IsGreek}\x85]].

Wybierz klasy znaków dla wyrażenia operacji odejmowania klas znaków, które dają przydatne wyniki. Unikaj wyrażenia, które zwraca pusty zestaw znaków, który nie może pasować do niczego lub wyrażenie, które jest równoważne oryginalnej grupie bazowej. Na przykład pusty zestaw jest wynikiem wyrażenia [\p{IsBasicLatin}-[\x00-\x7F]], które odejmuje wszystkie znaki z IsBasicLatin zakresu znaków z IsBasicLatin kategorii ogólnej. Podobnie oryginalna grupa bazowa jest wynikiem wyrażenia [a-z-[0-9]]. Wynika to z faktu, że grupa podstawowa, która jest zakresem znaków liter od "a" do "z", nie zawiera żadnych znaków w wykluczonej grupie, która jest zakresem znaków cyfr dziesiętnych od "0" do "9".

W poniższym przykładzie zdefiniowano wyrażenie regularne , ^[0-9-[2468]]+$które pasuje do zera i cyfr nieparzyszonych w ciągu wejściowym. Wyrażenie regularne jest interpretowane tak jak pokazano w poniższej tabeli.

Element	opis
^	Rozpocznij dopasowywanie z początku ciągu wejściowego.
`[0-9-[2468]]+`	Dopasowuje jedno lub więcej wystąpień dowolnego znaku z zakresu od 0 do 9 z wyjątkiem 2, 4, 6 i 8. Innymi słowy, dopasuj co najmniej jedno wystąpienie zera lub cyfry nieparzystej.
$	Zakończ dopasowywanie na końcu ciągu wejściowego.

static void CharacterClassSubtraction()
{
    string[] inputs = { "123", "13579753", "3557798", "335599901" };
    string pattern = @"^[0-9-[2468]]+$";

    foreach (string input in inputs)
    {
        Match match = Regex.Match(input, pattern);
        if (match.Success)
            Console.WriteLine(match.Value);
    }
}
// The example displays the following output:
//       13579753
//       335599901

Sub CharacterClassSubtraction()
    Dim inputs() As String = {"123", "13579753", "3557798", "335599901"}
    Dim pattern As String = "^[0-9-[2468]]+$"

    For Each input As String In inputs
        Dim match As Match = Regex.Match(input, pattern)
        If match.Success Then Console.WriteLine(match.Value)
    Next
End Sub
' The example displays the following output:
'       13579753
'       335599901

Zobacz też

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-31

Klasy znaków w wyrażeniach regularnych

Grupa znaków dodatnich: [ ]

Grupa znaków ujemnych: [^]

Dowolny znak: .

Kategoria Unicode lub blok Unicode: \p{}

Negatywna kategoria Unicode lub blok Unicode: \P{}

znak Word: \w

Znak niewyrazowy: \W

Znak odstępu: \s

Znak bez odstępu: \S

Znak cyfry dziesiętnej: \d

Znak niecyfrowy: \D

Obsługiwane kategorie ogólne Unicode

Obsługiwane bloki nazwane

Odejmowanie klas znaków: [base_group — [excluded_group]]

Zobacz też

Opinia

Dodatkowe zasoby