正規表現について

簡単な説明

PowerShell の正規表現について説明します。

長い説明

手記

この記事では、PowerShell で正規表現を使用するための構文とメソッドについて説明します。考えられるすべての式を網羅しているわけではありません。詳細なリファレンスについては、「正規表現言語 - クイックリファレンス」を参照してください。

正規表現は、テキストの照合に使用されるパターンです。リテラル文字、演算子、およびその他のコンストラクトで構成できます。 PowerShell では、.NET 正規表現エンジンが使用されます。

この記事では、PowerShell の正規表現の構文について説明します。 PowerShell には、正規表現を使用するいくつかの演算子とコマンドレットがあります。構文と使用法の詳細については、以下のリンクを参照してください。

PowerShell 正規表現では、既定では大文字と小文字が区別されません。上記の各方法では、大文字と小文字の区別方法が異なります。

Select-Stringの場合は、CaseSensitive パラメーターを使用します。
正規表現を使用する演算子の場合は、大文字と小文字が区別されるバージョン (-cmatch、-creplace、または -csplit) を使用します。
switch ステートメントでは、-CaseSensitive オプションを使用します

文字リテラル

正規表現には、リテラル文字または文字列を指定できます。この式により、エンジンは指定されたテキストと正確に一致します。

# This statement returns true because book contains the string "oo"
'book' -match 'oo'

文字クラス

文字リテラルは正確なパターンがわかっている場合に機能しますが、文字クラスを使用すると、あまり具体的ではありません。

文字グループ

[character group] では、任意の数の文字を一度に一致させることができますが、[^character group] はグループ内にない文字にのみ一致します。

# This expression returns true if the pattern matches big, bog, or bug.
'big' -match 'b[iou]g'

一致する文字のリストにハイフン文字 (-) が含まれている場合、文字範囲式と区別するには、リストの先頭または末尾にある必要があります。

文字範囲

パターンに文字の範囲を指定することもできます。文字には、英字 [A-Z]、数値 [0-9]、または ASCII ベースの [ -~] (印刷可能なすべての文字) を指定できます。

# This expression returns true if the pattern matches any 2 digit number.
42 -match '[0-9][0-9]'

数字

\d文字クラスは、任意の 10 進数字と一致します。逆に、\D は 10 進数以外の任意の文字と一致します。

# This expression returns true if it matches a server name.
# (Server-01 - Server-99).
'Server-01' -match 'Server-\d\d'

単語文字

\w 文字クラスは、任意の単語文字 [a-zA-Z_0-9]と一致します。単語以外の文字と一致させるには、\W を使用します。

# This expression returns true.
# The pattern matches the first word character 'B'.
'Book' -match '\w'

ワイルドカード

ピリオド (.) は正規表現のワイルドカード文字です。改行 (\n) を除く任意の文字と一致します。

# This expression returns true.
# The pattern matches any 4 characters except the newline.
'a1\ ' -match '....'

空白

任意の空白文字を \s 文字クラスと照合できます。空白以外の任意の文字を \Sと一致させることができます。リテラルスペース文字をと一致させることができます。

# This expression returns true.
# The pattern uses the whitespace character class to match the leading
# space and a literal space to matching the trailing space.
' - ' -match '\s- '

量指定子

量指定子は、入力文字列に存在する各要素のインスタンスの数を制御します。

PowerShell で使用できる量指定子の一部を次に示します。

Quantifier	説明
`*`	ゼロ回以上。
`+`	1 回以上。
`?`	ゼロ回または 1 回。
`{n,m}`	`n` 回以上、`m` 回以下。

アスタリスク (*) は、前の要素に 0 回以上一致します。結果として、要素のない入力文字列でも一致することになります。

# This returns true for all account name strings even if the name is absent.
'ACCOUNT NAME:    Administrator' -match 'ACCOUNT NAME:\s*\w*'

プラス記号 (+) は、前の要素と 1 回以上一致します。

# This returns true if it matches any server name.
'DC-01' -match '[A-Z]+-\d\d'

疑問符 ? は、前の要素と0回または1回一致します。アスタリスク *と同様に、要素が存在しない文字列にも一致します。

# This returns true for any server name, even server names without dashes.
'SERVER01' -match '[A-Z]+-?\d\d'

{n, m} 量指定子は、量指定子をきめ細かく制御するために、いくつかの異なる方法で使用できます。 2 番目の要素 m とコンマ , は省略可能です。

Quantifier	説明
`{n}`	ちょうど `n` 回一致します。
`{n,}`	`n` 回以上一致します。
`{n,m}`	`n` 回から `m` 回の範囲で一致します。

# This returns true if it matches any phone number.
'111-222-3333' -match '\d{3}-\d{3}-\d{4}'

アンカー

アンカーを使用すると、入力文字列内の一致位置に基づいて、一致を成功または失敗させることができます。

一般的に使用される 2 つのアンカーは、^ と $です。キャレット ^ は文字列の先頭と一致し、$は文字列の末尾に一致します。アンカーを使用すると、特定の位置でテキストを照合しながら、不要な文字も破棄できます。

# The pattern expects the string 'fish' to be the only thing on the line.
# This returns FALSE.
'fishing' -match '^fish$'

手記

アンカー ($) を含む正規表現を定義するときは、正規表現を一重引用符 (') で囲む必要があります。二重引用符 (") を使用する場合、PowerShell は文字列を展開可能な変数式として解釈します。

PowerShell でアンカーを使用する場合は、単一行と複数行 正規表現オプション の違いを理解する必要があります。

複数行: 複数行モードでは、入力文字列の先頭と末尾ではなく、すべての LINE の先頭と末尾に一致するように ^ と $ が強制されます。
シングルライン: シングルラインモードでは、入力文字列が SingleLineとして扱われます。 . 文字を、改行 \n を除くすべての文字に一致させるのではなく、すべての文字 (改行を含む) に強制的に一致させます。

これらのオプションとその使用方法の詳細については、「正規表現言語 - クイックリファレンス」を参照してください。

エスケープ文字

バックスラッシュ (\) は、正規表現エンジンによって解析されないように文字をエスケープするために使用されます。

次の文字が予約されています: [().\^$|?*+{.

入力文字列内で一致させるには、パターン内でこれらの文字をエスケープする必要があります。

# This returns true and matches numbers with at least 2 digits of precision.
# The decimal point is escaped using the backslash.
'3.141' -match '3\.\d{2,}'

正規表現クラスにはテキストをエスケープするための静的メソッドがあります。

[regex]::Escape('3.\d{2,}')

3\.\\d\{2,}

手記

これにより、文字クラスで使用されている既存のバックスラッシュを含め、すべての予約済みの正規表現文字がエスケープされます。必ず、エスケープする必要があるパターンの部分でのみ使用してください。

その他の文字エスケープ

特殊文字の種類に対応するために使用できる予約文字エスケープシーケンスもあります。

一般的に使用される文字エスケープをいくつか次に示します。

文字エスケープ	説明
`\t`	タブと一致します
`\n`	改行文字に一致
`\r`	キャリッジリターンに一致

グループ、キャプチャ、置換

グループ化コンストラクトは、キャプチャまたは無視できる部分文字列に入力文字列を分離します。グループ化された部分文字列は、部分式と呼ばれます。既定では、部分式は番号付きグループにキャプチャされますが、名前を割り当てることもできます。

グループ化コンストラクトは、かっこで囲まれた正規表現です。囲まれた正規表現で一致するテキストがキャプチャされます。次の例では、入力テキストを 2 つのキャプチャグループに分割します。

'The last logged on user was CONTOSO\jsmith' -match '(.+was )(.+)'

True

キャプチャされたテキストを取得するには、$MatchesHashtable 自動変数を使用します。一致全体を表すテキストは、キー 0に格納されます。 $Matches ハッシュテーブルには、一致するパターンの最初の出現のみが含まれていることに注意してください。

$Matches.0

The last logged on user was CONTOSO\jsmith

キャプチャは、左から右に増加する数値整数キーに格納されます。キャプチャ 1 には、ユーザー名まですべてのテキストが含まれます。キャプチャ 2 にはユーザー名だけが含まれます。

$Matches

Name           Value
----           -----
2              CONTOSO\jsmith
1              The last logged on user was
0              The last logged on user was CONTOSO\jsmith

重要

0 キーは、整数です。格納されている値にアクセスするには、任意の Hashtable メソッドを使用できます。

PS> 'Good Dog' -match 'Dog'
True

PS> $Matches[0]
Dog

PS> $Matches.Item(0)
Dog

PS> $Matches.0
Dog

名前付きキャプチャ

既定では、キャプチャは左から右の昇順で格納されます。キャプチャグループに名を割り当てることもできます。この名は、$MatchesHashtable 自動変数のキーになります。

キャプチャグループ内で、?<keyname> を使用して、キャプチャされたデータを名前付きキーの下に格納します。

PS> $string = 'The last logged on user was CONTOSO\jsmith'
PS> $string -match 'was (?<domain>.+)\\(?<user>.+)'
True

PS> $Matches

Name                           Value
----                           -----
domain                         CONTOSO
user                           jsmith
0                              was CONTOSO\jsmith

PS> $Matches.domain
CONTOSO

PS> $Matches.user
jsmith

次の例では、最新のログエントリを Windows セキュリティログに格納します。指定された正規表現は、メッセージからユーザー名とドメインを抽出し、キーの下に格納します。名前にはN、ドメインの場合は D。

$log = (Get-WinEvent -LogName Security -MaxEvents 1).Message
$r = '(?s).*Account Name:\s*(?<N>.*).*Account Domain:\s*(?<D>[A-Z,0-9]*)'
$log -match $r

True

$Matches

Name                           Value
----                           -----
D                              CONTOSO
N                              jsmith
0                              A process has exited...

詳細については、「正規表現のグループ化コンストラクト」を参照してください。

正規表現での置換

-replace 演算子で正規表現 (regex) を使用すると、キャプチャされたテキストを使用してテキストを動的に置き換えることができます。

<input> -replace <original>, <substitute>

<input>: 検索する文字列
<original>: 入力文字列を検索するために使用される正規表現
<substitute>: 入力文字列内の一致を置き換える正規表現置換式。

<original> および <substitute> オペランドは、文字エスケープ式や置換式などの正規表現エンジンの規則の対象となります。置換パターンは、1 つ以上の置換とリテラル文字で構成できます。

キャプチャグループは、グループ識別子の前の <substitute> 文字を使用して、$ 文字列で参照できます。

キャプチャグループを参照する 2 つの方法は、番号と名前です。

番号 - キャプチャグループには、左から右に番号が付けられます。

'John D. Smith' -replace '(\w+) (\w+)\. (\w+)', '$1.$2.$3@contoso.com'

John.D.Smith@contoso.com

名前 - キャプチャグループは、名前でも参照できます。

'CONTOSO\Administrator' -replace '\w+\\(?<user>\w+)', 'FABRIKAM\${user}'

FABRIKAM\Administrator

$& 式は、一致したすべてのテキストを表します。

'Gobble' -replace 'Gobble', '$& $&'

Gobble Gobble

警告

$ 文字は文字列展開で使用されるため、置換でリテラル文字列を使用するか、二重引用符を使用する場合は $ 文字をエスケープする必要があります。

'Hello World' -replace '(\w+) \w+', '$1 Universe'
"Hello World" -replace "(\w+) \w+", "`$1 Universe"

Hello Universe
Hello Universe

さらに、$ をリテラル文字として使用する場合は、通常のエスケープ文字の代わりに $$ を使用します。二重引用符を使用する場合でも、誤った置換を回避するために、$ のすべてのインスタンスをエスケープします。

'5.72' -replace '(.+)', '$$$1'
"5.72" -replace "(.+)", "`$`$`$1"

$5.72
$5.72

置換式の詳細については、「正規表現の置換」を参照してください。

正規表現のコメント

正規表現は非常に複雑で読みにくい場合があります。コメントを使用して、理解しやすくすることができます。正規表現では、2 種類のコメントを使用できます。

インラインコメント ((?#))
行末コメント (#)

詳細については、「about_Commentsの正規表現コメント」セクションを参照してください。

こちらも参照ください

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-02-04