정규식 구문

버전 드롭다운 목록을 사용하여 서비스를 전환합니다. 탐색에 대해 자세히 알아봅니다.
적용 대상: ✅ Microsoft Fabric ✅ Azure Data Explorer ✅ Azure Monitor ✅ Microsoft Sentinel

이 문서에서는 KQL(Kusto 쿼리 언어)에서 지원하는 정규식 구문의 개요를 제공합니다.

정규식을 사용하여 문자열 일치, 선택 및 추출을 수행하는 여러 KQL 연산자 및 함수(예: matches regex, parse및 replace_regex())가 있습니다.

KQL에서 정규식은 문자열 리터럴로 인코딩되고 문자열 따옴표 규칙을 따라야 합니다. 예를 들어 정규식 \A 은 KQL "\\A"로 표시됩니다. 추가 백슬래시는 다른 백슬래시는 정규식 \A의 일부임을 나타냅니다.

구문

다음 섹션에서는 Kusto에서 지원하는 정규식 구문을 설명합니다.

한 문자 일치

패턴	설명
`.`	새 줄을 제외한 모든 문자(s 플래그가 있는 새 줄 포함)
`[0-9]`	모든 ASCII 숫자입니다.
`[^0-9]`	ASCII 숫자가 아닌 모든 문자입니다.
`\d`	숫자(`\p{Nd}`).
`\D`	숫자가 아닙니다.
`\pX`	한 글자 이름으로 식별되는 유니코드 문자 클래스입니다.
`\p{Greek}`	유니코드 문자 클래스(일반 범주 또는 스크립트).
`\PX`	한 글자 이름으로 식별되는 부정 유니코드 문자 클래스입니다.
`\P{Greek}`	부정 유니코드 문자 클래스(일반 범주 또는 스크립트).

문자 클래스

패턴	설명
`[xyz]`	x, y 또는 z(union)와 일치하는 문자 클래스입니다.
`[^xyz]`	x, y 및 z를 제외한 모든 문자와 일치하는 문자 클래스입니다.
`[a-z]`	범위 a-z의 모든 문자와 일치하는 문자 클래스입니다.
`[[:alpha:]]`	ASCII 문자 클래스([A-Za-z]).
`[[:^alpha:]]`	부정 ASCII 문자 클래스([^A-Za-z]).
`[x[^xyz]]`	중첩/그룹화 문자 클래스(y 및 z를 제외한 모든 문자 일치)
`[a-y&&xyz]`	교집합(x 또는 y 일치).
`[0-9&&[^4]]`	교집합 및 부정을 사용하는 빼기(0-9 일치( 4 제외)
`[0-9--4]`	직접 빼기(4를 제외한 0-9 일치).
`[a-g~~b-h]`	대칭 차이(일치 `a` 및 `h` 전용).
`[\[\]]`	문자 클래스에서 이스케이프(일치 [ 또는 ]).
`[a&&b]`	아무것도 일치하는 빈 문자 클래스입니다.

참고 항목

명명된 문자 클래스는 대괄호로 묶인 [...] 문자 클래스 내에 나타날 수 있습니다. 예를 들어 스크립트의 [\p{Greek}[:digit:]] ASCII 숫자 또는 코드포인트와 일치합니다 Greek . [\p{Greek}&&\pL] 는 그리스어 문자와 일치합니다.

문자 클래스의 우선 순위는 대부분의 바인딩에서 최소 바인딩까지입니다.

범위: [a-cd] == [[a-c]d]
합집합: [ab&&bc] == [[ab]&&[bc]]
교집합, 차이, 대칭 차이: 모두 동일한 우선 순위를 가지며 왼쪽에서 오른쪽으로 평가됩니다. 예들 들어 [\pL--\p{Greek}&&\p{Uppercase}] == [[\pL--\p{Greek}]&&\p{Uppercase}]입니다.
부정: [^a-z&&b] == [^[a-z&&b]].

Composites

패턴	설명
`xy`	연결(`x` 뒤에)이 잇습니다 `y`.
`x\\|y`	번갈아(`x` 또는 `y` 선호 `x`)

반복

패턴	설명
`x*`	x 0개 이상(욕심)
`x+`	하나 이상의 x(욕심)
`x?`	x(greedy) 중 0개 또는 1개
`x*?`	x 0개 이상(ungreedy/lazy)
`x+?`	하나 이상의 x(ungreedy/lazy)
`x??`	x(ungreedy/lazy) 중 하나 또는 0개
`x{n,m}`	n x 이상 및 최대 m x(greedy)
`x{n,}`	N x 이상(greedy)
`x{n}`	정확히 n x
`x{n,m}?`	n x 이상 및 최대 m x(ungreedy/lazy)
`x{n,}?`	n개 이상(ungreedy/lazy)
`x{n}?`	정확히 n x

빈 일치 항목

패턴	설명
`^`	여러 줄 모드를 사용하는 건초 스택 또는 줄 시작의 시작입니다.
`$`	여러 줄 모드가 있는 건초 스택 또는 줄 끝의 끝입니다.
`\A`	여러 줄 모드가 설정된 경우에도 건초 스택의 시작 부분만 가능합니다.
`\z`	여러 줄 모드가 설정된 경우에도 건초 스택의 끝만 가능합니다.
`\b`	한쪽 및 `\w\W`, 또는 `\A` 다른 쪽의 유니코드 단어 경계 `\z` 입니다.
`\B`	유니코드 단어 경계가 아닙니다.
`\b{start}`, `\<`	문자열의 시작 부분과 `\W\\|\A\w` 다른 쪽의 유니코드 단어 시작 경계입니다.
`\b{end}`, `\>`	한쪽과 `\w` 끝에 있는 유니코드 단어 끝 경계 `\W\\|\z` 입니다.
`\b{start-half}`	경계의 시작 부분에 있는 유니코드 단어 시작 경계 `\W\\|\A` 의 절반입니다.
`\b{end-half}`	끝에 있는 유니코드 단어 끝 경계 `\W\\|\z` 의 절반입니다.

그룹화 및 플래그

패턴	설명
`(exp)`	번호가 매겨진 캡처 그룹(괄호를 열어 인덱싱됨)
`(?P<name>exp)`	명명된 캡처 그룹(이름은 알파 숫자여야 합니다).
`(?<name>exp)`	명명된 캡처 그룹(이름은 알파 숫자여야 합니다).
`(?:exp)`	비 캡처링 그룹입니다.
`(?flags)`	현재 그룹 내에서 플래그를 설정합니다.
`(?flags:exp)`	exp(비 캡처)에 대한 플래그를 설정합니다.

캡처 그룹 이름에는 알파 숫자 유니코드 코드포인트, 점, 밑줄 .및 대괄호 및 _대괄호만 포함될 수 있습니다[.] 이름은 사전순 코드포인트 또는 영문자 코드포인트로 _ 시작해야 합니다. 알파벳 코드포인트는 유니코드 속성에 Alphabetic 해당하지만 숫자 코드포인트는 및 Decimal_NumberLetter_Number 일반 범주의 합합에 Other_Number해당합니다.

플래그는 단일 문자입니다. 예를 들어 (?x) 플래그를 설정하고 플래그 x(?-x)x를 지웁니다. 여러 플래그를 동시에 (?xy) 설정하거나 지울 수 있습니다. 플래그와 xy 플래그를 (?x-y) 모두 설정하고 플래그를 x 설정하고 플래그를 y 지웁니다. 달리 명시되지 않는 한 기본적으로 모든 플래그는 사용하지 않도록 설정됩니다. 화면은 다음과 같습니다.

Flag	설명
`i`	대/소문자를 구분하지 않습니다. 문자는 대문자와 소문자를 모두 일치합니다.
`m`	여러 줄 모드: `^` 그리고 `$` 줄의 시작/끝을 일치합니다.
`s`	점(.)을 허용합니다. 를 클릭하여 을 선택합니다 `\n`.
`R`	CRLF 모드 사용: 여러 줄 모드를 사용하는 `\r\n` 경우 사용됩니다.
`U`	의 의미 `x` 와 `x?`.
`u`	유니코드 지원(기본적으로 사용).
`x`	자세한 정보 표시 모드는 공백을 무시하고 줄 주석(시작)을 `#`허용합니다.

자세한 정보 표시 모드에서는 문자 클래스를 포함하여 모든 위치에서 공백이 무시됩니다. 공백을 삽입하려면 이스케이프된 폼 또는 16진수 리터럴을 사용합니다. 예를 들어 ASCII \ 공간의 \x20 경우입니다.

참고 항목

패턴 내에서 플래그를 전환할 수 있습니다. 예를 들어 다음 구문은 첫 번째 부분에 대/소문자를 구분하지 않는 일치를 사용하고 두 번째 부분에 (?i)a+(?-i)b+는 대/소문자를 구분하는 일치를 사용합니다.
a+ a 은 일치하거나 A일치하지만 유일한 일치 항목은 b+ 일치b합니다.
여러 줄 모드는 입력의 시작 또는 끝뿐만 아니라 줄의 시작 또는 끝에서도 더 이상 일치하지 않음을 의미 ^$ 합니다. ^ 입력이 끝날 때도 새 줄 뒤와 일치합니다.
CRLF 모드와 여러 줄 모드를 모두 사용하도록 설정한 경우 ^ 중 하나 $ 와 \r\n일치하지만 중간에는 일치하지 않습니다\r\n.
결과가 잘못된 UTF-8과 일치하지 않는 경우에만 유니코드 모드를 선택적으로 사용하지 않도록 설정할 수 있습니다. 예를 들어 유니코드 단어 경계 대신 ASCII 단어 경계를 사용하면 일치하는 일부 정규식 검색이 더 빠르게 (?-u:\b).+(?-u:\b) 실행될 $$abc$$수 있습니다.

이스케이프 시퀀스

패턴	설명
`\*`	리터럴 `*`은 다음을 제외한 모든 ASCII에 적용됩니다. `[0-9A-Za-z<>]`
`\a`	벨(`\x07`)
`\f`	양식 피드(`\x0C`)
`\t`	가로 탭
`\n`	줄 바꿈
`\r`	캐리지 리턴
`\v`	세로 탭(`\x0B`)
`\A`	건초 더미의 시작 부분에서 일치
`\z`	건초 더미의 끝에서 일치
`\b`	Word 경계 어설션
`\B`	부정 단어 경계 어설션
`\b{start}`, `\<`	단어 시작 경계 어설션
`\b{end}`, `\>`	단어 끝 경계 어설션
`\b{start-half}`	단어 시작 경계 어설션의 절반
`\b{end-half}`	단어 끝 경계 어설션의 절반
`\123`	8진수 코드( 최대 3자리 숫자)
`\x7F`	16진수 문자 코드(정확히 두 자리 수)
`\x{10FFFF}`	유니코드 코드 포인트에 해당하는 16진수 문자 코드
`\u007F`	16진수 문자 코드(정확히 4자리 숫자)
`\u{7F}`	유니코드 코드 포인트에 해당하는 16진수 문자 코드
`\U0000007F`	16진수 문자 코드(정확히 8자리 숫자)
`\U{7F}`	유니코드 코드 포인트에 해당하는 16진수 문자 코드
`\p{Letter}`	유니코드 문자 클래스
`\P{Letter}`	부정 유니코드 문자 클래스
`\d`, , `\s\w`	Perl 문자 클래스
`\D`, , `\S\W`	부정된 Perl 문자 클래스

Perl 문자 클래스(유니코드 친화적)

이러한 클래스는 UTS#18에 제공된 정의를 기반으로 합니다.

패턴	설명
`\d`	Ddigit(`\p{Nd}`)
`\D`	숫자가 아님
`\s`	공백(`\p{White_Space}`)
`\S`	공백이 아님
`\w`	Word 문자(`\p{Alphabetic}` + `\p{M}` + `\d` + `\p{Pc}` + `\p{Join_Control}`)
`\W`	단어 문자 아님

ASCII 문자 클래스

이러한 클래스는 UTS#18에 제공된 정의를 기반으로 합니다.

패턴	설명
`[[:alnum:]]`	영숫자(`[0-9A-Za-z]`)
`[[:alpha:]]`	사전순(`[A-Za-z]`)
`[[:ascii:]]`	ASCII(`[\x00-\x7F]`)
`[[:blank:]]`	비어 있음(`[\t ]`)
`[[:cntrl:]]`	컨트롤(`[\x00-\x1F\x7F]`)
`[[:digit:]]`	숫자(`[0-9]`)
`[[:graph:]]`	그래픽(`[!-~]`)
`[[:lower:]]`	소문자(`[a-z]`)
`[[:print:]]`	인쇄 가능(`[ -~]`)
`[[:punct:]]`	문장 부호([!-/:-@\[-`{-~])
`[[:space:]]`	공백(`[\t\n\v\f\r ]`)
`[[:upper:]]`	대문자(`[A-Z]`)
`[[:word:]]`	Word 문자(`[0-9A-Za-z_]`)
`[[:xdigit:]]`	16진수(`[0-9A-Fa-f]`)

성능

이 섹션에서는 regex 식의 속도 및 리소스 사용에 대한 몇 가지 지침을 제공합니다.

유니코드는 메모리 사용량 및 검색 속도에 영향을 줄 수 있습니다.

KQL regex는 유니코드에 대한 첫 번째 클래스 지원을 제공합니다. 대부분의 경우 유니코드를 지원하는 데 필요한 추가 메모리는 무시할 수 있으며 일반적으로 검색 속도에 영향을 주지 않습니다.

다음은 메모리 사용량 및 검색 속도에 영향을 줄 수 있는 유니코드 문자 클래스의 몇 가지 예입니다.

메모리 사용: 유니코드의 효과는 주로 유니코드 문자 클래스를 사용하여 발생합니다. 유니코드 문자 클래스의 크기는 더 큰 경향이 있습니다. 예를 들어 문자 클래스는 \w 기본적으로 약 140,000개의 고유 코드포인트와 일치합니다. 이렇게 하려면 더 많은 메모리가 필요하며 정규식 컴파일 속도가 느려질 수 있습니다. ASCII가 요구 사항을 충족하는 경우 유니코드 클래스 대신 ASCII 클래스를 사용합니다. ASCII 전용 버전은 \w 여러 가지 방법으로 표현할 수 있으며 모두 동일합니다.
```
[0-9A-Za-z_]
(?-u:\w)
[[:word:]]
[\w&&\p{ascii}]
```
검색 속도: 유니코드는 큰 유니코드 문자 클래스를 사용하는 경우에도 잘 처리되는 경향이 있습니다. 그러나 더 빠른 내부 정규식 엔진 중 일부는 유니코드 인식 단어 경계 어설션을 처리할 수 없습니다. 따라서 유니코드 인식 단어 경계 어설션이 필요하지 않은 경우 대신 사용하는 (?-u:\b)\b것이 좋습니다. 단어 (?-u:\b) 문자의 ASCII 전용 정의를 사용하여 검색 속도를 향상시킬 수 있습니다.

리터럴은 검색을 가속화할 수 있습니다.

KQL regex에는 regex 패턴 내에서 리터럴을 인식하는 강력한 기능이 있어 검색 속도를 크게 높일 수 있습니다. 가능하면 패턴에 리터럴을 포함하면 검색 성능이 크게 향상될 수 있습니다. 예를 들어 regex \w+@\w+에서 첫 번째 항목 @ 이 일치한 다음, 시작 위치를 찾기 위해 \w+ 역방향 일치가 수행됩니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-02-05