autocluster 플러그 인

autocluster 는 데이터에서 불연속 특성(차원)의 일반적인 패턴을 찾습니다. 그런 다음 100개 또는 100,000개 행에 관계없이 원래 쿼리의 결과를 몇 가지 패턴으로 줄입니다. 플러그 인은 오류(예: 예외 또는 크래시)를 분석하는 데 도움이 되도록 개발되었지만 필터링된 데이터 세트에서 잠재적으로 작동할 수 있습니다. 플러그 인은 연산자를 사용하여 호출됩니다 evaluate .

참고

autocluster 는 주로 다음 문서의 Seed-Expand 알고리즘을 기반으로 합니다. 불연속 특성을 사용하는 원격 분석 데이터 마이닝 알고리즘입니다.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

구문 규칙에 대해 자세히 알아보세요.

매개 변수

매개 변수는 구문에 지정된 대로 순서를 지정해야 합니다. 기본값을 사용해야 함을 나타내려면 문자열 타일드 값 ~을 입력합니다. 자세한 내용은 예제를 참조하세요.

Name 형식 필수 설명
T string ✔️ 입력 테이블 형식 식입니다.
SizeWeight double 제네릭(높은 범위)과 정보(많은 공유) 값 간의 균형을 제어하는 0에서 1 사이의 이중입니다. 이 값을 늘리면 일반적으로 적용 범위를 확장하는 동안 패턴의 양이 줄어듭니다. 반대로 이 값을 줄이면 공유 값 증가와 더 작은 백분율 적용 범위가 특징인 보다 구체적인 패턴이 생성됩니다. 기본값은 0.5입니다. 수식은 가중치 및 1-SizeWeight가 있는 가중치 기하 평균입니다SizeWeight.
WeightColumn string 지정된 가중치에 따라 입력의 각 행을 고려합니다. 각 행의 기본 가중치는 입니다 1. 인수는 숫자 정수 열의 이름이어야 합니다. 가중치 열의 일반적인 사용법은 각 행에 이미 포함된 데이터의 샘플링 또는 버킷팅 또는 집계를 고려한 것입니다.
NumSeeds int 초기 로컬 검색 지점 수를 결정합니다. 시드 수를 조정하면 데이터 구조에 따라 결과 수량 또는 품질에 영향을 줍니다. 시드를 늘리면 결과가 향상되지만 쿼리 절충이 느려질 수 있습니다. 5개 미만을 줄이면 무시할 수 있는 개선이 발생하지만 50을 초과하면 더 많은 패턴이 생성되는 경우가 거의 없습니다. 기본값은 25입니다.
CustomWildcard string 결과 테이블의 특정 형식에 대한 와일드카드 값을 설정하는 형식 리터럴로, 이 열에 대한 제한이 없음을 나타냅니다. 기본값은 빈 문자열을 나타내는 입니다 null. 기본값이 데이터에 좋은 값이면 와 같은 *다른 와일드카드 값을 사용해야 합니다. 여러 사용자 지정 와일드카드를 연속해서 추가하여 포함할 수 있습니다.

반환

플러그 인은 autocluster 일반적으로 작은 패턴 집합을 반환합니다. 패턴은 여러 불연속 특성에서 공유 공통 값을 사용하여 데이터의 일부를 캡처합니다. 결과의 각 패턴은 행으로 표시됩니다.

첫 번째 열은 세그먼트 ID입니다. 다음 두 열은 패턴에 의해 캡처되는 원래 쿼리 중에서 행의 개수 및 백분율입니다. 나머지 열은 원래 쿼리에서 가져옵니다. 해당 값은 열의 특정 값이거나 변수 값을 의미하는 와일드카드 값(기본적으로 null)입니다.

패턴은 고유하지 않고 겹칠 수 있으며 일반적으로 원래 행을 모두 포함하지는 않습니다. 일부 행은 어떤 패턴에도 속하지 않을 수 있습니다.

입력 파이프에서 whereproject 를 사용하여 관심 있는 데이터로만 데이터를 줄입니다.

관심 있는 행을 찾으면 where 필터에 특정 값을 추가하여 추가로 드릴인투할 수 있습니다.

예제

평가 사용

T | evaluate autocluster()

자동 클러스터 사용

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

출력

SegmentId 개수 백분율 시스템 상태 EventType 피해
0 2278 38.7 우박 아니요
1 512 8.7 뇌우를 동반한 바람 YES
2 898 15.3 텍사스

사용자 지정 와일드카드 사용

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

출력

SegmentId 개수 백분율 시스템 상태 EventType 피해
0 2278 38.7 * 우박 아니요
1 512 8.7 * 뇌우를 동반한 바람 YES
2 898 15.3 텍사스 * *