autocluster 플러그 인
autocluster
는 데이터에서 불연속 특성(차원)의 일반적인 패턴을 찾습니다. 그런 다음 100개 또는 100,000개 행에 관계없이 원래 쿼리의 결과를 몇 가지 패턴으로 줄입니다. 플러그 인은 오류(예: 예외 또는 크래시)를 분석하는 데 도움이 되도록 개발되었지만 필터링된 데이터 세트에서 잠재적으로 작동할 수 있습니다. 플러그 인은 연산자를 사용하여 호출됩니다 evaluate
.
참고
autocluster
는 주로 다음 문서의 Seed-Expand 알고리즘을 기반으로 합니다. 불연속 특성을 사용하는 원격 분석 데이터 마이닝 알고리즘입니다.
Syntax
T|
evaluate
autocluster
(
[SizeWeight [,
WeightColumn [,
NumSeeds [,
CustomWildcard [,
... ]]]]])
구문 규칙에 대해 자세히 알아보세요.
매개 변수
매개 변수는 구문에 지정된 대로 순서를 지정해야 합니다. 기본값을 사용해야 함을 나타내려면 문자열 타일드 값 ~
을 입력합니다. 자세한 내용은 예제를 참조하세요.
Name | 형식 | 필수 | 설명 |
---|---|---|---|
T | string |
✔️ | 입력 테이블 형식 식입니다. |
SizeWeight | double | 제네릭(높은 범위)과 정보(많은 공유) 값 간의 균형을 제어하는 0에서 1 사이의 이중입니다. 이 값을 늘리면 일반적으로 적용 범위를 확장하는 동안 패턴의 양이 줄어듭니다. 반대로 이 값을 줄이면 공유 값 증가와 더 작은 백분율 적용 범위가 특징인 보다 구체적인 패턴이 생성됩니다. 기본값은 0.5 입니다. 수식은 가중치 및 1-SizeWeight 가 있는 가중치 기하 평균입니다SizeWeight . |
|
WeightColumn | string |
지정된 가중치에 따라 입력의 각 행을 고려합니다. 각 행의 기본 가중치는 입니다 1 . 인수는 숫자 정수 열의 이름이어야 합니다. 가중치 열의 일반적인 사용법은 각 행에 이미 포함된 데이터의 샘플링 또는 버킷팅 또는 집계를 고려한 것입니다. |
|
NumSeeds | int |
초기 로컬 검색 지점 수를 결정합니다. 시드 수를 조정하면 데이터 구조에 따라 결과 수량 또는 품질에 영향을 줍니다. 시드를 늘리면 결과가 향상되지만 쿼리 절충이 느려질 수 있습니다. 5개 미만을 줄이면 무시할 수 있는 개선이 발생하지만 50을 초과하면 더 많은 패턴이 생성되는 경우가 거의 없습니다. 기본값은 25 입니다. |
|
CustomWildcard | string |
결과 테이블의 특정 형식에 대한 와일드카드 값을 설정하는 형식 리터럴로, 이 열에 대한 제한이 없음을 나타냅니다. 기본값은 빈 문자열을 나타내는 입니다 null . 기본값이 데이터에 좋은 값이면 와 같은 * 다른 와일드카드 값을 사용해야 합니다. 여러 사용자 지정 와일드카드를 연속해서 추가하여 포함할 수 있습니다. |
반환
플러그 인은 autocluster
일반적으로 작은 패턴 집합을 반환합니다. 패턴은 여러 불연속 특성에서 공유 공통 값을 사용하여 데이터의 일부를 캡처합니다. 결과의 각 패턴은 행으로 표시됩니다.
첫 번째 열은 세그먼트 ID입니다. 다음 두 열은 패턴에 의해 캡처되는 원래 쿼리 중에서 행의 개수 및 백분율입니다. 나머지 열은 원래 쿼리에서 가져옵니다. 해당 값은 열의 특정 값이거나 변수 값을 의미하는 와일드카드 값(기본적으로 null)입니다.
패턴은 고유하지 않고 겹칠 수 있으며 일반적으로 원래 행을 모두 포함하지는 않습니다. 일부 행은 어떤 패턴에도 속하지 않을 수 있습니다.
팁
입력 파이프에서 where 및 project 를 사용하여 관심 있는 데이터로만 데이터를 줄입니다.
관심 있는 행을 찾으면 where
필터에 특정 값을 추가하여 추가로 드릴인투할 수 있습니다.
예제
평가 사용
T | evaluate autocluster()
자동 클러스터 사용
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
출력
SegmentId | 개수 | 백분율 | 시스템 상태 | EventType | 피해 |
---|---|---|---|---|---|
0 | 2278 | 38.7 | 우박 | 아니요 | |
1 | 512 | 8.7 | 뇌우를 동반한 바람 | YES | |
2 | 898 | 15.3 | 텍사스 |
사용자 지정 와일드카드 사용
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
출력
SegmentId | 개수 | 백분율 | 시스템 상태 | EventType | 피해 |
---|---|---|---|---|---|
0 | 2278 | 38.7 | * | 우박 | 아니요 |
1 | 512 | 8.7 | * | 뇌우를 동반한 바람 | YES |
2 | 898 | 15.3 | 텍사스 | * | * |
관련 콘텐츠
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기