클러스터 값
클러스터 값은 유사 항목 일치 알고리즘을 사용하여 유사한 값을 가진 그룹을 자동으로 만든 다음 각 열의 값을 가장 일치하는 그룹에 매핑합니다. 이 변환은 동일한 값의 다양한 변형이 있는 데이터로 작업할 때 값을 일관된 그룹으로 결합해야 하는 경우에 유용합니다.
ID 집합이 포함된 ID 열과 Miguel, Mike, William 및 Bill이라는 이름의 다양한 맞춤법 및 대문자 버전 집합이 포함된 Person 열이 있는 샘플 테이블을 고려합니다.
이 예제에서 원하는 결과는 동일한 단어의 모든 다른 변형이 아니라 Person 열에서 올바른 값 그룹을 표시하는 새 열이 있는 테이블입니다.
참고
클러스터 값 기능은 파워 쿼리 Online에서만 사용할 수 있습니다.
값을 클러스터하려면 먼저 개인 열을 선택하고 리본의 열 추가 탭으로 이동한 다음 클러스터 값 옵션을 선택합니다.
클러스터 값 대화 상자에서 클러스터를 만드는 데 사용할 열을 확인하고 열의 새 이름을 입력합니다. 이 경우 이 새 열 클러스터의 이름을 지정합니다.
해당 작업의 결과는 다음 이미지에 표시됩니다.
참고
각 값 클러스터에 대해 파워 쿼리는 선택한 열에서 가장 빈번한 인스턴스를 "정식" 인스턴스로 선택합니다. 여러 인스턴스가 동일한 빈도로 발생하는 경우 파워 쿼리는 첫 번째 인스턴스를 선택합니다.
새 열의 값을 클러스터링하는 데 사용할 수 있는 옵션은 다음과 같습니다.
- 유사성 임계값(선택 사항): 이 옵션은 두 값을 함께 그룹화해야 하는 방법을 나타냅니다. 최소값이 0이면 모든 값이 함께 그룹화됩니다. 최대 설정 1은 정확히 일치하는 값만 함께 그룹화할 수 있도록 허용합니다. 기본값은 0.8입니다.
- 대/소문자 무시: 텍스트 문자열을 비교하면 대/소문자는 무시됩니다. 기본적으로 이 옵션은 사용하도록 설정됩니다.
- 텍스트 부분을 결합하여 그룹화: 알고리즘은 텍스트 부분(예: Microsoft에 마이크로 및 소프트 결합)을 결합하여 값을 그룹화하려고 합니다.
- 유사성 점수 표시: 유사 항목 클러스터링 후 입력 값과 계산된 대표 값 간의 유사성 점수를 표시합니다.
- 변환 테이블(선택 사항) : 값을 매핑하는 변환 테이블(예: MSFT를 Microsoft에 매핑)을 선택하여 함께 그룹화할 수 있습니다.
이 예제에서는 내 변환 테이블이라는 이름의 새 변환 테이블을 사용하여 값을 매핑하는 방법을 보여 줍니다. 이 변환 테이블에는 두 개의 열이 있습니다.
- 원본: 테이블에서 찾을 텍스트 문자열입니다.
- To: From 열의 텍스트 문자열을 바꾸는 데 사용할 텍스트 문자열입니다.
중요
변환 테이블에는 이전 이미지에 표시된 것과 동일한 열과 열 이름이 있어야 합니다("From" 및 "To"로 이름이 지정되어야 함). 그렇지 않으면 파워 쿼리가 이 테이블을 변환 테이블로 인식하지 않으며 변환이 수행되지 않습니다.
이전에 만든 쿼리를 사용하여 클러스터형 값 단계를 두 번 클릭한 다음 클러스터 값 대화 상자에서 유사 항목 클러스터 옵션을 확장합니다. 유사 항목 클러스터 옵션에서 유사성 점수 표시 옵션을 사용하도록 설정합니다. 변환 테이블(선택 사항)의 경우 변환 테이블이 있는 쿼리를 선택합니다.
변환 테이블을 선택하고 유사성 점수 표시 옵션을 사용하도록 설정한 후 확인을 선택합니다. 이 작업의 결과는 원래 테이블과 동일한 ID 및 개인 열을 포함하지만 클러스터 및 Person_Cluster_Similarity라는 두 개의 새 열을 포함하는 테이블을 제공합니다. 클러스터 열에는 미겔과 마이크 버전에 대한 이름 미겔과 빌, 빌리, 윌리엄 버전에 대한 윌리엄의 철자와 대문자 버전이 포함되어 있습니다. Person_Cluster_Similarity 열에는 각 이름의 유사성 점수가 포함됩니다.
이전 섹션의 변환 테이블은 Mike 인스턴스가 미겔로 변경되고 윌리엄 인스턴스가 Bill로 변경되었음을 나타내는 것으로 나타날 수 있습니다. 그러나 결과 테이블에서 빌과 "빌리"의 인스턴스는 대신 윌리엄으로 변경되었습니다. 변환 테이블에서는 직접 시작 경로가 아니라 클러스터링 중에 변환 테이블이 대칭이므로 "mike"는 "Miguel"과 같고 그 반대의 경우도 마찬가지입니다. 변환 테이블에 지정된 해당 항목의 결과는 다음 규칙에 따라 달라집니다.
- 동일한 값이 대부분 있는 경우 이러한 값이 비인식 값보다 우선합니다.
- 대부분의 값이 없으면 먼저 표시되는 값이 우선적으로 적용됩니다.
예를 들어 이 문서에 사용된 원래 테이블에서 Person 열의 Miguel 버전("miguel"과 Miguel)은 미겔과 Mike라는 이름의 대부분의 인스턴스를 구성합니다. 또한 초기 캡이 있는 미겔 이름은 미겔이라는 이름의 대부분을 차지합니다. 따라서 변환 테이블에서 Miguel과 해당 파생상품과 Mike 및 해당 파생 개체를 연결하면 클러스터 열에서 Miguel이라는 이름이 사용됩니다.
그러나 William, Bill 및 "billy"라는 이름의 경우 세 가지 모두 고유하기 때문에 값의 대부분은 없습니다. William이 먼저 표시되므로 클러스터 열에 William이 사용됩니다. 테이블에 "billy"가 먼저 나타난 경우 클러스터 열에서 "billy"가 사용됩니다. 또한 대부분의 값이 없으므로 개별 이름에서 사용되는 대/소문자를 사용합니다. 즉, William이 첫 번째이면 대문자 "W"가 있는 William이 결과 값으로 사용됩니다. "billy"가 첫 번째이면 소문자 "b"가 있는 "billy"가 사용됩니다.