중복 행 제거 구성 요소
이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
이 구성 요소를 사용하여 데이터 세트의 잠재적 중복 항목을 제거합니다.
예를 들어 데이터가 다음과 같이 표시되고 환자에 대한 여러 레코드를 나타낸다고 가정합니다.
환자 ID | Initials | 성별 | 나이 | 입원 시기 |
---|---|---|---|---|
1 | F.M. | M | 53 | 1월 |
2 | 오후 1시 | M | 53 | 1월 |
3 | 오후 1시 | M | 24 | 1월 |
3 | F.M. | M | 24 | 2월 |
4 | F.M. | M | 23 | 2월 |
F.M. | M | 23 | ||
5 | 오후 1시 | M | 53 | |
6 | 오후 1시 | M | NaN | |
7 | 오후 1시 | M | NaN |
이 예제에는 중복될 수 있는 데이터가 있는 여러 열이 있습니다. 실제로 중복되는지 여부는 데이터에 대한 사용자의 지식에 따라 다릅니다.
예를 들어 많은 환자 이름이 동일한 것을 알 수 있습니다. 이름 열을 사용하는 중복 항목은 제거하지 않으며 ID 열만 제거합니다. 이렇게 하면 환자가 이름이 같은지 여부에 관계없이 중복 ID 값이 있는 행만 필터링됩니다.
또는 ID 필드에서 중복을 허용하도록 결정하고 파일의 다른 조합을 사용하여 이름, 성, 연령 및 성별과 같은 고유한 레코드를 찾을 수 있습니다.
행이 중복되는지 여부에 대한 조건을 설정하려면 키로 사용할 단일 열 또는 열 집합을 지정합니다. 두 행은 모든 키 열의 값이 같은 경우에만 중복된 것으로 간주됩니다. 키 값이 누락된 행이 있으면 중복 행으로 간주되지 않습니다. 예를 들어 위의 표에서 성별 및 연령이 키로 설정된 경우 연령에 누락된 값이 있으므로 6행과 7행은 중복 행이 아닙니다.
구성 요소를 실행하면 후보 데이터 세트가 만들어지고 지정한 열 집합에서 중복되지 않은 행 집합이 반환됩니다.
Important
원본 데이터 세트는 변경되지 않습니다. 이 구성 요소는 지정한 조건에 따라 중복 항목을 제외하도록 필터링된 새 데이터 세트를 만듭니다.
중복 행 제거를 사용하는 방법
파이프라인에 구성 요소를 추가합니다. 조작, 데이터 변환에서 중복 행 제거 구성 요소를 찾을 수 있습니다.
중복 행을 확인하려는 데이터 세트를 연결합니다.
속성 창의 키 열 선택 필터 식에서 열 선택기 시작을 클릭하여 중복 항목을 식별하는 데 사용할 열을 선택합니다.
이 컨텍스트에서 키는 고유 식별자를 의미하지 않습니다. 열 선택기를 사용하여 선택한 모든 열은 키 열로 지정됩니다. 선택되지 않은 모든 열은 키가 아닌 열로 간주됩니다. 키로 선택한 열의 조합은 레코드의 고유성을 결정합니다. (여러 균등 조인을 사용하는 SQL 문으로 간주합니다.)
예:
- "ID가 고유한지 확인하려 하는 경우": ID 열만 선택합니다.
- "이름, 성 및 ID의 조합이 고유한지 확인하려고 합니다.": 세 개의 열을 모두 선택합니다.
중복 항목을 찾을 때 반환할 행을 표시하려면 첫 번째 중복 행 유지 확인란을 선택합니다.
- 이를 선택하면 첫 번째 행은 반환되고 다른 행은 삭제됩니다.
- 이 옵션을 선택 해제하면 마지막 중복 행은 결과에 남고 다른 행은 삭제됩니다.
파이프라인을 제출합니다.
결과를 검토하려면 구성 요소를 마우스 오른쪽 단추로 클릭하고 시각화를 선택합니다.
팁
결과를 이해하기 어렵거나 일부 열을 고려 대상에서 제외하려면 데이터 세트에서 열 선택 구성 요소를 사용하여 열을 제거할 수 있습니다.
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.