중복 행 제거 구성 요소

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 데이터 세트의 잠재적 중복 항목을 제거합니다.

예를 들어 데이터가 다음과 같이 표시되는 것으로 가정하고 환자에 대한 여러 레코드를 나타냅니다.

환자 ID 이니셜 성별 나이 입원 시기
1 F.M. M 53 1월
2 F.A.M. M 53 1월
3 F.A.M. M 24 1월
3 F.M. M 24 2월
4 F.M. M 23 2월
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

분명하게도 이 예에는 잠재적으로 중복된 데이터가 있는 열이 여러 개입니다. 실제로 중복되는지 여부는 데이터에 대한 사용자의 지식에 따라 다릅니다.

  • 예를 들어 많은 환자 이름이 동일한 것을 알 수 있습니다. 이름 열을 사용하여 중복 항목을 제거하지 않고 ID 열만 사용합니다. 이렇게 하면 환자 이름이 동일한지 여부에 관계 없이 중복된 ID 값을 가진 행만 필터링됩니다.

  • 또는 ID 필드에서 중복을 허용하고, 다른 파일을 조합하여 이름, 성, 연령, 성별과 같은 고유한 레코드를 찾을 수 있습니다.

행이 중복되는지 여부에 대한 조건을 설정하려면 로 사용할 단일 열 또는 열 집합을 지정합니다. 모든 키 열의 값이 같으면 두 행이 중복된 것으로 간주됩니다. 값에 누락된 행이 있으면 중복 행으로 간주되지 않습니다. 예를 들어 위의 표에서 성별 및 연령이 키로 설정된 경우 연령에 누락된 값이 있으므로 6행과 7행은 중복 행이 아닙니다.

구성 요소를 실행하면 후보 데이터 세트가 만들어지고 지정한 열 집합에서 중복되지 않은 행 집합이 반환됩니다.

중요

원본 데이터 세트는 변경되지 않습니다. 이 구성 요소는 지정한 조건에 따라 중복 항목을 제외하도록 필터링된 새 데이터 세트를 만듭니다.

중복 행 제거를 사용하는 방법

  1. 파이프라인에 구성 요소를 추가합니다. 조작, 데이터 변환에서 중복 행 제거 구성 요소를 찾을 수 있습니다.

  2. 중복 행을 확인하려는 데이터 세트를 연결합니다.

  3. 속성 창의 키 열 선택 영역 필터 식에서 열 선택기 시작을 클릭하여 중복 항목을 식별하는 데 사용할 열을 선택합니다.

    이 컨텍스트에서 는 고유 식별자를 의미하지 않습니다. 열 선택기를 사용하여 선택하는 모든 열은 키 열로 지정됩니다. 선택하지 않은 모든 열은 키가 아닌 열로 간주됩니다. 키로 선택한 열을 조합하면 레코드의 고유성이 결정됩니다. (이를 여러 동일성 조인을 사용하는 SQL 문이라고 생각합니다.)

    예:

    • "ID가 고유한지 확인하려 하는 경우": ID 열만 선택합니다.
    • "성, 이름 및 ID 조합이 고유한지 확인하려 하는 경우": 세 열을 모두 선택합니다.
  4. 중복 항목을 찾을 때 반환할 행을 표시하려면 첫 번째 중복 행 유지 확인란을 선택합니다.

    • 이를 선택하면 첫 번째 행은 반환되고 다른 행은 삭제됩니다.
    • 이 옵션을 선택 해제하면 마지막 중복 행은 결과에 남고 다른 행은 삭제됩니다.
  5. 파이프라인을 제출합니다.

  6. 결과를 검토하려면 구성 요소를 마우스 오른쪽 단추로 클릭하고 시각화를 선택합니다.

결과를 이해하기 어렵거나 일부 열을 고려 대상에서 제외하려면 데이터 세트에서 열 선택 구성 요소를 사용하여 열을 제거할 수 있습니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.