값 잘라내기

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

값 잘라내기 구성 요소를 사용하여 지정된 임계값보다 높거나 낮은 데이터 값을 식별하고 필요에 따라 평균, 상수, 기타 대체 값으로 바꿀 수 있습니다.

구성 요소를 자르고자 하는 숫자가 있는 데이터 세트에 연결하고, 작업할 열을 선택한 다음, 임계값 또는 값 범위 및 대체 메서드를 설정합니다. 구성 요소는 결과만 출력하거나 원래 데이터 세트에 추가된 변경된 값을 출력할 수 있습니다.

값 잘라내기를 구성하는 방법

시작하기 전에 잘라낼 열과 사용할 메서드를 식별합니다. 먼저 작은 데이터 하위 집합에서 클리핑 메서드를 테스트하는 것을 권장합니다.

구성 요소는 선택 영역에 포함된 모든 열에 동일한 조건과 대체 메서드를 적용합니다. 따라서 변경하지 않으려는 열을 제외해야 합니다.

일부 열에 클리핑 메서드 또는 다른 조건을 적용해야 하는 경우 비슷한 열의 각 집합에 값 잘라내기의 새 인스턴스를 사용해야 합니다.

  1. 값 잘라내기 구성 요소를 파이프라인에 추가하고 수정하려는 데이터 세트에 연결합니다. 구성 요소는 스케일링 및 축소 범주의 데이터 변환에서 찾을 수 있습니다.

  2. 열 목록에서 열 선택기를 사용하여 값 잘라내기가 적용될 열을 선택합니다.

  3. 임계값 집합의 경우, 드롭다운 목록에서 다음 옵션 중 하나를 선택합니다. 이러한 옵션은 허용되는 값과 클립되어야 하는 값에 대해 상한 및 하한 경계를 설정하는 방법을 결정합니다.

    • ClipPeaks: 피크로 값을 잘라내는 경우 상한 경계만 지정합니다. 해당 경계 값보다 큰 값은 대체됩니다.

    • ClipSubpeaks: 서브 피크로 값을 잘라내는 경우 하한 경계만 지정합니다. 해당 경계 값보다 작은 값은 대체됩니다.

    • ClipPeaksAndSubpeaks: 피크와 서브 피크로 값을 잘라낼 경우 상한과 하한 경계를 모두 지정할 수 있습니다. 해당 범위를 벗어난 값은 대체됩니다. 경계 값과 일치하는 값은 변경되지 않습니다.

  4. 이전 단계의 선택 영역에 따라 다음 임계값을 설정할 수 있습니다.

    • 하한 임계값: ClipSubPeaks를 선택한 경우에만 표시됩니다
    • 상한 임계값: ClipPeaks를 선택한 경우에만 표시됩니다
    • 임계값: ClipPeaksAndSubPeaks를 선택한 경우에만 표시됩니다

    각 임계값 형식에 대해 상수 또는 백분위수를 선택합니다.

  5. 상수를 선택하는 경우 입력란에 최댓값 또는 최솟값을 입력합니다. 예를 들어 값 999가 자리 표시자 값으로 사용되었음을 알고 있다고 가정합니다. 상한 임계값에 대해 상수를 선택하고 상한 임계값에 대한 상수 값에 999를 입력할 수 있습니다.

  6. 백분위수를 선택하는 경우 열 값을 백분위수 범위로 제한합니다.

    예를 들어 백분위수10~80 범위의 값만 유지하고 기타 모든 항목을 대체하려는 경우를 가정해 보겠습니다. 백분위수를 선택한 다음 하한 임계값에 대한 백분위수 값으로 10을 입력하고, 상한 임계값에 대한 백분위수 값에 80을 입력합니다.

    백분위수 범위를 사용하는 방법에 대한 몇 가지 예는 백분위 수의 섹션을 참조하세요.

  7. 대체 값을 정의합니다.

    지정된 경계와 정확히 일치하는 숫자는 허용되는 값 범위 내에 있는 것으로 간주되므로 대체되지 않습니다. 지정된 범위를 벗어나는 모든 숫자가 대체 값으로 바뀝니다.

    • 피크 대체 값: 지정된 임계값보다 큰 모든 열 값을 대체할 값을 정의합니다.
    • 서브피크 대체 값: 지정된 임계값보다 작은 모든 열 값에 대 한 대체 값으로 사용할 값을 정의합니다.
    • ClipPeaksAndSubpeaks 옵션을 사용하는 경우 잘라낸 상위 및 하위 값에 별도의 대체 값을 지정할 수 있습니다.

    지원되는 대체 값은 다음과 같습니다.

    • 임계값: 클립된 값을 지정된 임계값으로 대체합니다.

    • 평균: 클립된 값을 열 값의 평균으로 대체합니다. 평균은 값을 잘라내기 전에 계산됩니다.

    • 중앙값: 잘라낸 값을 열 값의 중앙값으로 대체합니다. 중앙값은 값을 잘라내기 전에 계산됩니다.

    • 누락 잘라낸 값을 누락된(빈) 값으로 대체합니다.

  8. 표시기 열 추가: 지정된 클리핑 작업이 해당 행의 데이터에 적용되었는지 여부를 알려주는 새 열을 생성하려면 이 옵션을 선택합니다. 이 옵션은 새 클리핑 및 대체 값 집합을 테스트할 때 유용합니다.

  9. 덮어쓰기 플래그: 새 값을 생성하는 방법을 나타냅니다. 기본값으로 값 잘라내기는 피크 값이 원하는 임계값으로 잘린 새 열을 생성합니다. 새 값은 원래 열을 덮어씁니다.

    원래 열을 유지하고 잘라낸 값이 있는 새 열을 추가하려면 이 옵션의 선택을 취소합니다.

  10. 파이프라인을 제출합니다.

    값 잘라내기 구성 요소를 마우스 오른쪽 단추로 클릭하고 시각화를 선택하거나 구성 요소를 선택하고 오른쪽 패널의 출력 탭으로 전환한 후, 포트 출력에서 히스토그램 아이콘을 클릭하여 값을 검토하고 클리핑 작업이 예상대로 수행되었는지 확인합니다.

백분위수 사용 클리핑 예제

백분위수를 사용한 자르기의 작동 방식을 이해하기 위해 행이 10개인 데이터 집합의 각 행에 값 1-10이 하나씩 포함되어 있다고 가정해 보겠습니다.

  • 상한 임계값으로 백분위수를 사용하는 경우 90번째 백분위수의 값에서 데이터 집합 내 모든 값의 90%는 해당 값보다 작아야 합니다.

  • 하한 임계값으로 백분위수를 사용하는 경우 10번째 백분위수의 값에서 데이터 집합 내 모든 값의 10%는 해당 값보다 작아야 합니다.

  1. 임계값 집합에는 ClipPeaksAndSubPeaks를 선택합니다.

  2. 상한 임계값에는 백분위수를 선택하고 백분위수 값으로는 90을 입력합니다.

  3. 상한 대체 값에는 누락 값을 선택합니다.

  4. 하한 임계값에는 백분위수를 선택하고 백분위수 값으로는 10을 입력합니다.

  5. 하한 대체 값으로는 누락 값을 선택합니다.

  6. 플래그 덮어쓰기옵션 선택을 취소하고 지표 열 추가옵션을 선택합니다.

이제 60을 상한 백분위수 임계값으로, 30을 하한 백분위수 임계값으로 사용하여 동일한 파이프라인을 시도하고 임계값을 대체 값으로 사용합니다. 다음 표에는 두 결과를 비교한 내용이 나와 있습니다.

  1. 누락 값으로 대체, 상한 임계값 = 90, 하한 임계값 = 20

  2. 임계값으로 대체, 상한 백분위수 = 60, 하한 백분위수 = 40

원래 데이터 누락 값으로 바꾸기 임계값으로 바꾸기
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.