파티션 및 샘플 구성 요소

아티클
06/01/2023

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

파티션 및 샘플 구성 요소를 사용하여 데이터 세트에서 샘플링을 수행하거나 데이터 세트에서 파티션을 만들 수 있습니다.

샘플링은 동일한 비율의 값을 유지하면서 데이터 집합의 크기를 줄일 수 있기 때문에 기계 학습에서 중요한 도구입니다. 이 구성 요소는 기계 학습에서 중요한 몇 가지 관련 작업을 지원합니다.

동일한 크기의 여러 하위 섹션으로 데이터 나누기.

파티션을 사용하여 교차 유효성 검사를 수행하거나 임의 그룹에 사례를 할당할 수 있습니다.
데이터를 그룹으로 구분하고 특정 그룹의 데이터 사용.

다양한 그룹에 사례를 임의로 할당한 후 하나의 그룹에만 연결된 기능을 수정해야 할 수도 있습니다.
샘플링.

특정 비율의 데이터를 추출하거나, 무작위 샘플링을 적용하거나, 데이터 세트의 균형 조정에 사용할 열을 선택하고 해당 값에서 층화된 샘플링을 수행할 수 있습니다.
테스트를 위해 작은 데이터 세트 만들기.

데이터가 많은 경우 파이프라인을 설정하는 동안 처음 n개 행만 사용한 다음, 모델을 빌드할 때 전체 데이터 세트를 사용하도록 전환하는 것이 좋습니다. 샘플링을 사용하여 개발에 사용할 작은 데이터 세트를 만들 수도 있습니다.

구성 요소 구성

이 구성 요소는 데이터를 파티션으로 나누거나 샘플링하기 위한 다음 방법을 지원합니다. 방법을 먼저 선택하고 방법에 필요한 추가 옵션을 설정합니다.

Head
샘플링
접기에 할당
접기를 선택합니다.

데이터 세트에서 상위 N개 행 가져오기

처음 n개 행만 가져오려면 이 모드를 사용합니다. 이 옵션은 어떤 방식으로든 데이터 균형 조정이나 샘플링이 필요하지 않으며 적은 수의 행에서 파이프라인을 테스트하려는 경우에 유용합니다.

인터페이스에서 파티션 및 샘플 구성 요소를 파이프라인에 추가하고 데이터 세트를 연결합니다.
파티션 또는 샘플 모드: 이 옵션을 헤드로 설정합니다.
선택할 행 수: 반환할 행 수를 입력합니다.

행 수는 음수가 아닌 정수여야 합니다. 선택한 행 수가 데이터 세트의 행 수보다 크면 전체 데이터 세트가 반환됩니다.
파이프라인을 제출합니다.

구성 요소는 지정된 개수의 행만 포함된 단일 데이터 세트를 출력합니다. 항상 데이터 세트의 맨 위에서 행을 읽습니다.

테이블 샘플 만들기

이 옵션은 간단한 무작위 샘플링이나 층화된 무작위 샘플링을 지원합니다. 테스트를 위해 작은 대표 샘플 데이터 세트를 만들려는 경우에 유용합니다.

파티션 및 샘플 구성 요소를 파이프라인에 추가하고 데이터 세트를 연결합니다.
파티션 또는 샘플 모드: 이 옵션을 샘플링으로 설정합니다.
샘플링 비율: 0에서 1 사이의 값을 입력합니다. 이 값은 출력 데이터 세트에 포함되어야 하는 원본 데이터 세트의 행 백분율을 지정합니다.

예를 들어 원본 데이터 세트의 절반만 포함하려면 0.5를 입력하여 샘플링 비율을 50%로 표시합니다.

입력 데이터 세트의 행이 섞여진 다음, 지정된 비율에 따라 출력 데이터 세트에 선택적으로 배치됩니다.
샘플링에 임의 시드 사용: 필요에 따라 시드 값으로 사용할 정수를 입력합니다.

이 옵션은 매번 동일한 방식으로 행을 나누려는 경우에 중요합니다. 기본값은 0으로, 시스템 클록을 기준으로 시작 시드가 생성됨을 의미합니다. 이 값을 사용하면 파이프라인을 실행할 때마다 약간 다른 결과가 나타날 수 있습니다.
샘플링에 층화된 분할 사용: 샘플링 전에 데이터 세트의 행을 일부 키 열로 균등하게 분할하는 것이 중요한 경우 이 옵션을 선택합니다.

샘플링을 위한 계층화 키 열에서 데이터 세트를 나눌 때 사용할 단일 ‘층 열’을 선택합니다. 데이터 세트의 행이 다음과 같이 나뉩니다.
1. 모든 입력 행은 지정된 층 열의 값으로 그룹화(층화)됩니다.
2. 각 그룹 내에서 행을 섞습니다.
3. 지정한 비율에 맞게 각 그룹을 선택적으로 출력 데이터 집합에 추가합니다.
파이프라인을 제출합니다.

이 옵션을 사용하면 구성 요소는 데이터의 대표 샘플링을 포함하는 단일 데이터 세트를 출력합니다. 데이터 세트에서 샘플링되지 않은 나머지 부분은 출력되지 않습니다.

데이터를 파티션으로 분할

데이터 세트를 데이터 하위 집합으로 분할하려는 경우 이 옵션을 사용합니다. 이 옵션은 교차 유효성 검사를 위해 사용자 지정 접기 수를 만들거나 행을 여러 그룹으로 분할하려는 경우에도 유용합니다.

파티션 및 샘플 구성 요소를 파이프라인에 추가하고 데이터 세트를 연결합니다.
파티션 또는 샘플 모드에서 접기에 할당을 선택합니다.
분할에서 대체 사용: 잠재적으로 재사용하기 위해 샘플링된 행을 행 풀에 다시 보관하려는 경우 이 옵션을 선택합니다. 결과적으로 동일한 행이 여러 접기에 할당될 수 있습니다.

대체(기본 옵션)를 사용하지 않는 경우에는 잠재적으로 재사용하기 위해 샘플링된 행이 행 풀에 다시 보관되지 않습니다. 따라서 각 행을 하나의 접기에만 할당할 수 있습니다.
임의 분할: 접기에 행을 임의로 할당하려는 경우 이 옵션을 선택합니다.

이 옵션을 선택하지 않으면 라운드 로빈 방법을 통해 행이 접기에 할당됩니다.
임의 시드: 필요에 따라 시드 값으로 사용할 정수를 입력합니다. 이 옵션은 매번 동일한 방식으로 행을 나누려는 경우에 중요합니다. 입력하지 않으면 임의 시작 시드가 사용됨을 의미하는 기본값 0이 적용됩니다.
파티셔너 방법 지정: 다음 옵션을 사용하여 각 파티션에 데이터를 할당하는 방법을 표시합니다.
- 균등 분할: 각 파티션에 동일한 개수의 행을 배치하려면 이 옵션을 사용합니다. 출력 파티션 수를 지정하려면 균등하게 분할할 접기 수 지정 상자에 정수를 입력합니다.
- 사용자 지정 비율로 분할: 각 파티션의 크기를 쉼표로 구분된 목록으로 지정하려면 이 옵션을 사용합니다.
  
  예를 들어 파티션 3개를 만들려고 한다고 가정합니다. 첫 번째 파티션은 50%의 데이터를 포함합니다. 나머지 두 파티션은 각각 25%의 데이터를 포함합니다. 쉼표로 구분된 비율 목록 상자에 숫자 .5, .25, .25를 입력합니다.
  
  모든 파티션 크기의 합계는 정확히 1이 되어야 합니다.
  
  합계가 ‘1보다 작은’인 숫자를 입력하면 나머지 행을 포함할 추가 파티션이 생성됩니다. 예를 들어 .2 및 .3 값을 입력하면 모든 행의 나머지 50%를 포함할 세 번째 파티션이 생성됩니다.
  
  합계가 ‘1보다 큰’인 숫자를 입력하면 파이프라인을 실행할 때 오류가 발생합니다.
층화된 분할: 분할 시 행을 층화하려는 경우 이 옵션을 선택한 다음 층 열을 선택합니다.
파이프라인을 제출합니다.

이 옵션을 사용하면 구성 요소는 여러 데이터 세트를 출력합니다. 데이터 세트는 지정한 규칙에 따라 분할됩니다.

미리 정의된 파티션의 데이터 사용

데이터 세트를 여러 파티션으로 나누었으며 이제 추가 분석이나 처리를 위해 각 파티션을 차례로 로드하려는 경우 이 옵션을 사용합니다.

파티션 및 샘플 구성 요소를 파이프라인에 추가합니다.
파티션 및 샘플의 이전 인스턴스 출력에 구성 요소를 연결합니다. 해당 인스턴스는 접기에 할당 옵션을 사용하여 몇 개의 파티션을 생성한 상태여야 합니다.
파티션 또는 샘플 모드: 접기 선택을 선택합니다.
샘플링할 접기 지정: 인덱스를 입력하여 사용할 파티션을 선택합니다. 파티션 인덱스는 1부터 시작합니다. 예를 들어 데이터 세트를 세 부분으로 나눈 경우 파티션에 인덱스 1, 2, 3이 지정됩니다.

잘못된 인덱스 값을 입력하면 다음과 같은 디자인 타임 오류가 발생합니다. “오류 0018: 데이터 세트에 잘못된 데이터가 포함되어 있습니다.”

접기를 기준으로 데이터 세트를 그룹화하는 것 외에도 데이터 세트를 대상 접기와 다른 모든 항목의 두 그룹으로 구분할 수 있습니다. 이렇게 하려면 단일 접기의 인덱스를 입력하고 선택한 접기의 보수 선택 옵션을 선택하여 지정된 접기의 데이터를 제외한 모든 항목을 가져옵니다.
여러 파티션으로 작업하는 경우 각 파티션을 처리할 파티션 및 샘플 구성 요소 인스턴스를 더 추가해야 합니다.

예를 들어 두 번째 행의 파티션 및 샘플 구성 요소는 폴딩에 할당으로 설정되고 세 번째 행의 구성 요소는 폴딩 선택으로 설정됩니다.
파이프라인을 제출합니다.

이 옵션을 사용하면 구성 요소는 해당 폴딩에 할당된 행만 포함된 단일 데이터 세트를 출력합니다.

참고

접기 지정을 직접 볼 수는 없습니다. 메타데이터에만 표시됩니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.

Share via