다음을 통해 공유


비율 샘플링 변환

적용 대상: SQL Server Azure Data Factory의 SSIS Integration Runtime

비율 샘플링 변환은 변환 입력 행의 비율을 선택하여 샘플 데이터 집합을 만듭니다. 샘플 데이터 집합은 변환 입력에서 임의의 행을 선택하여 결과 샘플이 입력을 대표하도록 합니다.

참고 항목

지정한 비율 외에도 비율 샘플링 변환은 특정 행을 샘플 출력에 포함할지를 결정하는 알고리즘을 사용합니다. 즉, 샘플 출력의 행 수가 지정된 비율을 정확히 반영하지 않을 수 있습니다. 예를 들어 행이 25,000개인 입력 데이터 집합에 대해 비율을 10%로 지정하면 2,500개의 행이 있는 샘플이 생성되지 않을 수 있습니다. 샘플에는 행이 더 많거나 적을 수 있습니다.

비율 샘플링 변환은 데이터 마이닝에 특히 유용합니다. 이 변환을 사용하면 하나의 데이터 집합을 임의로 두 개의 데이터 집합으로 나눌 수 있으며 하나는 데이터 마이닝 모델 학습에 사용되고 다른 하나는 모델 테스트에 사용됩니다.

비율 샘플링 변환은 패키지 개발을 위한 샘플 데이터 집합을 만드는 데에도 유용합니다. 데이터 흐름에 비율 샘플링 변환을 적용하면 데이터 특성을 유지하면서 데이터 집합의 크기를 균일하게 줄일 수 있습니다. 그런 다음 테스트 패키지는 작지만 대표적인 데이터 집합을 사용하기 때문에 더 빠르게 실행할 수 있습니다.

비율 샘플링 변환 구성

샘플링 초기값을 지정하여 비율 샘플링 변환이 행 선택 시 사용하는 난수 생성기의 동작을 수정할 수 있습니다. 동일한 샘플링 시드를 사용하는 경우 변환은 항상 동일한 샘플 출력을 만듭니다. 초기값을 지정하지 않으면 변환에서 운영 체제의 틱 수를 사용하여 난수를 만듭니다. 따라서 패키지 개발 및 테스트 중에 변환 결과를 확인하기 위해 표준 초기값을 사용하도록 선택한 다음 패키지를 프로덕션으로 이동할 때 임의 초기값을 사용하도록 변경할 수도 있습니다.

이 변환은 지정된 수의 입력 행을 선택하여 샘플 데이터 집합을 만드는 행 샘플링 변환과 유사합니다. 자세한 내용은 행 샘플링 변환을 참조하세요.

비율 샘플링 변환은 SamplingValue 사용자 지정 속성을 포함합니다. 이 속성은 패키지를 로드할 때 속성 식으로 업데이트할 수 있습니다. 자세한 내용은 Integration Services(SSIS) 식, 패키지에서 속성 식 사용변환 사용자 지정 속성을 참조하세요.

변환에는 하나의 입력과 두 개의 출력이 포함됩니다. 오류 출력은 지원하지 않습니다.

SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.

고급 편집기 대화 상자에는 프로그래밍 방식으로 설정할 수 있는 속성이 표시됩니다. 고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요.

속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.

비율 샘플링 변환 편집기

비율 샘플링 변환 편집기 대화 상자를 사용하여 입력의 일부분을 지정된 행 수를 사용해 샘플로 분할할 수 있습니다. 이 변환은 입력을 두 개의 별도의 출력으로 나눕니다.

옵션

행 비율
입력에서 샘플로 사용할 행의 비율을 지정합니다.

속성 식을 사용하여 이 속성 값을 지정할 수 있습니다.

샘플 출력 이름
샘플링한 행이 포함될 출력에 사용할 고유 이름을 제공합니다. 제공한 이름은 SSIS 디자이너에 표시됩니다.

선택하지 않은 출력 이름
샘플링에서 제외된 행이 포함될 출력에 사용할 고유 이름을 제공합니다. 제공한 이름은 SSIS 디자이너에 표시됩니다.

다음 무작위 시드를 사용하세요
변환에서 샘플을 만드는 데 사용하는 난수 생성기의 샘플링 시드를 지정합니다. 이는 개발 및 테스트에만 권장됩니다. 임의 시드를 지정하지 않으면 변환에서 Microsoft Windows 틱 수를 사용합니다.