데이터 요약

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

데이터 요약 구성 요소를 사용하여 입력 테이블의 각 열을 설명하는 표준 통계 측정값 집합을 만들 수 있습니다.

요약 통계는 전체 데이터 세트의 특징을 이해하려는 경우에 유용합니다. 예를 들어, 다음을 알아야 합니다.

구성 요소는 각 열의 중요한 점수를 계산하고 입력으로 제공된 각 변수(데이터 열)의 요약 통계 행을 반환합니다.

데이터 요약을 구성하는 방법

파이프라인에 데이터 요약 구성 요소를 추가합니다. 이 구성 요소는 디자이너의 통계 함수 범주에서 찾을 수 있습니다.
보고서를 생성하려는 데이터 세트를 연결합니다.

일부 열에 대해서만 보고하려는 경우 데이터 세트에서 열 선택 구성 요소를 사용하여 작업할 열의 하위 집합을 프로젝션합니다.
추가 매개 변수는 필요 없습니다. 기본적으로 이 구성 요소는 입력으로 제공된 모든 열을 분석하고, 열의 값 유형에 따라 결과 섹션에 설명된 대로 관련 통계 집합을 출력합니다.
파이프라인을 제출합니다.

구성 요소의 보고서에는 다음 통계가 포함될 수 있습니다.

숫자가 아닌 열의 경우에는 개수, 고유값 개수 및 누락 값 개수의 값만 계산합니다. 다른 통계의 경우에는 null 값이 반환됩니다.
부울 값을 포함하는 열은 다음 규칙을 사용하여 처리됩니다.
- 최소값 계산 시에는 논리 AND가 적용됩니다.
- 최대값 계산 시에는 논리 OR이 적용됩니다.
- 범위 계산 시 구성 요소는 먼저 열의 고유 값 수가 2인지를 확인합니다.
- 부동 소수점 계산을 수행해야 하는 통계를 계산할 때 True 값은 1.0으로, False 값은 0.0으로 처리됩니다.

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.