데이터 요약
이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
데이터 요약 구성 요소를 사용하여 입력 테이블의 각 열을 설명하는 표준 통계 측정값 집합을 만들 수 있습니다.
요약 통계는 전체 데이터 세트의 특징을 이해하려는 경우에 유용합니다. 예를 들어, 다음을 알아야 합니다.
- 각 열에는 몇 개의 누락 값이 있나요?
- 기능 열에는 몇 개의 고유 값이 있나요?
- 각 열의 평균 및 표준 편차는 무엇인가요?
구성 요소는 각 열의 중요한 점수를 계산하고 입력으로 제공된 각 변수(데이터 열)의 요약 통계 행을 반환합니다.
데이터 요약을 구성하는 방법
파이프라인에 데이터 요약 구성 요소를 추가합니다. 이 구성 요소는 디자이너의 통계 함수 범주에서 찾을 수 있습니다.
보고서를 생성하려는 데이터 세트를 연결합니다.
일부 열에 대해서만 보고하려는 경우 데이터 세트에서 열 선택 구성 요소를 사용하여 작업할 열의 하위 집합을 프로젝션합니다.
추가 매개 변수는 필요 없습니다. 기본적으로 이 구성 요소는 입력으로 제공된 모든 열을 분석하고, 열의 값 유형에 따라 결과 섹션에 설명된 대로 관련 통계 집합을 출력합니다.
파이프라인을 제출합니다.
결과
구성 요소의 보고서에는 다음 통계가 포함될 수 있습니다.
열 이름 | Description |
---|---|
기능 | 열의 이름 |
개수 | 모든 행의 개수 |
고유 값 개수 | 열의 고유 값 수 |
누락 값 개수 | 열의 고유 값 수 |
Min | 열에서 가장 낮은 값 |
Max | 열에서 가장 높은 값 |
평균값 | 모든 열 값의 평균값 |
평균 편차 | 열 값의 평균 편차 |
첫 번째 변위치 | 첫 번째 사분위수 값 |
중앙값 | 중앙값 열 값 |
세 번째 변위치 | 세 번째 사분위수 값 |
모드 | 열 값의 모드 |
범위 | 최대값과 최소값 사이의 값 수를 나타내는 정수 |
샘플 가변성 | 열의 가변성, 참고 참조 |
샘플 표준 편차 | 열의 표준 편차, 참고 참조 |
샘플 왜도 | 열의 왜도, 참고 참조 |
샘플 첨도 | 열의 첨도, 참고 참조 |
P0.5 | 0.5% 백분위수 |
P1 | 1% 백분위수 |
P5 | 5% 백분위수 |
P95 | 95% 백분위수 |
P99.5 | 99.5% 백분위수 |
기술 정보
숫자가 아닌 열의 경우에는 개수, 고유값 개수 및 누락 값 개수의 값만 계산합니다. 다른 통계의 경우에는 null 값이 반환됩니다.
부울 값을 포함하는 열은 다음 규칙을 사용하여 처리됩니다.
최소값 계산 시에는 논리 AND가 적용됩니다.
최대값 계산 시에는 논리 OR이 적용됩니다.
범위 계산 시 구성 요소는 먼저 열의 고유 값 수가 2인지를 확인합니다.
부동 소수점 계산을 수행해야 하는 통계를 계산할 때 True 값은 1.0으로, False 값은 0.0으로 처리됩니다.
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.