데이터 요약

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

데이터 요약 구성 요소를 사용하여 입력 테이블의 각 열을 설명하는 표준 통계 측정값 집합을 만들 수 있습니다.

요약 통계는 전체 데이터 세트의 특징을 이해하려는 경우에 유용합니다. 예를 들어, 다음을 알아야 합니다.

  • 각 열에는 몇 개의 누락 값이 있나요?
  • 기능 열에는 몇 개의 고유 값이 있나요?
  • 각 열의 평균 및 표준 편차는 무엇인가요?

구성 요소는 각 열의 중요한 점수를 계산하고 입력으로 제공된 각 변수(데이터 열)의 요약 통계 행을 반환합니다.

데이터 요약을 구성하는 방법

  1. 파이프라인에 데이터 요약 구성 요소를 추가합니다. 이 구성 요소는 디자이너의 통계 함수 범주에서 찾을 수 있습니다.

  2. 보고서를 생성하려는 데이터 세트를 연결합니다.

    일부 열에 대해서만 보고하려는 경우 데이터 세트에서 열 선택 구성 요소를 사용하여 작업할 열의 하위 집합을 프로젝션합니다.

  3. 추가 매개 변수는 필요 없습니다. 기본적으로 이 구성 요소는 입력으로 제공된 모든 열을 분석하고, 열의 값 유형에 따라 결과 섹션에 설명된 대로 관련 통계 집합을 출력합니다.

  4. 파이프라인을 제출합니다.

결과

구성 요소의 보고서에는 다음 통계가 포함될 수 있습니다.

열 이름 Description
기능 열의 이름
개수 모든 행의 개수
고유 값 개수 열의 고유 값 수
누락 값 개수 열의 고유 값 수
Min 열에서 가장 낮은 값
Max 열에서 가장 높은 값
평균값 모든 열 값의 평균값
평균 편차 열 값의 평균 편차
첫 번째 변위치 첫 번째 사분위수 값
중앙값 중앙값 열 값
세 번째 변위치 세 번째 사분위수 값
모드 열 값의 모드
범위 최대값과 최소값 사이의 값 수를 나타내는 정수
샘플 가변성 열의 가변성, 참고 참조
샘플 표준 편차 열의 표준 편차, 참고 참조
샘플 왜도 열의 왜도, 참고 참조
샘플 첨도 열의 첨도, 참고 참조
P0.5 0.5% 백분위수
P1 1% 백분위수
P5 5% 백분위수
P95 95% 백분위수
P99.5 99.5% 백분위수

기술 정보

  • 숫자가 아닌 열의 경우에는 개수, 고유값 개수 및 누락 값 개수의 값만 계산합니다. 다른 통계의 경우에는 null 값이 반환됩니다.

  • 부울 값을 포함하는 열은 다음 규칙을 사용하여 처리됩니다.

    • 최소값 계산 시에는 논리 AND가 적용됩니다.

    • 최대값 계산 시에는 논리 OR이 적용됩니다.

    • 범위 계산 시 구성 요소는 먼저 열의 고유 값 수가 2인지를 확인합니다.

    • 부동 소수점 계산을 수행해야 하는 통계를 계산할 때 True 값은 1.0으로, False 값은 0.0으로 처리됩니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.