다음을 통해 공유


데이터 요약

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터 집합의 열에 대한 기본 설명 통계 보고서 생성

범주: 통계 함수

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 데이터 요약 모듈을 사용하여 입력 테이블의 각 열을 설명하는 표준 통계 측정값 집합을 만드는 방법을 설명합니다.

이러한 요약 통계는 전체 데이터 세트의 특성을 이해하려는 경우에 유용합니다. 예를 들어, 다음을 알아야 합니다.

  • 각 열에는 몇 개의 누락 값이 있나요?
  • 기능 열에는 몇 개의 고유 값이 있나요?
  • 각 열의 평균 및 표준 편차는 무엇인가요?

모듈은 각 열의 중요한 점수를 계산하고 입력으로 제공된 각 변수(데이터 열)의 요약 통계 행을 반환합니다.

Studio(클래식)에서 시각화 옵션을 사용하여 통계의 짧은 목록을 얻을 수 있다는 것을 이미 알고 있을 수 있습니다. 그러나 이 시각화는 일부 상위 행 수를 기반으로 만들어집니다. 반면, 데이터 요약 모듈은 모든 데이터 행에 대한 통계를 계산합니다.

데이터 요약을 사용하는 방법

  1. 실험에 데이터 요약 모듈을 추가합니다. 이 모듈은 Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.

  2. 보고서를 생성하려는 데이터 세트를 연결합니다.

    일부 열에 대해서만 보고하려는 경우 데이터 세트에서 열 선택 모듈을 사용하여 작업할 열의 하위 집합을 프로젝션합니다.

  3. 추가 매개 변수는 필요 없습니다. 기본적으로 이 모듈은 입력으로 제공된 모든 열을 분석하고, 열의 값 형식에 따라 결과 섹션에 설명된 대로 관련 통계 집합을 출력합니다.

  4. 실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

결과

모듈의 보고서에는 다음 통계가 포함될 수 있습니다.

  • 생성되는 정확한 통계는 열 데이터 형식에 따라 달라집니다. 자세한 내용은 기술 정보 섹션을 참조하세요.

  • 인스턴스가 모집단의 대표적인 샘플에 속한다고 가정합니다. 모집단에 대한 통계를 계산해야 하는 경우 샘플 또는 모집단 통계를 계산할 수 있는 컴퓨팅 기본 통계 모듈의 옵션을 사용합니다.

열 이름 Description
기능 열의 이름
개수 모든 행의 개수
고유 값 개수 열의 고유 값 수
누락 값 개수 열의 고유 값 수
Min 열에서 가장 낮은 값
Max 열에서 가장 높은 값
평균값 모든 열 값의 평균값
평균 편차 열 값의 평균 편차
첫 번째 변위치 첫 번째 사분위수 값
중앙값 중앙값 열 값
세 번째 변위치 세 번째 사분위수 값
모드 열 값의 모드
범위 최대값과 최소값 사이의 값 수를 나타내는 정수
샘플 가변성 열의 가변성, 참고 참조
샘플 표준 편차 열의 표준 편차, 참고 참조
샘플 왜도 열의 왜도, 참고 참조
샘플 첨도 열의 첨도, 참고 참조
P0.5 0.5% 백분위수
P1 1% 백분위수
P5 5% 백분위수
P95 95% 백분위수
P99.5 99.5% 백분위수

BI 보고 도구에서 데이터를 사용하거나 실험의 다른 작업에 대한 입력으로 값을 사용할 수 있도록 통계 보고서를 테이블 형식 데이터 세트로 출력합니다.

실험에서 데이터 요약 모듈을 사용하는 방법의 예는 Azure AI 갤러리를 참조하세요.

  • UCI에서 데이터 세트 다운로드: UCI Machine Learning 리포지토리의 URL을 사용하여 CSV 형식으로 데이터 세트를 읽고 데이터 세트에 대한 몇 가지 기본 통계를 생성합니다.

  • 데이터 세트 처리 및 분석: 데이터 세트를 작업 영역에 로드하고 열 이름을 변경하며 메타데이터를 추가합니다.

  • 학생 성과 예측: Azure Blob Storage에서 TSV 형식으로 저장된 데이터를 읽습니다.

기술 정보

  • 숫자 및 부울 열의 경우 평균, 중앙값, 모드 및 표준 편차를 출력할 수 있습니다.

  • 숫자가 아닌 열의 경우에는 개수, 고유값 개수누락 값 개수의 값만 계산합니다. 다른 통계의 경우에는 null 값이 반환됩니다.

  • 부울 값을 포함하는 열은 다음 규칙을 사용하여 처리됩니다.

    • 최소값 계산 시에는 논리 AND가 적용됩니다.

    • Max를 계산할 때 논리 OR이 적용됩니다.

    • 범위 계산 시에는 먼저 열의 고유 값 수가 2인지를 확인합니다.

    • 부동 소수점 계산을 수행해야 하는 통계를 계산할 때 True 값은 1.0으로, False 값은 0.0으로 처리됩니다.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 기술 통계를 포함하는 입력 데이터 집합의 프로필입니다.

예외

예외 설명
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0021 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

통계 함수
기본 통계 컴퓨팅