Сведение данных

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает отчет о базовой описательной статистике для столбцов в наборе данных

Категория: статистические функции

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается использование модуля « сведение данных » в Машинное обучение Studio (классическая модель) для создания набора стандартных статистических мер, описывающих каждый столбец во входной таблице.

Такая сводная статистика полезна, если вы хотите понять характеристики полного набора данных. Например, вам может понадобиться узнать:

  • Сколько недостающих значений есть в каждом столбце?
  • Сколько уникальных значений содержится в столбце характеристик?
  • Каковы среднее значение и стандартное отклонение для каждого столбца?

Модуль вычисляет важные баллы для каждого столбца и возвращает строку сводной статистики для каждой переменной (столбца данных), предоставленной в качестве входных данных.

Совет

Возможно, вы уже узнали, что вы можете получить краткий список статистических данных с помощью параметра визуализировать в студии (классическая модель). Однако эта визуализация создается на основе какого-либо верхнего числа строк. В отличие от этого модуль « Сводка данных » вычислит статистику по всем строкам данных.

Как использовать сводные данные

  1. Добавьте модуль суммирования данных в свой эксперимент. Этот модуль можно найти в категории статистические функции в студии (классическая модель).

  2. Подключите набор данных, для которого вы хотите создать отчет.

    Если вы хотите составить отчет только по некоторым столбцам, используйте модуль Выбрать столбцы в наборе данных, чтобы спроецировать подмножество столбцов для работы.

  3. Никаких дополнительных параметров не требуется. По умолчанию модуль анализирует все столбцы, которые предоставляются в качестве входных данных, и в зависимости от типа значений в столбцах выводит соответствующий набор статистических данных, как описано в разделе Результаты.

  4. Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите пункт Выполнить выбранное.

Результаты

Отчет из модуля может включать следующую статистику.

  • Точная статистика, которая создается, зависит от типа данных столбца. Дополнительные сведения см. в разделе " Технические примечания ".

  • Предполагается, что экземпляры принадлежат репрезентативной выборки совокупности. Если необходимо вычислить статистику по Генеральной совокупности, используйте параметры в модуле Вычисление простейшей статистики , в котором можно вычислить статистику выборки или заполнения.

Имя столбца Описание
Компонент Имя столбца
Количество Число всех строк
Число уникальных значений Количество уникальных значений в столбце
Число отсутствующих значений Количество уникальных значений в столбце
Min Наименьшее значение в столбце
Max Наибольшее значение в столбце
Среднее Среднее значение всех значений столбца
Среднее отклонение Среднее отклонение значений столбца
1-й квартиль Значение в первом квартиле
Медиана Среднее значение столбца
3-й квартиль Значение в третьем квартиле
Режим Режим значений столбца
Диапазон Целое число, представляющее количество значений между максимальным и минимальным значениями
Дисперсия выборки Дисперсия для столбца; смотрите примечание
Стандартное отклонение выборки Стандартное отклонение для столбца; смотрите примечание
Асимметрия выборки Асимметрия колонны; смотрите примечание
Выборочный эксцесс Эксцесс колонны; смотрите примечание
P0.5 0,5-процентный процентиль
P1 1-процентный процентиль
P5 5-процентный процентиль
P95 95-процентный процентиль
P99.5 99,5-процентный процентиль

Совет

Выводит Статистический отчет в виде табличного набора данных, чтобы можно было использовать данные в средствах создания отчетов бизнес-аналитики или использовать значения в качестве входных данных для другой операции в эксперименте.

Примеры

Примеры использования модуля " сведение данных " в эксперименте см. в Коллекция решений ии Azure:

Технические примечания

  • Для числовых и логических столбцов можно вывести среднее значение, медиана, режим и стандартное отклонение.

  • Для нечисловых столбцов вычисляются только значения для Число, Число уникальных значений и Число отсутствующих значений. Для других статистических показателей возвращается значение NULL.

  • Столбцы, содержащие логические значения, обрабатываются по следующим правилам:

    • При вычислении Min применяется логический оператор "И".

    • При вычислении значения Maxприменяется логическое или

    • При вычислении Range модуль сначала проверяет, равно ли двум количество уникальных значений в столбце.

    • При вычислении любого статистического показателя, который требует вычислений с плавающей запятой, значения True принимаются равными 1,0, а значения False — 0,0.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Профиль входного набора данных, содержащего описательную статистику

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0020 Исключение возникает, если количество столбцов в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0021 Исключение возникает, если количество строк в некоторых наборах данных, переданных модулю, слишком мало.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Статистические функции
Элементарная статистика вычислений