Сведение данных

В этой статье описывается компонент конструктора Машинного обучения Azure.

Используйте компонент "Суммировать данные", чтобы создать набор стандартных статистических показателей, описывающих каждый столбец входной таблицы.

Сводная статистика полезна, когда вы хотите понять характеристики полного набора данных. Например, вам может понадобиться узнать:

  • Сколько недостающих значений есть в каждом столбце?
  • Сколько уникальных значений содержится в столбце характеристик?
  • Каковы среднее значение и стандартное отклонение для каждого столбца?

Компонент вычисляет важные баллы для каждого столбца и возвращает строку сводной статистики для каждой переменной (столбца данных), предоставленной в качестве входных данных.

Как настроить суммирование данных

  1. Добавьте компонент Суммировать данные в свой конвейер. Вы можете найти этот компонент в категории Статистические функции в конструкторе.

  2. Подключите набор данных, для которого вы хотите создать отчет.

    Если вы хотите составить отчет только по некоторым столбцам, используйте компонент Выбрать столбцы в наборе данных, чтобы спроецировать подмножество столбцов для работы.

  3. Никаких дополнительных параметров не требуется. По умолчанию компонент анализирует все столбцы, которые предоставляются в качестве входных данных, и в зависимости от типа значений в столбцах выводит соответствующий набор статистических данных, как описано в разделе Результаты.

  4. Отправьте конвейер.

Результаты

Отчет из компонента может включать следующую статистику.

Имя столбца Описание
Компонент Имя столбца
Количество Число всех строк
Число уникальных значений Количество уникальных значений в столбце
Число отсутствующих значений Количество уникальных значений в столбце
Min Наименьшее значение в столбце
Max Наибольшее значение в столбце
Среднее Среднее значение всех значений столбца
Среднее отклонение Среднее отклонение значений столбца
1-й квартиль Значение в первом квартиле
Медиана Среднее значение столбца
3-й квартиль Значение в третьем квартиле
Режим Режим значений столбца
Диапазон Целое число, представляющее количество значений между максимальным и минимальным значениями
Дисперсия выборки Дисперсия для столбца; смотрите примечание
Стандартное отклонение выборки Стандартное отклонение для столбца; смотрите примечание
Асимметрия выборки Асимметрия колонны; смотрите примечание
Выборочный эксцесс Эксцесс колонны; смотрите примечание
P0.5 0,5-процентный процентиль
P1 1-процентный процентиль
P5 5-процентный процентиль
P95 95-процентный процентиль
P99.5 99,5-процентный процентиль

Технические примечания

  • Для нечисловых столбцов вычисляются только значения для Число, Число уникальных значений и Число отсутствующих значений. Для других статистических показателей возвращается значение NULL.

  • Столбцы, содержащие логические значения, обрабатываются по следующим правилам:

    • При вычислении Min применяется логический оператор "И".

    • При вычислении Max применяется логическое ИЛИ

    • При вычислении диапазона компонент сначала проверяет, равно ли количество уникальных значений в столбце двум.

    • При вычислении любого статистического показателя, который требует вычислений с плавающей запятой, значения True принимаются равными 1,0, а значения False — 0,0.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.