Компонент Выбор столбцов в наборе данных

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

Используйте этот компонент, чтобы выбрать подмножество столбцов для использования в последующих операциях. Компонент физически не удаляет столбцы из исходного набора данных; вместо этого он создает подмножество столбцов, что очень похоже на представление или проекцию базы данных.

Этот компонент полезен, когда вам нужно ограничить количество столбцов, доступных для последующей операции, или если вы хотите уменьшить размер набора данных, удалив ненужные столбцы.

Столбцы в наборе данных выводятся в том же порядке, что и в исходных данных, даже если вы укажете их в другом порядке.

Использование

Этот компонент не имеет параметров. Вы используете селектор столбцов, чтобы выбрать столбцы, которые нужно включить или исключить.

Выбрать столбцы по имени

В компоненте есть несколько вариантов выбора столбцов по имени:

  • Фильтр и поиск

    Щелкните опцию ПО ИМЕНИ.

    Если вы подключили набор данных, который уже заполнен, должен появиться список доступных столбцов. Если столбцы не отображаются, вам может потребоваться запустить компоненты восходящего потока для просмотра списка столбцов.

    Чтобы отфильтровать список, введите текст в поле поиска. Например, если вы введете букву w в поле поиска, список будет отфильтрован, чтобы отобразить имена столбцов, содержащие букву w.

    Выберите столбцы и нажмите кнопку со стрелкой вправо, чтобы переместить выбранные столбцы в список на правой панели.

    • Чтобы выбрать непрерывный диапазон имен столбцов, нажмите Shift + щелчок.
    • Чтобы добавить отдельные столбцы к выделенному, нажмите Ctrl + щелчок.

    Нажмите кнопку с галочкой, чтобы сохранить и закрыть.

  • Используйте имена в сочетании с другими правилами

    Щелкните опцию С ПРАВИЛАМИ.

    Выберите правило, например отображение столбцов определенного типа данных.

    Затем щелкните отдельные столбцы этого типа по имени, чтобы добавить их в список выбора.

  • Введите или вставьте список имен столбцов, разделенных запятыми

    Если ваш набор данных широк, может быть проще использовать индексы или сгенерированные списки имен, чем выбирать столбцы по отдельности. Предполагая, что вы заранее подготовили список:

    1. Щелкните опцию С ПРАВИЛАМИ.
    2. Выберите Без столбцов, выберите Включить, а затем щелкните внутри текстового поля с красным восклицательным знаком.
    3. Вставьте или введите разделенный запятыми список ранее проверенных имен столбцов. Вы не можете сохранить компонент, если какой-либо столбец имеет недопустимое имя, поэтому обязательно проверьте имена заранее.

    Вы также можете использовать этот метод, чтобы указать список столбцов, используя их значения индекса.

Выбрать по типу

Если вы используете опцию С ПРАВИЛАМИ, вы можете применить несколько условий к выборкам столбцов. Например, вам может потребоваться получить только столбцы функций с числовым типом данных.

Параметр НАЧАТЬ С определяет вашу отправную точку и важен для понимания результатов.

  • Если вы выберете опцию ВСЕ СТОЛБЦЫ, все столбцы будут добавлены в список. Затем вы должны использовать параметр Исключить, чтобы удалить столбцы, соответствующие определенным условиям.

    Например, вы можете начать со всех столбцов, а затем удалить столбцы по имени или по типу.

  • Если выбран параметр Без столбцов, список столбцов начинается с пустого списка. Затем вы указываете условия для добавления столбцов в список.

    Если вы применяете несколько правил, каждое условие является аддитивным. Например, предположим, что вы начали без столбцов, а затем добавили правило для получения всех числовых столбцов. В наборе данных о ценах на автомобили получается 16 столбцов. Затем вы щелкаете знак + , чтобы добавить новое условие, и выбираете Включить все функции. Результирующий набор данных включает все числовые столбцы плюс все столбцы объектов, включая некоторые столбцы строковых объектов.

Выбрать по индексу столбца

Индекс столбца относится к порядку столбца в исходном наборе данных.

  • Столбцы нумеруются последовательно, начиная с 1.
  • Чтобы получить диапазон столбцов, используйте дефис.
  • Открытые спецификации, такие как 1- или -3 не допускаются.
  • Повторяющиеся значения индекса (или имена столбцов) недопустимы и могут привести к ошибке.

Например, предполагая, что ваш набор данных содержит не менее восьми столбцов, вы можете вставить любой из следующих примеров, чтобы вернуть несколько несмежных столбцов:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

последний пример не приводит к ошибке; однако он возвращает единственный экземпляр столбца 4.

Изменить порядок столбцов

Параметр Разрешить дублирование и сохранить порядок столбцов при выборе начинается с пустого списка и добавляет столбцы, которые вы указываете по имени или по индексу. В отличие от других параметров, которые всегда возвращают столбцы в их "естественном порядке", этот параметр выводит столбцы в том порядке, в котором вы их называете или перечисляете.

Например, в наборе данных со столбцами Col1, Col2, Col3 и Col4 вы можете изменить порядок столбцов и оставить столбец 2, указав любой из следующих списков:

  • Col4, Col3, Col1
  • 4,3,1

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.