Выбор столбцов в наборе данных
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Выбирает столбцы, включаемые в набор данных для операции или исключаемые из него.
Категория: Преобразование или управление данными
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Обзор модуля
в этой статье описывается использование модуля выбор столбцов в наборе данных в Машинное обучение Studio (классическая модель) для выбора подмножества столбцов для использования в последующих операциях. Модуль физически не удаляет столбцы из исходного набора данных; вместо этого он создает подмножество столбцов, очень похоже на представление или проекцию базы данных.
Этот модуль особенно полезен в тех случаях, когда необходимо ограничить столбцы, доступные для нисходящих операций, или если требуется уменьшить размер набора данных путем удаления ненужных столбцов.
Столбцы в наборе данных выводятся в том же порядке, что и в исходных данных, даже если вы укажете их в другом порядке.
Использование Select Columns в наборе данных
Этот модуль не имеет параметров. Вы используете селектор столбцов, чтобы выбрать столбцы, которые нужно включить или исключить.
Выбрать столбцы по имени
В модуле есть несколько вариантов выбора столбцов по имени:
Фильтр и поиск
Щелкните опцию ПО ИМЕНИ.
Если вы подключили набор данных, который уже заполнен, должен появиться список доступных столбцов. Если столбцы не отображаются, вам может потребоваться запустить модули восходящего потока для просмотра списка столбцов.
Чтобы отфильтровать список, введите текст в поле поиска. Например, если вы введете букву
w
в поле поиска, список будет отфильтрован, чтобы отобразить имена столбцов, содержащие буквуw
.Выберите столбцы и нажмите кнопку со стрелкой вправо, чтобы переместить выбранные столбцы в список на правой панели.
- Чтобы выбрать непрерывный диапазон имен столбцов, нажмите Shift + щелчок.
- Чтобы добавить отдельные столбцы к выделенному, нажмите Ctrl + щелчок.
Нажмите кнопку с галочкой, чтобы сохранить и закрыть.
Используйте имена в сочетании с другими правилами
Щелкните опцию С ПРАВИЛАМИ.
Выберите правило, например отображение столбцов определенного типа данных.
Затем щелкните отдельные столбцы этого типа по имени, чтобы добавить их в список выбора.
Введите или вставьте список имен столбцов, разделенных запятыми
Если набор данных является очень широким, может быть проще использовать индексы или созданные списки имен, а не выбирать столбцы по отдельности. Предполагая, что вы заранее подготовили список:
- Щелкните опцию С ПРАВИЛАМИ.
- Выберите нет столбцов, выберите включить, а затем щелкните внутри текстового поля с красным восклицательным знаком.
- Вставьте или введите разделенный запятыми список ранее проверенных имен столбцов. Вы не можете сохранить модуль, если какой-либо столбец имеет недопустимое имя, поэтому обязательно проверьте имена заранее.
Вы также можете использовать этот метод, чтобы указать список столбцов, используя их значения индекса. Советы по работе с индексами столбцов см. в разделе " примеры ".
Выбрать по типу
Если вы используете опцию С ПРАВИЛАМИ, вы можете применить несколько условий к выборкам столбцов. Например, вам может потребоваться получить только столбцы функций с числовым типом данных.
Параметр Begin with определяет начальную точку и очень важен для понимания результатов.
Если вы выберете опцию ВСЕ СТОЛБЦЫ, все столбцы будут добавлены в список. Затем вы должны использовать параметр Исключить, чтобы удалить столбцы, соответствующие определенным условиям.
Например, вы можете начать со всех столбцов, а затем удалить столбцы по имени или по типу.
Если выбран параметр Без столбцов, список столбцов начинается с пустого списка. Затем вы указываете условия для добавления столбцов в список.
Если вы применяете несколько правил, каждое условие является аддитивным. Например, предположим, что вы начали без столбцов, а затем добавили правило для получения всех числовых столбцов. В наборе данных о ценах на автомобили получается 16 столбцов. Затем вы щелкаете знак + , чтобы добавить новое условие, и выбираете Включить все функции. Результирующий набор данных включает все числовые столбцы плюс все столбцы объектов, включая некоторые столбцы строковых объектов.
Выбрать по индексу столбца
Индекс столбца относится к порядку столбца в исходном наборе данных.
- Столбцы нумеруются последовательно, начиная с 1.
- Чтобы получить диапазон столбцов, используйте дефис.
- Открытые спецификации, такие как
1-
или-3
не допускаются. - Повторяющиеся значения индекса (или имена столбцов) недопустимы и могут привести к ошибке.
Например, предполагая, что ваш набор данных содержит не менее восьми столбцов, вы можете вставить любой из следующих примеров, чтобы вернуть несколько несмежных столбцов:
8,1-4,6
1,3-8
1,3-6,4
последний пример не приводит к ошибке; однако он возвращает единственный экземпляр столбца 4
.
Дополнительные советы по работе с индексами столбцов см. в разделе " примеры ".
Изменить порядок столбцов
Параметр Разрешить дублирование и сохранить порядок столбцов при выборе начинается с пустого списка и добавляет столбцы, которые вы указываете по имени или по индексу. В отличие от других параметров, которые всегда возвращают столбцы в их "естественном порядке", этот параметр выводит столбцы в том порядке, в котором вы их называете или перечисляете.
Например, в наборе данных со столбцами Col1, Col2, Col3 и Col4 вы можете изменить порядок столбцов и оставить столбец 2, указав любой из следующих списков:
Col4, Col3, Col1
4,3,1
Примеры
Примеры использования столбцов SELECT в наборе данныхсм. в этих примерах экспериментов в коллекции моделей:
В примере молочной железы рака Detection используется Выбор столбцов в наборе данных для удаления завершающего пустого столбца, удаления столбца с повторяющимися данными, а также для обучения и наборов тестов проекта.
В образце прогноза задержки рейсавыберите столбцы в наборе данных , чтобы исключить все строковые столбцы и исключить столбцы по имени.
В примере " Прогнозирование производительности учащихся " выберите столбцы в наборе данных , чтобы получить все временные функции и исключить несколько столбцов.
В образце « Сравнение регрессий » выберите столбцы в наборе данных , чтобы исключить столбец « num-of-двери», так как это неправильный тип данных для математической операции, приведенной ниже.
Распространенные сценарии выбора столбцов
В следующих примерах описываются некоторые типичные способы, с помощью которых пользователи применяют Выбранные столбцы в наборе данных в машинном обучении, и предоставляет советы по выбору столбцов.
Я хочу удалить текстовые столбцы из набора данных, чтобы можно было применить математическую операцию ко всем числовым столбцам.
Для многих операций требуется, чтобы в наборе данных присутствовали только числовые столбцы. Можно временно удалить столбцы, которые могут вызвать ошибку, за исключением текста и за исключением столбцов категорий (чисел, представляющих дискретные категории).
Щелкните запустить селектор столбцов.
В параметре начать свыберите все столбцы.
Выберите параметр исключить , выберите тип столбца, а затем выберите строка.
Щелкните знак «плюс» (+), чтобы добавить новое условие.
Выберите параметр исключить , выберите тип столбца, а затем выберите Категория.
Мне нужно применить выбор компонентов только к столбцам функций категории.
Если необходимо разделить столбцы одинакового типа, можно применить несколько условий. Например, функции могут быть либо упорядоченными, либо числовыми, но некоторые модули выбора компонентов не разрешают нечисловые поля, поэтому сначала необходимо получить компоненты, а затем добавить условие, чтобы получить только числовые функции.
Щелкните запустить селектор столбцов.
В параметре начать свыберите нет столбцов.
Выберите параметр включить и выберите все компоненты.
Щелкните знак «плюс» (+), чтобы добавить новое условие.
Выберите параметр включить , выберите тип столбца, а затем выберите Категория.
Мне нужно применить другую операцию нормализации к разным числовым столбцам.
Перед применением математических операций может потребоваться разделить целые числа от чисел с плавающей запятой и т. д. Для этого используйте типы данных и примените несколько условий.
Щелкните запустить селектор столбцов.
В параметре начать свыберите нет столбцов.
Выберите параметр включить , выберите тип столбца, а затем выберите числовой.
Щелкните знак «плюс» (+), чтобы добавить новое условие.
Выберите параметр включить , выберите тип столбца, а затем выберите числовой тип, несовместимый с подчиненной операцией.
Слишком много столбцов для выбора с помощью селектора.
Часто после импорта набора данных вы обнаружите, что у него есть много столбцов, которые не нужны для моделирования. Однако вы хотите сохранить их для последующего вывода или для выявления вариантов. Это можно сделать, разделив набор данных на две части (метаданные и столбцы, используемые для моделирования), а затем при необходимости повторно объединить столбцы с помощью инструкции Add Columns.
Щелкните запустить селектор столбцов.
В параметре начать свыберите нет столбцов.
Выберите параметр включить , выберите тип столбца, а затем выберите компонент.
Щелкните знак «плюс» (+), чтобы добавить новое условие.
Выберите параметр включить , выберите тип столбца, а затем щелкните Метка.
Повторите эти шаги, но Начните со всех столбцов, а затем исключите столбцы функций и меток, чтобы создать набор данных только для метаданных.
Я не знал значения индексов для нужных столбцов.
Если в наборе данных имеется всего несколько столбцов, можно использовать параметр визуализировать , чтобы просмотреть первые 100 строк, а затем определить, какой столбец имеет индекс 1, 2 и т. д.
индексы в Машинное обучение начинаются с 1, поэтому первый столбец всегда имеет значение 1.
Чтобы получить индекс последнего столбца, просмотрите два списка столбцов в селекторе столбцов: доступные столбцы и выбранные столбцы. На серой полосе под списком столбцов отображается количество столбцов в каждом списке. Таким словами, если доступно 24 столбца и выбрано два столбца, то будет всего 26 столбцов, а индекс последнего столбца будет равен 26.
Другим вариантом извлечения схемы набора данных является использование модуля выполнить сценарий R для получения имен столбцов с номерами индексов.
Подключение набор данных в модуль выполнить сценарий R .
В модуле введите следующий сценарий, чтобы вывести имена столбцов. Строка, начинающаяся с
myindex
, создает последовательность, которая представляет индексы по порядку.dataset1 <- maml.mapInputPort(1) # class: data.frame mycolnames <-names(dataset1); myindex <- seq(from = 1, to = length(mycolnames), by=1); outdata <- as.data.frame(cbind(myindex, mycolnames)); maml.mapOutputPort("outdata");
Результаты для набора данных "Цена автомобиля"
миндекс миколнамес 1 symboling 2 Нормализованные — потери 3 make
Технические примечания
Если вы знакомы с реляционными базами данных, этот модуль создает проекцию данных. следовательно, исходное имя, Project столбцы. в терминах базы данных проекция — это функция, например инструкция Transact-SQL или LINQ, которая принимает данные в табличном формате в качестве входных данных и создает связанные выходные данные.
В реляционной версии проекцией является Унарная операция, которая записывается как набор имен атрибутов. Результат проекции — набор таких атрибутов, из которого исключены другие атрибуты.
Ожидаемые входные данные
Имя | Тип | Описание |
---|---|---|
Dataset | Таблица данных | Входной набор данных |
Параметры модуля
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Выбор столбцов | any | Выбор столбцов | Выберите столбцы для сохранения прогнозируемого набора данных. |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Набор данных результатов | Таблица данных | Выходной набор данных |
Исключения
Исключение | Описание |
---|---|
Ошибка 0001 | Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных. |
Ошибка 0003 | Исключение возникает, если один или несколько входных наборов данных имеют значение NULL или пусты. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.