Объединение данных

В этой статье описывается использование компонента Объединение данных в конструкторе Машинного обучения Azure для объединения двух наборов данных с помощью операции объединения в стиле базы данных.

Настройка объединения данных

Для объединения двух наборов данных они должны быть связаны одним ключевым столбцом. Также поддерживаются составные ключи с несколькими столбцами.

  1. Добавьте наборы данных, которые необходимо объединить, а затем перетащите компонент Объединение данных в ваш конвейер.

    Компонент можно найти в категории Преобразование данных в разделе Манипуляция.

  2. Подключите наборы данных к компоненту Объединение данных.

  3. Выберите пункт Запустить селектор столбцов, чтобы выбрать ключевой столбец(столбцы). Не забудьте выбрать столбцы как для левого, так и для правого входа.

    Для одиночного ключа:

    выберите один ключевой столбец для обоих входов.

    Для составного ключа:

    выберите все ключевые столбцы из левого и правого входа в том же порядке. Компонент Объединение данных объединит таблицы, если все ключевые столбцы совпадают. Установите флажок Разрешить дублирование и сохранить порядок столбцов в выделенном фрагменте, если порядок столбцов не совпадает с порядком в исходной таблице.

    средство выбора столбцов

  4. Установите флажок Учитывать регистр, если хотите сохранить чувствительность к регистру при объединении текстовых столбцов.

  5. Используйте раскрывающийся список Тип объединения для указания способа объединения наборов данных.

    • Внутреннее объединение. Внутреннее объединение является наиболее распространенной операцией объединения. Она возвращает соединенные строки только при совпадении значений ключевых столбцов.

    • Левое внешнее объединение. Левое внешнее объединение возвращает объединенные строки для всех строк из левой таблицы. Если строка в левой таблице не совпадает со строками в правой таблице, возвращенная строка содержит отсутствующие значения для всех столбцов, полученных из правой таблицы. Вы также можете указать значение для замены отсутствующих значений.

    • Полное внешнее объединение. Полное внешнее объединение возвращает все строки из левой таблицы (таблица1) и из правой таблицы (таблица2).

      Для каждой строки в любой из таблиц, не имеющей совпадающих строк в другой, результат включает строку, содержащую отсутствующие значения.

    • Левое полуобъединение. Левое полуобъединение возвращает только значения из левой таблицы, если значения ключевых столбцов совпадают.

  6. Для параметра Сохранить правые ключевые столбцы в объединенной таблице:

    • установите флажок, чтобы просмотреть ключи из обеих входных таблиц;
    • снимите флажок, чтобы получить только ключевые столбцы из левого входа.
  7. Отправьте конвейер.

  8. Чтобы просмотреть результаты, щелкните правой кнопкой мыши по параметру Объединение данных и выберите Визуализировать.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.