Поделиться через


Краткое руководство. Создание первого потока данных для получения и преобразования данных

Потоки данных — это самостоятельная облачная технология подготовки данных. В этой статье вы создадите первый поток данных, получите данные для потока данных, а затем преобразуете данные и опубликуете поток данных.

Необходимые компоненты

Перед началом работы требуются следующие предварительные требования:

Создание потока данных

В этом разделе вы создаете первый поток данных.

  1. Перейдите в рабочую область Microsoft Fabric.

    Снимок экрана: окно рабочих областей, в котором вы перейдете к рабочей области.

  2. Выберите +Новый элемент, а затем выберите Поток данных Gen2.

    Снимок экрана: выделенный фрагмент потока данных 2-го поколения.

Получить данные

Давайте получим некоторые данные! В этом примере вы получаете данные из службы OData. Чтобы получить данные в потоке данных, выполните следующие действия.

  1. В редакторе потока данных выберите " Получить данные " и нажмите кнопку "Дополнительно".

    Снимок экрана: выбранный параметр

  2. В разделе "Выбор источника данных" выберите "Просмотреть больше".

    Снимок экрана: получение источника данных с более выделенным представлением.

  3. В новом источнике выберите "Другие>OData" в качестве источника данных.

    Снимок экрана: получение источника данных с другой категорией и выделенным соединителем OData.

  4. Введите URL-адрес https://services.odata.org/v4/northwind/northwind.svc/и нажмите кнопку "Далее".

    Снимок экрана: источник данных OData, в котором вы вводите URL-адрес данных.

  5. Выберите таблицы "Заказы и клиенты", а затем нажмите кнопку "Создать".

    Снимок экрана: навигатор Power Query с выделенными таблицами

Дополнительные сведения о возможностях и функциональности получения данных см. в обзоре получения данных.

Применение преобразований и публикация

Вы загружаете данные в первый поток данных. Поздравляю! Теперь пришло время применить несколько преобразований, чтобы перенести эти данные в нужную форму.

Данные преобразуются в редакторе Power Query. Подробный обзор редактора Power Query можно найти в пользовательском интерфейсе Power Query, но в этом разделе описаны основные действия.

  1. Убедитесь, что средства профилирования данных включены. Перейдите в раздел "Главная>Параметры>Глобальные параметры", а затем выберите все параметры в разделе "Профиль столбца".

    Снимок экрана: глобальные параметры с выделенными выделенными параметрами профиля столбца.

    Кроме того, включите представление диаграммы с помощью конфигураций макета на вкладке "Вид " на ленте редактора Power Query или щелкните значок представления диаграммы в правой нижней части окна Power Query.

    Снимок экрана: общий вид представления схемы Power Query.

  2. В таблице "Заказы" вычислите общее количество заказов для каждого клиента: выберите столбец CustomerID в предварительной версии данных и выберите "Группировать по " на вкладке "Преобразование " на ленте.

    Снимок экрана: выбранная таблица

  3. Количество строк выполняется в виде агрегирования в группе By. Дополнительные сведения о возможностях group By см. в разделе "Группирование" или "Сводка строк".

    Снимок экрана: группа по, где выбрана операция

  4. После группировки данных в таблице Orders мы получим таблицу с двумя столбцами с CustomerID и Count в качестве столбцов.

    Снимок экрана: таблица двух столбцов.

  5. Затем необходимо объединить данные из таблицы "Клиенты" с числом заказов на клиента: выберите запрос "Клиенты" в представлении схемы и используйте меню "⋮" для доступа к запросам слияния в качестве нового преобразования.

    Снимок экрана редактора потока данных с вертикальным многоточием таблицы

  6. Настройте операцию слияния , выбрав CustomerID в качестве соответствующего столбца в обеих таблицах. Затем выберите ОК.

    Снимок экрана: окно слияния.

    Снимок экрана: окно слияния с левой таблицей для слияния, заданной в таблице Customers, и правой таблицей для слияния, заданной в таблице Orders. Столбец CustomerID выбран для таблиц "Клиенты" и "Заказы". Кроме того, тип соединения имеет значение "Левый внешний". Все остальные выборы задаются по умолчанию.

  7. Теперь есть новый запрос со всеми столбцами из таблицы Customers и одним столбцом с вложенными данными из таблицы Orders.

    Снимок экрана редактора потоков данных с новым запросом слияния, добавленным справа от таблиц

  8. Давайте сосредоточимся на нескольких столбцах из таблицы Customers. Для этого включите представление схемы, нажав кнопку представления схемы в правом нижнем углу редактора потоков данных.

    Снимок экрана: редактор потоков данных с кнопкой представления схемы, подчеркнутой в правом нижнем углу.

  9. В представлении схемы вы увидите все столбцы в таблице. Выберите CustomerID, CompanyName и Orders (2). Затем перейдите на вкладку "Средства схемы" , выберите " Удалить столбцы" и выберите "Удалить другие столбцы". Это сохраняет только нужные столбцы.

    Снимок экрана: представление схемы со всеми доступными именами столбцов с выделенными столбцами CustomerID, CompanyName и Orders (2).

    Снимок экрана: меню средств схемы с выделенным элементом

  10. Столбец Orders (2) содержит дополнительные сведения из шага слияния. Чтобы просмотреть и использовать эти данные, нажмите кнопку "Показать представление данных " в правом нижнем углу рядом с представлением схемы. Затем в заголовке столбца Orders (2) выберите значок "Развернуть столбец " и выберите столбец Count . Это добавляет количество заказов для каждого клиента в таблицу.

    Снимок экрана: использование представления данных.

  11. Теперь давайте ранжируем ваших клиентов по сколько заказов они сделали. Выберите столбец Count , а затем перейдите на вкладку "Добавить столбец " и выберите столбец "Ранжирование". При этом добавляется новый столбец, показывающий ранг каждого клиента на основе их количества заказов.

    Снимок экрана: редактор потоков данных с выбранным столбцом Count.

  12. Сохраните параметры по умолчанию в столбце ранжирования. Затем нажмите кнопку "ОК ", чтобы применить это преобразование.

    Снимок экрана: окно ранжирования со всеми параметрами по умолчанию.

  13. Теперь переименуйте полученный запрос в качестве ранжированных клиентов с помощью области параметров запроса справа от экрана.

    Снимок экрана редактора потоков данных с именем

  14. Вы готовы указать, куда будут отправлены ваши данные. В области параметров запроса прокрутите страницу вниз и выберите пункт "Выбрать назначение данных".

    Снимок экрана: редактор потоков данных с выделенным расположением выделенного выбора назначения данных.

  15. Вы можете отправить результаты в lakehouse, если у вас есть один, или пропустить этот шаг, если вы этого не сделали. Здесь вы можете выбрать, какой "lakehouse" и таблицу использовать для данных, и выбрать, следует ли добавлять новые данные (Добавить) или заменить существующие данные (Заменить).

    Снимок экрана: окно

    Снимок экрана: окно

  16. Поток данных теперь готов к публикации. Просмотрите запросы в представлении диаграммы и выберите " Опубликовать".

    Снимок экрана: редактор потоков данных с кнопкой

    Выберите "Опубликовать " в правом нижнем углу, чтобы сохранить поток данных. Вы вернетесь в свою рабочую область, где рядом с именем вашего потока данных значок спиннера указывает, что идет публикация. Когда спиннер исчезнет, поток данных готов к обновлению!

    Внимание

    При первом создании потока данных Gen2 в рабочей области Fabric настраивает некоторые фоновые компоненты (Lakehouse и Warehouse), которые помогают запускать поток данных. Эти элементы разделяются всеми потоками данных в рабочей области, и их не следует удалять. Они не предназначены для использования напрямую и обычно не отображаются в рабочей области, но их можно увидеть в других местах, таких как записные книжки или аналитика SQL. Ищите имена, которые начинаются с DataflowsStaging, чтобы заметить их.

  17. В рабочей области выберите значок "Запланировать обновление ".

    Снимок экрана: рабочая область с выделенным значком обновления расписания.

  18. Включите запланированное обновление, нажмите кнопку "Добавить еще раз" и настройте обновление, как показано на следующем снимке экрана.

    Снимок экрана: выбор другого времени.

    Снимок экрана: параметры запланированного обновления с включенным запланированным обновлением, частота обновления— Daily, часовой пояс, заданный для координированного универсального времени, и время 4:00. Кнопка "Добавить другое время", владелец потока данных и кнопка "Применить" все выделены.

Очистка ресурсов

Если вы не собираетесь продолжать использовать этот поток данных, удалите поток данных, выполнив следующие действия.

  1. Перейдите в рабочую область Microsoft Fabric.

    Снимок экрана: окно рабочих областей, в котором вы перейдете к рабочей области.

  2. Выберите вертикальное многоточие рядом с именем потока данных и нажмите кнопку "Удалить".

    Снимок экрана с тремя вертикальными точками и параметром удаления в раскрывающемся меню.

  3. Выберите "Удалить" , чтобы подтвердить удаление потока данных.

    Снимок экрана: окно

Поток данных в этом примере показывает, как загружать и преобразовывать данные в поток данных 2-го поколения. Вы научились выполнять следующие задачи:

  • Создание потока данных 2-го поколения.
  • Преобразовать данные.
  • Настройте параметры назначения для преобразованных данных.
  • Запустите и запланируйте конвейер данных.

Перейдите к следующей статье, чтобы узнать, как создать первый конвейер данных.