Краткое руководство. Создание первого потока данных для получения и преобразования данных

Потоки данных — это самостоятельная облачная технология подготовки данных. В этой статье вы создадите свой первый поток данных, получите данные для потока данных, а затем преобразуете данные и опубликуете поток данных.

Важно!

Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эта информация относится к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении информации, представленной здесь. См. Фабрика данных Azure документацию по службе в Azure.

Предварительные требования

Перед началом работы необходимо выполнить следующие предварительные требования.

создание потока данных;

В этом разделе вы создадите свой первый поток данных.

  1. Переключитесь на фабрику данных или Power BI .

    Снимок экрана с выделенным интерфейсом фабрики данных.

  2. Перейдите в рабочую область Microsoft Fabric.

    Снимок экрана: окно рабочих областей, в котором выполняется переход к рабочей области.

  3. Выберите Создать, а затем — Поток данных 2-го поколения.

    Снимок экрана с выделенным выбором потока данных 2-го поколения.

Получение данных

Давайте получим некоторые данные! В этом примере вы будете получать данные из службы OData. Чтобы получить данные в потоке данных, выполните следующие действия.

  1. В редакторе потока данных выберите Получить данные , а затем — Дополнительно.

    Снимок экрана с выбранным параметром

  2. Выберите OData в качестве источника данных.

    Снимок экрана: получение источника данных с выделенным соединителем OData.

  3. Введите URL-адрес https://services.odata.org/v4/northwind/northwind.svc/и нажмите кнопку Далее.

    Снимок экрана: источник данных OData, где вводится URL-адрес данных.

  4. Выберите таблицы Заказы и Клиенты , а затем щелкните Создать.

    Снимок экрана: Power Query навигатор с выделенными таблицами

Дополнительные сведения о возможностях и функциях получения данных см. в статье Общие сведения о получении данных.

Применение преобразований и публикация

Теперь вы загрузили данные в свой первый поток данных, поздравляем! Теперь пришло время применить несколько преобразований, чтобы привести эти данные в нужную форму.

Вы будете выполнять эту задачу в редакторе Power Query. Подробный обзор редактора Power Query см. в статье Пользовательский интерфейс Power Query.

Выполните следующие действия, чтобы применить преобразования и опубликовать:

  1. Убедитесь, что вы включили представление схемы с помощью параметров на вкладке Вид на ленте редактора Power Query. Кроме того, убедитесь, что средства профилирования данных включены, перейдя в меню Параметры дома>>Глобальные параметры.

    Снимок экрана: глобальные параметры с выделенными параметрами профиля столбца.

    Снимок экрана: общий вид представления схемы Power Query.

  2. В таблице Заказы вы подсчитаете общее количество заказов на клиента. Чтобы достичь этой цели, выберите столбец CustomerID в предварительном просмотре данных, а затем выберите Группировать по на вкладке Преобразование на ленте.

    Снимок экрана: выбранная таблица

  3. Вы будете выполнять подсчет строк в качестве агрегирования в group by. Дополнительные сведения о возможностях группирования по см. в статье Группирование или суммирование строк.

    Снимок экрана: группировка с выбранной операцией Подсчет строк.

  4. После группировки данных в таблице Orders мы получим таблицу из двух столбцов с CustomerID и Count в качестве столбцов.

    Снимок экрана: таблица с двумя столбцами.

  5. Далее необходимо объединить данные из таблицы Customers с числом заказов на клиента. Чтобы объединить данные, выберите запрос Customers в представлении диаграммы и используйте меню "⋮", чтобы получить доступ к запросам слияния как к новому преобразованию.

    Снимок экрана редактора потока данных с вертикальным многоточием таблицы Customers и новыми выделенными запросами слияния.

  6. Настройте операцию слияния , как показано на следующем снимке экрана, выбрав CustomerID в качестве соответствующего столбца в обеих таблицах. Затем нажмите кнопку ОК.

    Снимок экрана: окно слияния.

    Снимок экрана: окно "Слияние" с левой таблицей для слияния в таблице "Клиенты", а в таблице Right для слияния — таблица "Заказы". Столбец CustomerID выбирается для таблиц Клиенты и Заказы. Кроме того, для параметра Тип соединения задано значение Левая внешняя. Для всех остальных параметров задано значение по умолчанию.

  7. После выполнения запроса слияния в качестве новой операции вы получите новый запрос со всеми столбцами из таблицы Customers и одним столбцом с вложенными данными из таблицы Orders.

    Снимок экрана: редактор потоков данных с новым запросом слияния, добавленным справа от таблиц

  8. В этом примере вас интересует только подмножество столбцов в таблице Customers. Вы выберете эти столбцы с помощью представления схемы. Включите представление схемы с помощью переключателя в правом нижнем углу редактора потоков данных.

    Снимок экрана: редактор потоков данных с кнопкой представления схемы, подчеркнутой в правом нижнем углу.

  9. Представление схемы предоставляет специализированное представление сведений о схеме таблицы, включая имена столбцов и типы данных. Представление схемы содержит набор средств схемы, доступных на контекстной вкладке ленты. В этом сценарии вы выберете столбцы CustomerID, CompanyName и Orders (2), а затем нажмите кнопку Удалить столбцы , а затем выберите Удалить другие столбцы на вкладке Средства схемы .

    Снимок экрана: представление схемы со всеми доступными именами столбцов с выделенными столбцами CustomerID, CompanyName и Orders (2).

    Снимок экрана: меню

  10. Столбец Orders (2) содержит вложенные сведения, полученные в результате операции слияния, выполненной несколько шагов назад. Теперь вернитесь в представление данных, нажав кнопку Показать представление данных рядом с кнопкой Показать представление схемы в правом нижнем углу пользовательского интерфейса. Затем используйте преобразование Развернуть столбец в заголовке столбца Заказы (2), чтобы выбрать столбец Count .

    Снимок экрана: использование представления данных.

  11. В качестве конечной операции вы хотите ранжировать клиентов по количеству заказов. Выберите столбец Число , а затем нажмите кнопку Столбец ранжирования на вкладке Добавить столбец на ленте.

    Снимок экрана: редактор потоков данных с выбранным столбцом Count (Число).

  12. Оставьте параметры по умолчанию в столбце ранжирования. Затем нажмите кнопку ОК , чтобы применить это преобразование.

    Снимок экрана: окно ранжирования со всеми параметрами по умолчанию.

  13. Теперь переименуйте полученный запрос в "Ранжированные клиенты " с помощью панели параметров запроса в правой части экрана.

    Снимок экрана: редактор потоков данных с выделенным именем

  14. Вы завершили преобразование и объединение данных. Теперь вы настроите параметры назначения выходных данных. Выберите Выбрать назначение данных в нижней части области Параметры запроса .

    Снимок экрана: редактор потоков данных с выделенным расположением назначения данных.

  15. На этом шаге можно настроить выходные данные для базы данных Azure SQL, если она доступна, или пропустить этот шаг, если это не так. В этом интерфейсе вы можете настроить целевой сервер, базу данных и таблицу для результатов запроса в дополнение к методу обновления (Append или Replace).

    Снимок экрана: окно

    Снимок экрана: окно выбора параметров назначения.

  16. Теперь поток данных готов к публикации. Просмотрите запросы в представлении схемы и выберите Опубликовать.

    Снимок экрана: редактор потоков данных с выделенным элементом

    Теперь вы вернетесь в рабочую область. Значок вертушки рядом с именем потока данных указывает на то, что публикация выполняется. После завершения публикации поток данных будет готов к обновлению.

    Важно!

    При создании первого потока данных 2-го поколения в рабочей области будут подготовлены элементы Lakehouse и Warehouse, а также связанные с ними конечная точка SQL и наборы данных, как показано на рисунке ниже. Эти элементы совместно используются всеми потоками данных в рабочей области и необходимы для работы потоков данных 2-го поколения, не должны удаляться и не должны использоваться вне среды потоков данных. Элементы являются подробными сведениями о реализации потока данных 2-го поколения и, хотя в настоящее время видимы, они будут скрыты в будущем.

    Снимок экрана: промежуточные элементы, созданные потоками данных.

  17. В рабочей области щелкните значок Запланировать обновление .

    Снимок экрана: рабочая область с выделенным значком обновления расписания.

  18. Включите запланированное обновление, выберите "Добавить другое время" и настройте обновление, как показано на следующем снимке экрана.

    Снимок экрана: выбор другого времени.

    Снимок экрана: параметры запланированного обновления с включенным запланированным обновлением, частотой обновления ежедневно, часовой поясом, установленным координированным универсальным временем, а для параметра Время установлено значение 4:00. Выделены кнопка "Включено", выбор "Добавить еще одно время", "Владелец потока данных" и кнопка "Применить".

Очистка ресурсов

Если вы не собираетесь продолжать использовать этот поток данных, удалите его, выполнив следующие действия.

  1. Перейдите в рабочую область Microsoft Fabric.

    Снимок экрана: окно рабочих областей, в котором выполняется переход к рабочей области.

  2. Щелкните вертикальное многоточие рядом с именем потока данных и нажмите кнопку Удалить.

    Снимок экрана с тремя вертикальными точками и выделенным параметром удаления в раскрывающемся меню.

  3. Выберите Удалить , чтобы подтвердить удаление потока данных.

    Снимок экрана: окно

Дальнейшие действия

Поток данных в этом примере показывает, как загружать и преобразовывать данные в потоке данных 2-го поколения. Вы ознакомились с выполнением следующих задач:

  • Создайте поток данных 2-го поколения.
  • Преобразовать данные.
  • Настройка параметров назначения для преобразованных данных.
  • Запустите и запланируйте конвейер данных.

Перейдите к следующей статье, чтобы узнать, как создать первый конвейер данных.