Краткое руководство. Создание первого потока данных для получения и преобразования данных
Потоки данных — это самостоятельная облачная технология подготовки данных. В этой статье вы создадите свой первый поток данных, получите данные для потока данных, а затем преобразуете данные и опубликуете поток данных.
Важно!
Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эта информация относится к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении информации, представленной здесь. См. Фабрика данных Azure документацию по службе в Azure.
Предварительные требования
Перед началом работы необходимо выполнить следующие предварительные требования.
- Учетная запись клиента Microsoft Fabric с активной подпиской. Создайте бесплатную учетную запись.
- Убедитесь, что у вас есть рабочая область с поддержкой Microsoft Fabric: создание рабочей области.
создание потока данных;
В этом разделе вы создадите свой первый поток данных.
Переключитесь на фабрику данных или Power BI .
Перейдите в рабочую область Microsoft Fabric.
Выберите Создать, а затем — Поток данных 2-го поколения.
Получение данных
Давайте получим некоторые данные! В этом примере вы будете получать данные из службы OData. Чтобы получить данные в потоке данных, выполните следующие действия.
В редакторе потока данных выберите Получить данные , а затем — Дополнительно.
Выберите OData в качестве источника данных.
Введите URL-адрес
https://services.odata.org/v4/northwind/northwind.svc/
и нажмите кнопку Далее.Выберите таблицы Заказы и Клиенты , а затем щелкните Создать.
Дополнительные сведения о возможностях и функциях получения данных см. в статье Общие сведения о получении данных.
Применение преобразований и публикация
Теперь вы загрузили данные в свой первый поток данных, поздравляем! Теперь пришло время применить несколько преобразований, чтобы привести эти данные в нужную форму.
Вы будете выполнять эту задачу в редакторе Power Query. Подробный обзор редактора Power Query см. в статье Пользовательский интерфейс Power Query.
Выполните следующие действия, чтобы применить преобразования и опубликовать:
Убедитесь, что вы включили представление схемы с помощью параметров на вкладке Вид на ленте редактора Power Query. Кроме того, убедитесь, что средства профилирования данных включены, перейдя в меню Параметры дома>>Глобальные параметры.
В таблице Заказы вы подсчитаете общее количество заказов на клиента. Чтобы достичь этой цели, выберите столбец CustomerID в предварительном просмотре данных, а затем выберите Группировать по на вкладке Преобразование на ленте.
Вы будете выполнять подсчет строк в качестве агрегирования в group by. Дополнительные сведения о возможностях группирования по см. в статье Группирование или суммирование строк.
После группировки данных в таблице Orders мы получим таблицу из двух столбцов с CustomerID и Count в качестве столбцов.
Далее необходимо объединить данные из таблицы Customers с числом заказов на клиента. Чтобы объединить данные, выберите запрос Customers в представлении диаграммы и используйте меню "⋮", чтобы получить доступ к запросам слияния как к новому преобразованию.
Настройте операцию слияния , как показано на следующем снимке экрана, выбрав CustomerID в качестве соответствующего столбца в обеих таблицах. Затем нажмите кнопку ОК.
Снимок экрана: окно "Слияние" с левой таблицей для слияния в таблице "Клиенты", а в таблице Right для слияния — таблица "Заказы". Столбец CustomerID выбирается для таблиц Клиенты и Заказы. Кроме того, для параметра Тип соединения задано значение Левая внешняя. Для всех остальных параметров задано значение по умолчанию.
После выполнения запроса слияния в качестве новой операции вы получите новый запрос со всеми столбцами из таблицы Customers и одним столбцом с вложенными данными из таблицы Orders.
В этом примере вас интересует только подмножество столбцов в таблице Customers. Вы выберете эти столбцы с помощью представления схемы. Включите представление схемы с помощью переключателя в правом нижнем углу редактора потоков данных.
Представление схемы предоставляет специализированное представление сведений о схеме таблицы, включая имена столбцов и типы данных. Представление схемы содержит набор средств схемы, доступных на контекстной вкладке ленты. В этом сценарии вы выберете столбцы CustomerID, CompanyName и Orders (2), а затем нажмите кнопку Удалить столбцы , а затем выберите Удалить другие столбцы на вкладке Средства схемы .
Столбец Orders (2) содержит вложенные сведения, полученные в результате операции слияния, выполненной несколько шагов назад. Теперь вернитесь в представление данных, нажав кнопку Показать представление данных рядом с кнопкой Показать представление схемы в правом нижнем углу пользовательского интерфейса. Затем используйте преобразование Развернуть столбец в заголовке столбца Заказы (2), чтобы выбрать столбец Count .
В качестве конечной операции вы хотите ранжировать клиентов по количеству заказов. Выберите столбец Число , а затем нажмите кнопку Столбец ранжирования на вкладке Добавить столбец на ленте.
Оставьте параметры по умолчанию в столбце ранжирования. Затем нажмите кнопку ОК , чтобы применить это преобразование.
Теперь переименуйте полученный запрос в "Ранжированные клиенты " с помощью панели параметров запроса в правой части экрана.
Вы завершили преобразование и объединение данных. Теперь вы настроите параметры назначения выходных данных. Выберите Выбрать назначение данных в нижней части области Параметры запроса .
На этом шаге можно настроить выходные данные для базы данных Azure SQL, если она доступна, или пропустить этот шаг, если это не так. В этом интерфейсе вы можете настроить целевой сервер, базу данных и таблицу для результатов запроса в дополнение к методу обновления (Append или Replace).
Теперь поток данных готов к публикации. Просмотрите запросы в представлении схемы и выберите Опубликовать.
Теперь вы вернетесь в рабочую область. Значок вертушки рядом с именем потока данных указывает на то, что публикация выполняется. После завершения публикации поток данных будет готов к обновлению.
Важно!
При создании первого потока данных 2-го поколения в рабочей области будут подготовлены элементы Lakehouse и Warehouse, а также связанные с ними конечная точка SQL и наборы данных, как показано на рисунке ниже. Эти элементы совместно используются всеми потоками данных в рабочей области и необходимы для работы потоков данных 2-го поколения, не должны удаляться и не должны использоваться вне среды потоков данных. Элементы являются подробными сведениями о реализации потока данных 2-го поколения и, хотя в настоящее время видимы, они будут скрыты в будущем.
В рабочей области щелкните значок Запланировать обновление .
Включите запланированное обновление, выберите "Добавить другое время" и настройте обновление, как показано на следующем снимке экрана.
Снимок экрана: параметры запланированного обновления с включенным запланированным обновлением, частотой обновления ежедневно, часовой поясом, установленным координированным универсальным временем, а для параметра Время установлено значение 4:00. Выделены кнопка "Включено", выбор "Добавить еще одно время", "Владелец потока данных" и кнопка "Применить".
Очистка ресурсов
Если вы не собираетесь продолжать использовать этот поток данных, удалите его, выполнив следующие действия.
Перейдите в рабочую область Microsoft Fabric.
Щелкните вертикальное многоточие рядом с именем потока данных и нажмите кнопку Удалить.
Выберите Удалить , чтобы подтвердить удаление потока данных.
Дальнейшие действия
Поток данных в этом примере показывает, как загружать и преобразовывать данные в потоке данных 2-го поколения. Вы ознакомились с выполнением следующих задач:
- Создайте поток данных 2-го поколения.
- Преобразовать данные.
- Настройка параметров назначения для преобразованных данных.
- Запустите и запланируйте конвейер данных.
Перейдите к следующей статье, чтобы узнать, как создать первый конвейер данных.
Обратная связь
Отправить и просмотреть отзыв по