Комплексный сценарий обработки и анализа данных: введение и архитектура

Этот набор учебников демонстрирует пример комплексного сценария в интерфейсе обработки и анализа данных Fabric. Вы реализуете каждый шаг от приема данных, очистки и подготовки, обучения моделей машинного обучения и создания аналитических сведений, а затем потребляют эти аналитические сведения с помощью таких средств визуализации, как Power BI.

Если вы не знакомы с Microsoft Fabric, см. статью "Что такое Microsoft Fabric?".

Введение

Жизненный цикл проекта обработки и анализа данных обычно включает (часто итеративно) следующие шаги:

  • Анализ потребностей бизнеса
  • Сбор данных
  • Исследование данных, очистка, подготовка и визуализация
  • Обучение модели и отслеживание экспериментов
  • Оценка моделей и создание аналитических сведений.

Цели и критерии успешности каждого этапа зависят от совместной работы, совместного использования данных и документации. Интерфейс обработки и анализа данных Fabric состоит из нескольких встроенных функций, которые обеспечивают совместную работу, приобретение данных, совместное использование и использование без проблем.

В этих руководствах вы принимаете роль ученого по обработке и анализу данных, который получил задачу для изучения, очистки и преобразования набора данных, содержащего состояние оттока 10 000 клиентов в банке. Затем вы создадите модель машинного обучения, чтобы предсказать, какие клиенты банка, скорее всего, уходят.

Вы узнаете, как выполнить следующие действия:

  1. Используйте записные книжки Fabric для сценариев обработки и анализа данных.
  2. Прием данных в lakehouse Fabric с помощью Apache Spark.
  3. Загрузите существующие данные из таблиц разностных таблиц Lakehouse.
  4. Очистка и преобразование данных с помощью средств на основе Apache Spark и Python.
  5. Создание экспериментов и запусков для обучения различных моделей машинного обучения.
  6. Регистрация и отслеживание обученных моделей с помощью MLflow и пользовательского интерфейса Fabric.
  7. Выполните оценку в масштабе и сохраните прогнозы и результаты вывода в lakehouse.
  8. Визуализация прогнозов в Power BI с помощью DirectLake.

Архитектура

В этом руководстве мы продемонстрируем упрощенный комплексный сценарий обработки и анализа данных, который включает в себя:

  1. Прием данных из внешнего источника данных.
  2. Изучение и очистка данных.
  3. Обучение и регистрация моделей машинного обучения.
  4. Выполнение пакетной оценки и сохранение прогнозов.
  5. Визуализация результатов прогнозирования в Power BI.

Diagram of the Data science end-to-end scenario components.

Различные компоненты сценария обработки и анализа данных

Источники данных — Структура упрощает и быстро подключается к Службам данных Azure, другим облачным платформам и локальным источникам данных для приема данных. С помощью записных книжек Fabric можно получать данные из встроенных lakehouse, хранилища данных, семантических моделей и различных поддерживаемых пользовательских источников данных Apache Spark и Python. В этой серии учебников основное внимание уделяется приему и загрузке данных из lakehouse.

Изучение, очистка и подготовка . Интерфейс обработки и анализа данных в Fabric поддерживает очистку данных, преобразование, исследование и признаки с помощью встроенных возможностей в Spark, а также средств на основе Python, таких как Data Wrangler и Библиотека SemPy. В этом руководстве показано исследование данных с помощью библиотеки seaborn Python и очистки и подготовки данных с помощью Apache Spark.

Модели и эксперименты — Структура позволяет обучать, оценивать и оценивать модели машинного обучения с помощью встроенных экспериментов и элементов модели с простой интеграцией с MLflow для отслеживания экспериментов и регистрации и развертывания моделей. Структура также предоставляет возможности прогнозирования модели в масштабе (PREDICT) для получения и совместного использования бизнес-аналитики.

служба хранилища — Структура стандартизирована в Delta Lake, что означает, что все механизмы Fabric могут взаимодействовать с тем же набором данных, хранящимся в озерном доме. Этот уровень хранения позволяет хранить структурированные и неструктурированные данные, поддерживающие как хранилище на основе файлов, так и табличный формат. К сохраненным наборам данных и файлам можно легко получить доступ через все элементы интерфейса Fabric, такие как записные книжки и конвейеры.

Предоставление анализа и аналитических сведений . Данные из озера можно использовать Power BI, ведущим инструментом бизнес-аналитики в отрасли, для создания отчетов и визуализации. Данные, сохраненные в lakehouse, также можно визуализировать в записных книжках с помощью библиотек визуализации Spark или Python, таких как matplotlib, seabornplotlyи многое другое. Данные также можно визуализировать с помощью библиотеки SemPy, которая поддерживает встроенные, встроенные визуализации для семантической модели данных, для зависимостей и их нарушений, а также для вариантов использования классификации и регрессии.

Следующий шаг