Что такое обработка и анализ данных в Microsoft Fabric?
Microsoft Fabric предлагает возможности обработки и анализа данных, позволяющие пользователям выполнять комплексные рабочие процессы обработки и анализа данных для обогащения данных и бизнес-аналитики. Вы можете выполнить широкий спектр действий в рамках всего процесса обработки и анализа данных, вплоть до изучения, подготовки и очистки данных до экспериментирования, моделирования, оценки моделей и обслуживания прогнозных аналитических сведений до отчетов бизнес-аналитики.
Пользователи Microsoft Fabric могут получить доступ к домашней странице обработки и анализа данных. Оттуда они могут обнаруживать и получать доступ к различным соответствующим ресурсам. Например, они могут создавать эксперименты машинного обучения, модели и записные книжки. Они также могут импортировать существующие записные книжки на домашней странице обработки и анализа данных.
Возможно, вы знаете, как работает типичный процесс обработки и анализа данных. Как известный процесс, большинство проектов машинного обучения следуют за ним.
На высоком уровне процесс включает следующие действия:
- Формулировка и идея проблемы
- Обнаружение и предварительная обработка данных
- Экспериментирование и моделирование
- Обогащение и внедрение
- Получение аналитических сведений
В этой статье описываются возможности обработки и анализа данных Microsoft Fabric с точки зрения процесса обработки и анализа данных. Для каждого шага процесса обработки и анализа данных в этой статье перечислены возможности Microsoft Fabric, которые могут помочь.
Формулировка и идея проблемы
Пользователи обработки и анализа данных в Microsoft Fabric работают на той же платформе, что и бизнес-пользователи и аналитики. Общий доступ к данным и совместная работа становятся более простыми в разных ролях в результате. Аналитики могут легко обмениваться отчетами и наборами данных Power BI с специалистами по обработке и анализу данных. Простота совместной работы между ролями в Microsoft Fabric упрощает передачу на этапе разработки проблем.
Обнаружение и предварительная обработка данных
Пользователи Microsoft Fabric могут взаимодействовать с данными в OneLake с помощью элемента Lakehouse. Lakehouse легко подключается к записной книжке для просмотра и взаимодействия с данными.
Пользователи могут легко считывать данные из Lakehouse непосредственно в DataFrame Pandas. Для изучения это позволяет легко считывать данные из OneLake.
Мощный набор инструментов доступен для конвейеров приема данных и оркестрации данных с конвейерами интеграции данных — встроенной частью Microsoft Fabric. Конвейеры данных легкой сборки могут получать доступ к данным и преобразовывать их в формат, который может использовать машинное обучение.
Исследование данных
Важной частью процесса машинного обучения является понимание данных с помощью изучения и визуализации.
В зависимости от расположения хранилища данных Microsoft Fabric предлагает набор различных средств для изучения и подготовки данных для аналитики и машинного обучения. Записные книжки становятся одним из самых быстрых способов начать изучение данных.
Apache Spark и Python для подготовки данных
Microsoft Fabric предлагает возможности для преобразования, подготовки и изучения данных в большом масштабе. С помощью Spark пользователи могут использовать средства PySpark/Python, Scala и SparkR/SparklyR для предварительной обработки данных в масштабе. Мощные библиотеки визуализации с открытым кодом могут улучшить возможности изучения данных, чтобы лучше понять данные.
Средство обработки данных для бесперебойной очистки данных
Microsoft Fabric Notebook добавил возможность использовать Data Wrangler, инструмент для подготовки данных и генерации кода на Python. Благодаря этому можно легко ускорить емкие и простые задачи, например очистку данных, а также создавать повторяемость и автоматизацию с помощью созданного кода. Дополнительные сведения о Data Wrangler см. в разделе "Data Wrangler" этого документа.
Экспериментирование и моделирование машинного обучения
С помощью таких средств, как PySpark/Python, SparklyR/R, записные книжки могут обрабатывать обучение модели машинного обучения.
Алгоритмы и библиотеки машинного обучения могут помочь обучать модели машинного обучения. Средства управления библиотеками могут устанавливать эти библиотеки и алгоритмы. Поэтому пользователи могут использовать множество популярных библиотек машинного обучения для завершения обучения модели машинного обучения в Microsoft Fabric.
Кроме того, популярные библиотеки, такие как Scikit Learn, также могут разрабатывать модели.
Эксперименты и запуски в MLflow позволяют отслеживать процесс обучения модели машинного обучения. Microsoft Fabric предлагает встроенный интерфейс MLflow, с помощью которого пользователи могут взаимодействовать, регистрировать эксперименты и модели. Узнайте больше о том, как использовать MLflow для отслеживания экспериментов и управления моделями в Microsoft Fabric.
SynapseML
Библиотека с открытым кодом SynapseML (ранее известная как MMLSpark) с открытым исходным кодом, которую корпорация Майкрософт владеет и поддерживает, упрощает массово масштабируемое создание конвейера машинного обучения. Как экосистема инструментов расширяет платформу Apache Spark в нескольких новых направлениях. SynapseML объединяет несколько существующих платформ машинного обучения и новых алгоритмов Майкрософт в единый масштабируемый API. Библиотека SynapseML с открытым кодом включает в себя богатую экосистему средств машинного обучения для разработки прогнозных моделей, а также использование предварительно обученных моделей ИИ из служб ИИ Azure. Дополнительные сведения о SynapseML.
Обогащение и внедрение
Записные книжки могут обрабатывать пакетную оценку модели машинного обучения с помощью библиотек с открытым исходным кодом для прогнозирования или масштабируемой универсальной функции Spark Predict, которая поддерживает упакованные модели MLflow в реестре моделей Microsoft Fabric.
Получение аналитических сведений
В Microsoft Fabric прогнозируемые значения можно легко записать в OneLake и без труда использовать в отчетах Power BI благодаря режиму Power BI Direct Lake. Это позволяет специалистам по обработке и анализу данных легко обмениваться результатами работы с заинтересованными лицами, а также упрощает эксплуатацию.
Ноутбуки, содержащие пакетное оценивание, можно запланировать для выполнения с помощью функций планирования записных книжек. Пакетная оценка может быть запланирована как часть операций конвейера данных или заданий Spark. Power BI автоматически получает последние прогнозы без необходимости загрузки или обновления данных благодаря режиму Direct Lake в Microsoft Fabric.
Исследование данных с семантической ссылкой
Специалисты по обработке и анализу данных и бизнес-аналитики проводят много времени, пытаясь понять, очистить и преобразовать данные, прежде чем они смогут начать любой значимый анализ. Бизнес-аналитики обычно работают с семантической моделью и кодируют свои знания о домене и бизнес-логику в меры Power BI. С другой стороны, специалисты по обработке и анализу данных могут работать с теми же данными, но обычно в другой среде кода или языке.
Семантическая связь позволяет специалистам по обработке и анализу данных в Microsoft Fabric установить связь между семантических моделей Power BI и Synapse Data Science через библиотеку SemPy Python. SemPy упрощает аналитику данных путем записи и использования семантики данных, так как пользователи выполняют различные преобразования в семантических моделях. Используя семантику, специалисты по обработке и анализу данных могут:
- избегайте необходимости повторной реализации бизнес-логики и знаний домена в коде.
- Легко получить доступ к показателям Power BI и использовать их в коде.
- используйте семантику для создания новых возможностей, таких как семантические функции
- изучение и проверка функциональных зависимостей и связей между данными
С помощью SemPy организации могут ожидать следующее:
- повышение производительности и ускорение совместной работы между командами, работающими в одном наборе данных.
- повышение совместной работы между бизнес-аналитикой и командами искусственного интеллекта
- снижение неоднозначности и более простая кривая обучения при подключении к новой модели или набору данных
Дополнительные сведения о семантической ссылке см. в разделе Что такое семантическая связь?.
Связанное содержимое
- Начало работы с комплексными примерами обработки и анализа данных см. руководства по обработке и анализу данных
- Дополнительные сведения о подготовке и очистке данных с помощью Data Wrangler см. в Data Wrangler
- Дополнительные сведения об отслеживании экспериментов см. в эксперименте машинного обучения
- Дополнительные сведения об управлении моделями см. в модели машинного обучения
- Дополнительные сведения о пакетной оценке с помощью функции Predict см. в разделе Оценивание моделей с помощью PREDICT
- Подключение прогнозов из Lakehouse в Power BI с помощью прямой режим озера