Терминология Microsoft Fabric

Сведения о определениях терминов, используемых в Microsoft Fabric, включая термины, относящиеся к хранилищу данных Synapse, Synapse Инжиниринг данных, Synapse Обработка и анализ данных, Synapse Real-Time Analytics, Фабрике данных и Power BI.

Общие условия

  • Емкость. Емкость — это выделенный набор ресурсов, доступных в определенное время для использования. Емкость определяет способность ресурса выполнять действие или производить выходные данные. Разные элементы используют другую емкость в определенное время. Fabric предлагает емкость через SKU Fabric и пробные версии. Дополнительные сведения см. в разделе "Что такое емкость?"

  • Опыт. Коллекция возможностей, предназначенных для определенной функциональности. Интерфейсы Fabric включают Хранилище данных Synapse, Synapse Инжиниринг данных, Synapse Обработка и анализ данных, Synapse Real-Time Analytics, Фабрику данных и Power BI.

  • Элемент: элемент набор возможностей в интерфейсе. Пользователи могут создавать, изменять и удалять их. Каждый тип элемента предоставляет различные возможности. Например, интерфейс Инжиниринг данных включает элементы определения заданий Lakehouse, notebook и Spark.

  • Клиент: клиент является одним экземпляром Fabric для организации и соответствует идентификатору Microsoft Entra.

  • Рабочая область: рабочая область — это коллекция элементов, объединяющих различные функциональные возможности в одной среде, предназначенной для совместной работы. Он выступает в качестве контейнера, использующего емкость для выполняемой работы, и предоставляет элементы управления для доступа к элементам в нем. Например, в рабочей области пользователи создают отчеты, записные книжки, семантические модели и т. д. Дополнительные сведения см. в статье "Рабочие области ".

Инжиниринг данных Synapse

  • Lakehouse: Lakehouse — это коллекция файлов, папок и таблиц, представляющих базу данных через озеро данных, используемое подсистемой Apache Spark и подсистемой SQL для обработки больших данных. Lakehouse включает расширенные возможности для транзакций ACID при использовании таблиц с открытым исходным кодом Разностных форматированных таблиц. Элемент Lakehouse размещается в уникальной папке рабочей области в Microsoft OneLake. Он содержит файлы в различных форматах (структурированных и неструктурированных) в папках и вложенных папках. Дополнительные сведения см. в статье о том, что такое lakehouse?

  • Записная книжка: записная книжка Fabric — это мультиязычное интерактивное средство программирования с расширенными функциями. К ним относятся разработка кода и markdown, выполнение и мониторинг задания Spark, просмотр и визуализация результатов, а также совместная работа с командой. Это помогает инженерам и специалистам по обработке и анализу данных и анализу данных, а также создавать эксперименты машинного обучения как с кодом, так и с низким кодом. Его можно легко преобразовать в действие конвейера для оркестрации.

  • Приложение Spark: приложение Apache Spark — это программа, написанная пользователем с помощью одного из языков API Spark (Scala, Python, Spark SQL или Java) или добавленных корпорацией Майкрософт языков (.NET с C# или F#). При запуске приложения оно делится на одно или несколько заданий Spark, которые выполняются параллельно для обработки данных быстрее. Дополнительные сведения см. в разделе "Мониторинг приложений Spark".

  • Задание Apache Spark: задание Spark является частью приложения Spark, которое выполняется параллельно с другими заданиями в приложении. Задание состоит из нескольких задач. Дополнительные сведения см. в разделе "Мониторинг заданий Spark".

  • Определение задания Apache Spark: определение задания Spark — это набор параметров, заданных пользователем, указывающий, как должно выполняться приложение Spark. Он позволяет отправлять пакетные или потоковые задания в кластер Spark. Дополнительные сведения см. в разделе "Что такое определение задания Apache Spark"?

  • V-order: оптимизация записи в формат файла Parquet, который позволяет быстро считывать и обеспечивает экономичность и более высокую производительность. Все подсистемы Fabric по умолчанию записывают упорядоченные v-упорядоченные файлы parquet.

Фабрика данных

  • Подключение or: Фабрика данных предлагает широкий набор соединителей, которые позволяют подключаться к различным типам хранилищ данных. После подключения можно преобразовать данные. Дополнительные сведения см. в разделе соединителей.

  • Конвейер данных: в фабрике данных конвейер данных используется для оркестрации перемещения и преобразования данных. Эти конвейеры отличаются от конвейеров развертывания в Fabric. Дополнительные сведения см. в разделе "Конвейеры" в обзоре фабрики данных.

  • Поток данных 2-го поколения: потоки данных предоставляют интерфейс низкого кода для приема данных из сотен источников данных и преобразования данных. Потоки данных в Fabric называются потоком данных 2-го поколения. Поток данных 1-го поколения существует в Power BI. Поток данных 2-го поколения предоставляет дополнительные возможности по сравнению с потоками данных в Фабрика данных Azure или Power BI. Невозможно обновить с 1-го поколения до 2-го поколения. Дополнительные сведения см. в разделе "Потоки данных" в обзоре фабрики данных.

Обработка и анализ данных Synapse

  • Data Wrangler: Data Wrangler — это средство на основе записных книжек, которое предоставляет пользователям иммерсивный интерфейс для проведения анализа аналитических данных. Эта функция объединяет отображение данных, например сетки, с динамической сводной статистикой и набором общих операций очистки данных, доступных с несколькими выбранными значками. Каждая операция создает код, который можно сохранить обратно в записную книжку в качестве многократно используемых скриптов.

  • Эксперимент. Эксперимент машинного обучения является основным подразделением организации и контролем для всех связанных запусков машинного обучения. Дополнительные сведения см . в статье "Эксперименты машинного обучения" в Microsoft Fabric.

  • Модель. Модель машинного обучения — это файл, обученный распознавать определенные типы шаблонов. Вы обучаете модель по набору данных и предоставляете его алгоритмом, который он использует для рассудка и обучения из этого набора данных. Дополнительные сведения см. в статье "Модель машинного обучения".

  • Запуск: выполнение соответствует одному выполнению кода модели. В MLflow отслеживание основано на экспериментах и запусках.

Хранилище данных Synapse

  • Конечная точка аналитики SQL. Каждый Lakehouse имеет конечную точку аналитики SQL, которая позволяет пользователю запрашивать разностные данные таблицы с TSQL по TDS. Дополнительные сведения см. в статье "Конечная точка аналитики SQL".

  • Хранилище данных Synapse: Хранилище данных Synapse работает в качестве традиционного хранилища данных и поддерживает полные возможности T-SQL, которые вы ожидаете от корпоративного хранилища данных. Дополнительные сведения см. в разделе "Хранилище данных Synapse".

Аналитика Synapse в реальном времени

  • База данных KQL: база данных KQL содержит данные в формате, к которому можно выполнять запросы KQL. Дополнительные сведения см. в статье "Запрос базы данных KQL".

  • Набор запросов KQL: набор запросов KQL — это элемент, используемый для выполнения запросов, просмотра результатов и управления результатами запросов из базы данных Обозреватель данных. Набор запросов включает базы данных и таблицы, запросы и результаты. Набор запросов KQL позволяет сохранять запросы для дальнейшего использования или экспортировать и совместно использовать запросы с другими пользователями. Дополнительные сведения см. в разделе "Запросы" в наборе запросов KQL

  • Поток событий: функция потоков событий Microsoft Fabric предоставляет централизованное место на платформе Fabric для записи, преобразования и маршрутизации событий в режиме реального времени в назначения без кода. Поток событий состоит из различных источников данных потоковой передачи, назначений приема и обработчика событий при необходимости преобразования. Дополнительные сведения см. в потоках событий Microsoft Fabric.

OneLake

  • Ярлык. Ярлыки — это внедренные ссылки в OneLake, указывающие на другие расположения хранилища файлов. Они предоставляют способ подключения к существующим данным без необходимости напрямую копировать их. Дополнительные сведения см. в разделе "Сочетания клавиш OneLake".