OneLake, OneDrive для данных
OneLake — это единое, единое, логическое озеро данных для всей организации. Озеро данных обрабатывает большие объемы данных из различных источников. Как и OneDrive, OneLake автоматически поставляется с каждым клиентом Microsoft Fabric и предназначен для единого места для всех данных аналитики. OneLake приносит клиентам:
- Одно озеро данных для всей организации
- Одна копия данных для использования с несколькими аналитическими подсистемами
Одно озеро данных для всей организации
Прежде чем OneLake, клиентам было проще создавать несколько озер для разных бизнес-групп, а не сотрудничать в одном озере, даже с дополнительными затратами на управление несколькими ресурсами. OneLake фокусируется на удалении этих проблем путем улучшения совместной работы. Каждый клиент клиента имеет ровно один OneLake. Там никогда не может быть несколько, и если у вас есть Fabric, никогда не может быть нуля. Каждый клиент Fabric автоматически подготавливает OneLake без дополнительных ресурсов для настройки или управления ими.
Управляется по умолчанию распределенным владением для совместной работы
Концепция клиента — это уникальное преимущество службы SaaS. Зная, где начинается и заканчивается организация клиента, обеспечивает естественную границу управления и соответствия требованиям, которая находится под контролем администратора клиента. Все данные, которые приземляется в OneLake, регулируются по умолчанию. Хотя все данные находится в пределах границ, установленных администратором клиента, важно, чтобы этот администратор не стал центральным вратарем, предотвращая участие других частей организации в OneLake.
В клиенте можно создать любое количество рабочих областей. Рабочие области позволяют различным частям организации распространять политики владения и доступа. Каждая рабочая область является частью емкости, привязанной к конкретному региону и выставляется отдельно.
В рабочей области можно создавать элементы данных и получать доступ ко всем данным в OneLake с помощью элементов данных. Аналогично тому, как Office хранит файлы Word, Excel и PowerPoint в OneDrive, Fabric хранит озера, склады и другие элементы в OneLake. Элементы могут предоставлять специализированные возможности для каждого человека, например опыт разработчика Apache Spark в lakehouse.
Дополнительные сведения о начале работы с OneLake см. в статье "Создание озера с помощью OneLake".
Открытие на каждом уровне
OneLake открыт на каждом уровне. OneLake построен на основе Azure Data Lake Storage (ADLS) 2-го поколения и может поддерживать любой тип файла, структурированного или неструктурированного. Все элементы данных Fabric, такие как хранилища данных и озера, автоматически хранят данные в OneLake в формате Delta Parquet. Если инженер данных загружает данные в lakehouse с помощью Apache Spark, а затем разработчик SQL использует T-SQL для загрузки данных в полностью транзакционный хранилище данных, оба способствуют тому же озеру данных. OneLake сохраняет все табличные данные в формате Delta Parquet.
OneLake поддерживает те же API-интерфейсы ADLS 2-го поколения и пакеты SDK для совместимости с существующими приложениями ADLS 2-го поколения, включая Azure Databricks. Вы можете обращаться к данным в OneLake, как если бы это одна большая учетная запись хранения ADLS для всей организации. Каждая рабочая область отображается как контейнер в этой учетной записи хранения, а различные элементы данных отображаются как папки в этих контейнерах.
Дополнительные сведения об API и конечных точках см. в статье OneLake access and API. Примеры интеграции OneLake с Azure см . в статьях Azure Synapse Analytics, обозревателя службы хранилища Azure, Azure Databricks и Azure HDInsight .
Проводник OneLake для Windows
OneLake — это OneDrive для данных. Как и в OneDrive, вы можете легко просматривать данные OneLake из Windows с помощью проводника OneLake для Windows. Вы можете перемещаться по всем рабочим областям и элементам данных, легко загружать, загружать или изменять файлы так же, как и в Office. Обозреватель файлов OneLake упрощает работу с озерами данных, позволяя даже нетехническим бизнес-пользователям использовать их.
Дополнительные сведения см . в проводнике OneLake.
Одна копия данных
OneLake стремится предоставить максимальное значение из одной копии данных без перемещения или дублирования данных. Вам больше не нужно копировать данные только для использования с другим механизмом или для разбиения силосов, чтобы можно было анализировать данные с данными из других источников.
Сочетания клавиш подключают данные между доменами без перемещения данных
Сочетания клавиш позволяют вашей организации легко обмениваться данными между пользователями и приложениями без необходимости перемещать и дублировать информацию. Если команды работают независимо в отдельных рабочих областях, сочетания клавиш позволяют объединять данные между различными бизнес-группами и доменами в продукт виртуальных данных в соответствии с конкретными потребностями пользователя.
Ярлык — это ссылка на данные, хранящиеся в других расположениях файлов. Эти расположения файлов могут находиться в одной рабочей области или в разных рабочих областях, внутри OneLake или вне OneLake в ADLS, S3 или Dataverse— с большим числом целевых расположений в ближайшее время. Независимо от расположения ярлыки делают файлы и папки похожими на то, что они хранятся локально.
Дополнительные сведения об использовании сочетаний клавиш см . в разделе "Сочетания клавиш OneLake".
Одна копия данных с несколькими аналитическими подсистемами
Хотя приложения могут иметь разделение хранилища и вычислений, данные часто оптимизированы для одного ядра, что затрудняет повторное использование одних и того же данных для нескольких приложений. С помощью Fabric различные аналитические подсистемы (T-SQL, Apache Spark, Analysis Services и т. д.) хранят данные в открытом формате Delta Parquet, чтобы позволить использовать одни и те же данные в нескольких ядрах.
Больше нет необходимости копировать данные только для использования с другим механизмом. Вы всегда можете выбрать лучший механизм для работы, которую вы пытаетесь сделать. Например, представьте, что у вас есть команда инженеров SQL, создающего полностью транзакционный хранилище данных. Они могут использовать подсистему T-SQL и все возможности T-SQL для создания таблиц, преобразования данных и загрузки данных в таблицы. Если специалист по обработке и анализу данных хочет использовать эти данные, им больше не нужно пройти специальный драйвер Spark/SQL. OneLake сохраняет все данные в формате Delta Parquet. Специалисты по обработке и анализу данных могут использовать полную мощность подсистемы Spark и ее библиотек с открытым кодом непосредственно по данным.
Бизнес-пользователи могут создавать отчеты Power BI непосредственно на основе OneLake с помощью нового режима Direct Lake в подсистеме Служб Analysis Services. Подсистема служб Analysis Services — это функции семантических моделей Power BI, и она всегда предлагает два режима доступа к данным: импорт и прямой запрос. Режим Direct Lake предоставляет пользователям все скорости импорта, не требуя копирования данных, сочетая лучший вариант импорта и прямого запроса. Дополнительные сведения см. в разделе Direct Lake.
Пример схемы загрузки данных с помощью Spark, запроса с помощью T-SQL и просмотра данных в отчете Power BI.