Что означает создание единого источника достоверных данных?
Databricks lakehouse устраняет необходимость создания и синхронизации копий данных в нескольких системах путем объединения доступа к данным и хранилищу в одной системе, устанавливая lakehouse в качестве единого источника истины (SSOT). Дублирование данных часто приводит к тому, что разные команды в организации могут работать с версиями одних и того же данных разного качества и свежести.
Как гибридное решение "хранилище и озеро данных" управляет транзакциями и доступом к данным?
Транзакции Delta Lake используют файлы журналов, хранящиеся вместе с файлами данных, чтобы предоставить гарантии ACID на уровне таблицы. Так как файлы данных и журналов, резервные таблицы Delta Lake находятся в одном облачном хранилище объектов, чтение и запись данных могут происходить одновременно без риска многих запросов, что приводит к снижению производительности или взаимоблокировке для критически важных для бизнеса рабочих нагрузок. Это означает, что пользователи и приложения в корпоративной среде могут подключаться к одной копии данных для выполнения различных рабочих нагрузок, при этом все средства просмотра гарантированно получат самую последнюю версию данных во время выполнения запроса.
Управление доступом к рабочим данным
Каталог Unity предоставляет централизованное решение для управления данными, которое позволяет администраторам данных обеспечить детальное управление доступом для пользователей, групп и субъектов-служб. Каталог Unity управляет разрешениями с помощью списков управления доступом (ACL), которые обеспечивают гибкость и избирательность при настройке ресурсов. Некоторые настраиваемые разрешения включают следующие:
- доступ только для чтения к нескольким таблицам;
- разрешения на создание и изменение таблиц для базы данных;
- возможность чтения или изменения данных в определенном расположении облачного хранилища;
- доступ ко многим облачным ресурсам с помощью управляемых учетных данных хранилища каталога Unity.
Дополнительные сведения см. в статье Что такое Unity Catalog?
Использование представлений в гибридном решении "хранилище и озеро данных"
Представления в Azure Databricks представляют сохраненные запросы к данным, хранящимся в таблицах в гибридном решении "хранилище и озеро данных". В то время как запросы, которые приводят к таблицам, выполняются во время записи, представления выполняют определяющую логику при каждом выполнении запроса к представлению. Это означает, что представления могут предоставлять актуальный доступ к данным из различных источников, а вычислительные ресурсы тратятся только на обновление результатов по мере необходимости.
Каталог Unity можно использовать для защиты и совместного использования представлений вместе с другими объектами данных, чтобы отдельные лица и команды использовали общую логику, определяющую ключевые бизнес-решения в организации.
Дополнительные сведения см. в разделе "Что такое представление?".
Использование общих данных с участниками совместной работы
Несмотря на то что списки управления доступом в каталоге Unity охватывают широкий спектр вариантов использования для общего доступа к данным в организации предприятия, функция разностного общего доступа дополнительно расширяет их благодаря управлению доступом только для чтения к наборам данных, которые можно использовать вместе с участниками совместной работы в любом месте. Варианты использования, поддерживаемые каталогом Unity, включают:
- Предоставление доступа к региональной аналитике в режиме реального времени для изолированных регионов многонациональных корпораций.
- Совместное использование наборов данных в изолированных компаниях, которые входят в одну корпорацию.
- Обеспечение безопасного доступа к курируемым клиентом наборам данных для сторонних потребителей.
В Azure Databricks функция разностного общего доступа встроена каталога Unity, но он также является частью Delta Lake с открытым кодом. Дополнительные сведения см. в разделе "Общий доступ к данным и ресурсам искусственного интеллекта" безопасно с помощью разностного общего доступа.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по