Поделиться через


Руководства по данным

Платформа аналитики данных Databricks позволяет специалистам по анализу данных всей организации совместно работать и создавать решения для обработки данных с помощью общих, безопасно управляемых ресурсов данных и средств.

Эта страница помогает определить правильную отправную точку для вашего варианта использования.

Для многих задач в Azure Databricks требуются повышенные разрешения. Многие организации ограничивают эти повышенные разрешения небольшим количеством пользователей или команд. Эта страница разграничивает действия, которые могут выполняться большинством пользователей в рабочей области, от действий, которые ограничены привилегированными пользователями.

Администраторы рабочей области помогут вам определить, следует ли запрашивать доступ к ресурсам или запрашивать повышенные разрешения.

Поиск и доступ к данным

В этом разделе представлен краткий обзор задач, которые помогут вам обнаружить доступные ресурсы данных. Большинство этих задач предполагают, что администратор настроил разрешения на ресурсы данных. См. Настройте доступ к данным.

Область функций Resources
Обнаружение данных Более подробный обзор задач обнаружения данных см. в разделе Обнаружение данных.
Catalogs Каталоги — это объект верхнего уровня в модели управления данными каталога Unity. Используйте обозреватель каталога для поиска таблиц, представлений и других ресурсов данных. См. обзор объектов базы данных.
Подключено хранилище Если у вас есть доступ к вычислительным ресурсам, можно использовать встроенные команды для изучения файлов в подключенном хранилище. Посмотрите на Обзор хранилища и поиск файлов данных.
Отправка локальных файлов По умолчанию у пользователей есть разрешения на отправку небольших файлов данных с локального компьютера, например csvs. См. как создать или изменить таблицу с помощью загрузки файлов.

Работа с данными

В этом разделе представлен обзор распространенных задач данных и средств, используемых для выполнения этих задач.

Для всех описанных задач пользователи должны иметь соответствующие разрешения на инструменты, вычислительные ресурсы, данные и другие артефакты рабочей области. См. настройка доступа к данным и настройка рабочих областей иинфраструктуры.

Область функций Resources
Объекты базы данных Помимо таблиц и представлений Azure Databricks использует другие защищаемые объекты базы данных, такие как тома для безопасного управления данными. См. объекты базы данных в Azure Databricks.
Разрешения данных Каталог Unity управляет всеми операциями чтения и записи в включенных рабочих областях. Для выполнения этих операций необходимо иметь достаточные разрешения. См. защищаемые объекты в каталоге Unity .
ETL Рабочие нагрузки извлечения, преобразования и загрузки (ETL) являются наиболее распространенными для Apache Spark и Azure Databricks, а большая часть платформы имеет функции, созданные и оптимизированные для ETL. См. Руководство: Создание ETL-конвейера с помощью декларативных конвейеров Lakeflow Spark.
Queries
  • Все преобразования, отчеты, анализы или обучение модели начинаются с запроса к таблицам, представлениям или файлам данных. Данные можно запрашивать с помощью пакетной или потоковой обработки. См. данные запроса .
  • Выполнение нерегламентированных запросов с помощью редактора запросов SQL или записных книжек для запроса таблиц, представлений и других ресурсов данных. Ознакомьтесь с созданием запросов и изучением данных в новом редакторе SQL и блокнотами Databricks.
Панели мониторинга & аналитика
  • Панели мониторинга AI/BI позволяют легко извлекать и визуализировать аналитические сведения в пользовательском интерфейсе. См. панели мониторинга.
  • Пространства Genie используют текстовые запросы, чтобы ответить на вопросы и предоставить аналитические сведения, основанные на ваших данных. См. Что такое пространство AI/BI Genie.
Ingest
  • Lakeflow Connect отправляет данные из популярных внешних систем. См. Managed connectors in Lakeflow Connect.
  • Автозагрузчик можно использовать с декларативными конвейерами Lakeflow Spark или заданиями структурированной потоковой передачи для добавочного приема данных из облачного хранилища объектов. См. Что такое автозагрузчик?.
  • Вы можете использовать декларативные конвейеры Lakeflow Spark или структурированную потоковую передачу для приема данных из очередей сообщений, включая Kafka. См. потоковые данные запроса.
Transformations Azure Databricks использует общий синтаксис и инструменты для преобразований, которые варьируются от инструкций SQL CTAS до приложений потоковой передачи, работающих практически в режиме реального времени.
ИИ и машинное обучение Платформа аналитики данных Databricks предоставляет набор средств для обработки и анализа данных, машинного обучения и приложений ИИ. См. ИИ и машинное обучение на платформе Databricks.

Настройка доступа к данным

Большинство рабочих областей Azure Databricks полагаются на администратора рабочей области или других пользователей, чтобы настроить подключения к внешним источникам данных и применить привилегии к ресурсам данных на основе членства в команде, региона или ролей. В этом разделе представлен обзор распространенных задач по настройке и управлению доступом к данным, которым требуются повышенные разрешения.

Note

Прежде чем запрашивать повышенные разрешения для настройки нового подключения к источнику данных, убедитесь, что у вас просто отсутствуют права на существующее подключение, каталог или таблицу. Если источник данных недоступен, обратитесь к организации за политикой добавления новых данных в рабочую область.

Область функций Resources
Каталог Unity
  • Каталог Unity обеспечивает возможности управления данными, встроенные в платформу Databricks Data Intelligence. См. статью Что такое каталог Unity?.
  • Администраторы учетных записей Databricks, администраторы рабочих областей и администраторы хранилища метаданных имеют привилегии по умолчанию для управления правами доступа к данным каталога Unity для пользователей. См. Управление привилегиями в каталоге Unity.
Подключения и доступ
Общий доступ к каталогам и панелям мониторинга
  • Администраторы могут создавать новые каталоги. Каталоги предоставляют высокоуровневую абстракцию для изоляции данных и могут быть связаны с отдельными рабочими областями или общими для всех рабочих областей в учетной записи. См. Создание каталогов.
  • Панели мониторинга AI/BI поощряют владельцев внедрять свои учетные данные при публикации, гарантируя, что зрители могут получать аналитические сведения от общих результатов. Дополнительные сведения см. в статье Совместное использование панели мониторинга.

Настройка рабочих областей и инфраструктуры

В этом разделе представлен обзор распространенных задач, связанных с администрированием ресурсов рабочей области и инфраструктуры. Широко определенные ресурсы рабочей области включают следующее:

  • Вычислительные ресурсы. Вычислительные ресурсы включают всёцелевые интерактивные кластеры, хранилища SQL, кластеры задач и вычисления в конвейере. Пользователь или рабочая нагрузка должны иметь разрешения на подключение к запущенным вычислительным ресурсам, чтобы обработать указанную логику.

    Note

    Пользователи, у которых нет доступа к ресурсам вычислений, имеют очень ограниченные функциональные возможности в Azure Databricks.

  • Инструменты платформы. Платформа интеллектуальной обработки данных Databricks предоставляет набор инструментов, предназначенных для различных вариантов использования и пользователей, таких как записные книжки, Databricks SQL и Mosaic AI. Администраторы могут настраивать параметры, включающие поведение по умолчанию, необязательные функции и доступ пользователей для многих из этих средств.

  • артефакты: артефакты включают записные книжки, запросы, панели мониторинга, файлы, библиотеки, конвейеры и задания. Артефакты содержат код и конфигурации, которые пользователи создают для выполнения необходимых действий с данными.

Important

По умолчанию пользователю, создающему ресурс рабочей области, назначается роль владельца . Для большинства ресурсов владельцы могут предоставлять разрешения любому другому пользователю или группе в рабочей области.

Чтобы обеспечить безопасность данных и кода, Databricks рекомендует настроить роль владельца для всех артефактов и вычислительных ресурсов, развернутых в рабочей рабочей области.

Область функций Resources
Права рабочей области Права рабочей области включают базовый доступ к рабочей области, доступ к Databricks SQL и неограниченное создание кластера. См. раздел Управление правами.
Политики доступа к вычислительным ресурсам &
  • Большинство затрат на Azure Databricks предназначены для вычислительных ресурсов. Управление тем, какие пользователи могут настраивать, развертывать, запускать и использовать различные ресурсы жизненно важно для управления затратами. Обзор классических вычислений.
  • Политики вычислений работают в тандеме с правами вычислений рабочей области, чтобы гарантировать, что пользователи, имеющие право, развертывают вычислительные ресурсы только в соответствии с указанными правилами конфигурации. См. создание политик вычислений и управление ими.
  • Администраторы могут настроить поведение по умолчанию, политики доступа к данным и доступ пользователей к хранилищам SQL. См. параметры администратора хранилища SQL .
Средства платформы Используйте консоль администрирования для настройки поведения, начиная от настройки внешнего вида рабочей области до включения или отключения продуктов и функций. См. Управление вашей рабочей областью.
Списки управления доступом к рабочей области Списки управления доступом рабочей области (ACL) управляют способом взаимодействия пользователей и групп с ресурсами рабочей области, включая вычислительные ресурсы, артефакты кода и задания. См. списки управления доступом .

Производство рабочих нагрузок

Все продукты Azure Databricks создаются для ускорения пути разработки к рабочей среде, а также для обеспечения масштабирования и стабильности. В этом разделе представлено краткое введение в набор средств, рекомендованных для вывода нагрузок в эксплуатацию.

Область функций Resources
Конвейеры ETL Декларативные потоки Spark Lakeflow предоставляют декларативный синтаксис для создания и внедрения ETL-потоков. См. Lakeflow Spark декларативные конвейеры.
Orchestration Задания позволяют вам определять сложные рабочие процессы с зависимостями, триггерами и графиками. Смотрите Задания Lakeflow.
CI/CD Пакеты ресурсов Databricks упрощают управление и развертывание данных, ресурсов и артефактов в рабочих областях. См. Что такое пакеты ресурсов Databricks?.