Часто задаваемые вопросы об аналитике в масштабе облака

Ниже приведены распространенные вопросы, задаваемые об облачной аналитике.

Учетные записи хранения

Зачем нужны три отдельные учетные записи хранения? Можно ли иметь только одну учетную запись с тремя контейнерами для каждого уровня (необработанные, уточненные и отобранные данные)?

В большинстве современных шаблонов аналитики используются три уровня: необработанные, уточненные и отобранные данные. Хотя эти данные могут находиться в одном хранилище, в крупномасштабных реализациях это создает проблемы с превышением допустимого числа разрешений на управление доступом на основе ролей (RBAC) и разрешений списка управления доступом (ACL), доступных в одной учетной записи хранения. При использовании отдельных учетных записей хранения в большинстве реализаций этой проблемы можно избежать.

Другие причины рассматриваются в статье Обзор Azure Data Lake Storage для аналитики в масштабе облака.

Databricks

Следует ли развертывать рабочую область Azure Databricks для каждого продукта?

Рекомендуется использовать общую рабочую область аналитики и обработки и анализа данных Azure Databricks в целевой зоне.

Это решение было принято, чтобы снизить накладные затраты на команду по работе с платформой данных. Azure Databricks имеет набор изолированных политик, которые не интегрированы в политики Azure. В крупных средах настройка большего количества рабочих областей Azure Databricks приводит к появлению дополнительных затрат на управление. Например, поддержка политик и версий Apache Hive, обновление версий ADB и применение внешнего хранилища метаданных Apache Hive. Централизованная команда по поддержке платформы не может принудительно применять определенные параметры в любой из рабочих областей Databricks. Мы рекомендуем использовать общие рабочие области для групп разработчиков в целевых зонах, в которых команды по работе с платформой данных могут определять необходимые политики кластера и скрипты инициализации.

Рекомендуется использовать пиринг виртуальных сетей между целевыми зонами и частными конечными точками. Для Azure Databricks используйте внедрение виртуальной сети. Так как все конечные точки находятся в прямой видимости, проблемы с подключением отсутствуют.

Дальнейшие действия

Процесс приема с помощью аналитики в масштабе облака в Azure