Руководство. Анализ отчетов инвентаризации BLOB-объектов

Статья
16.07.2024

Понимая, как хранятся, организованы и используются большие двоичные объекты и контейнеры в рабочей среде, вы можете оптимизировать компромиссы между затратами и производительностью.

В этом руководстве показано, как создавать и визуализировать статистику, например рост данных с течением времени, количество измененных файлов, размер моментальных снимков BLOB-объектов, шаблоны доступа по каждому уровню и распределение данных как в данный момент, так и с течением времени (например, данные между уровнями, типами файлов, в контейнерах и типах BLOB-объектов).

В этом руководстве описано следующее:

Создание отчета инвентаризации BLOB-объектов
Настройка рабочей области Synapse
Настройка Synapse Studio
Создание аналитических данных в Synapse Studio
визуализация результатов в Power BI.

Необходимые компоненты

Подписка Azure— создание учетной записи бесплатно
Учетная запись хранения Azure — создание учетной записи хранения

Убедитесь, что удостоверение пользователя назначено роли участника данных BLOB-объектов хранилища.

Создание отчета инвентаризации

Включите отчеты инвентаризации BLOB-объектов для учетной записи хранения. См. раздел "Включить служба хранилища Azure отчеты инвентаризации BLOB-объектов".

Возможно, вам придется ждать до 24 часов после включения отчетов инвентаризации для создания первого отчета.

Настройка рабочей области Synapse

созданию рабочей области Azure Synapse. См. статью "Создание рабочей области Azure Synapse".

Примечание

В рамках создания рабочей области вы создадите учетную запись хранения с иерархическим пространством имен. Azure Synapse хранит таблицы Spark и журналы приложений в этой учетной записи. Azure Synapse ссылается на эту учетную запись как основную учетную запись хранения. Чтобы избежать путаницы, в этой статье используется учетная запись отчета инвентаризации терминов для ссылки на учетную запись , содержащую отчеты инвентаризации.
В рабочей области Synapse назначьте роль участника идентификатору пользователя. См . роль владельца azure RBAC для рабочей области.
Предоставьте рабочей области Synapse разрешение на доступ к отчетам инвентаризации в учетной записи хранения, перейдя к учетной записи отчета инвентаризации, а затем назначьте роль участника данных BLOB-объектов хранилища системе управляемому удостоверению рабочей области. См. статью о назначении ролей Azure с помощью портала Azure.
Перейдите к основной учетной записи хранения и назначьте роль участника хранилища BLOB-объектов идентификатору пользователя.

Настройка Synapse Studio

Откройте рабочую область Synapse в Synapse Studio. См . раздел Open Synapse Studio.
В Synapse Studio убедитесь, что удостоверение назначено роли администратора Synapse. См . статью Synapse RBAC: роль администратора Synapse для рабочей области.
Создайте пул Apache Spark. См. статью "Создание бессерверного пула Apache Spark".

Настройка и запуск примера записной книжки

В этом разделе вы создадите статистические данные, которые будут визуализироваться в отчете. Чтобы упростить это руководство, в этом разделе используется пример файла конфигурации и пример записной книжки PySpark. Записная книжка содержит коллекцию запросов, выполняемых в Azure Synapse Studio.

Изменение и отправка примера файла конфигурации

Скачайте файл BlobInventoryStorageAccountConfiguration.json.
Обновите следующие заполнители этого файла:
- Задайте storageAccountName имя учетной записи отчета инвентаризации.
- Задайте destinationContainer имя контейнера, в котором хранятся отчеты инвентаризации.
- Задайте blobInventoryRuleName имя правила отчета инвентаризации, создающего результаты, которые вы хотите проанализировать.
- Задайте accessKey для ключа учетной записи отчета инвентаризации.
Отправьте этот файл в контейнер в основной учетной записи хранения, указанной при создании рабочей области Synapse.

Импорт примера записной книжки PySpark

Скачайте пример записной книжки ReportAnalysis.ipynb .

Примечание

Сохраните этот файл с расширением .ipynb .
Откройте рабочую область Synapse в Synapse Studio. См . раздел Open Synapse Studio.
В Synapse Studio выберите вкладку "Разработка ".
Выберите знак плюса (+), чтобы добавить элемент.
Выберите "Импорт", перейдите к примеру файла, который вы скачали, выберите этот файл и нажмите кнопку "Открыть".

Откроется диалоговое окно Свойства.
В диалоговом окне "Свойства" выберите ссылку "Настройка сеанса".

Откроется диалоговое окно "Настройка сеанса ".
В раскрывающемся списке "Подключение к подключению" диалогового окна "Настройка сеанса" выберите пул Spark, созданный ранее в этой статье. Затем нажмите кнопку "Применить ".

Изменение записной книжки Python

В первой ячейке записной книжки Python задайте значение storage_account переменной имя основной учетной записи хранения.
Обновите значение переменной container_name до имени контейнера в этой учетной записи, указанной при создании рабочей области Synapse.
Нажмите кнопку Опубликовать.

Запуск записной книжки PySpark

В записной книжке PySpark выберите "Выполнить все".

Для начала сеанса Spark потребуется несколько минут, а еще несколько минут для обработки отчетов инвентаризации. Первый запуск может занять некоторое время, если есть множество отчетов инвентаризации для обработки. Последующие запуски обрабатывают только новые отчеты инвентаризации, созданные с момента последнего выполнения.

Примечание

Если вы внесете изменения в записную книжку, будет запущена записная книжка, обязательно опубликуйте эти изменения с помощью кнопки "Опубликовать ".
Убедитесь, что записная книжка успешно запущена, выбрав вкладку "Данные ".

База данных с именем reportdata должна отображаться на вкладке "Рабочая область " области данных . Если эта база данных не отображается, может потребоваться обновить веб-страницу.

База данных содержит набор таблиц. Каждая таблица содержит сведения, полученные путем выполнения запросов из записной книжки PySpark.
Чтобы проверить содержимое таблицы, разверните папку "Таблицы" базы данных отчетов. Затем щелкните таблицу правой кнопкой мыши и выберите сценарий SQL, а затем выберите top 100 строк.
Вы можете изменить запрос по мере необходимости, а затем нажать кнопку "Выполнить ", чтобы просмотреть результаты.

Визуализация данных

Скачайте пример файла отчета ReportAnalysis.pbit.
Запустите Power BI Desktop. Инструкции по установке см. в разделе "Получение Power BI Desktop".
В Power BI выберите "Файл", "Открыть отчет" и " Обзор отчетов".
В диалоговом окне "Открыть" измените тип файла на файлы шаблонов Power BI (*.pbit).
Перейдите к расположению скачаированного файла ReportAnalysis.pbit , а затем нажмите кнопку "Открыть".

Откроется диалоговое окно, которое запрашивает указать имя рабочей области Synapse и имя базы данных.
В диалоговом окне задайте для поля synapse_workspace_name имя рабочей области и задайте для поля database_name значение reportdata. Затем нажмите кнопку "Загрузить ".

Появится отчет, предоставляющий визуализации данных, полученных записной книжкой. На следующих изображениях показаны типы диаграмм и графов, которые отображаются в этом отчете.

Следующие шаги

Настройте конвейер Azure Synapse для регулярного запуска записной книжки. Таким образом можно обрабатывать новые отчеты инвентаризации по мере их создания. После первоначального выполнения каждый из следующих запусков будет анализировать добавочные данные, а затем обновлять таблицы с результатами этого анализа. Инструкции см. в разделе "Интеграция с конвейерами".
Узнайте о способах анализа отдельных контейнеров в учетной записи хранения. См. следующие статьи:

Расчет числа BLOB-объектов и общего размера для контейнера с помощью инвентаризации хранилища Azure

Руководство. Вычисление статистики контейнеров с помощью Databricks
Узнайте о способах оптимизации затрат на основе анализа больших двоичных объектов и контейнеров. См. следующие статьи:

Планирование затрат и управление ими для Хранилища BLOB-объектов Azure

Оценка стоимости архивирования данных

Оптимизация затрат путем автоматического управления жизненным циклом данных

Фестиваль навыков ИИ

Поделиться через

Необходимые компоненты

Создание отчета инвентаризации

Настройка рабочей области Synapse

Настройка Synapse Studio