Руководство по анализу отчетов об инвентаризации BLOB-объектов

Понимая, как большие двоичные объекты и контейнеры хранятся, организованы и используются в рабочей среде, вы можете лучше оптимизировать компромиссы между затратами и производительностью.

В этом руководстве показано, как создавать и визуализировать статистику, такую как рост данных с течением времени, данные, добавленные с течением времени, количество измененных файлов, размеры моментальных снимков BLOB-объектов, шаблоны доступа на каждом уровне, а также распределение данных как в текущий момент, так и с течением времени (например, данные по уровням, типам файлов, контейнерам и типам BLOB-объектов).

В этом руководстве описано следующее:

  • Создание отчета об инвентаризации BLOB-объектов
  • Настройка рабочей области Synapse
  • Настройка Synapse Studio
  • Создание аналитических данных в Synapse Studio
  • визуализация результатов в Power BI.

Предварительные требования

Создание отчета об инвентаризации

Включите отчеты инвентаризации BLOB-объектов для учетной записи хранения. См . статью Включение отчетов об инвентаризации BLOB-объектов службы хранилища Azure.

Для создания первого отчета может потребоваться подождать до 24 часов после включения отчетов инвентаризации.

Настройка рабочей области Synapse

  1. Создайте рабочую область Azure Synapse. См. статью Создание рабочей области Azure Synapse.

    Примечание

    В рамках создания рабочей области вы создадите учетную запись хранения с иерархическим пространством имен. Azure Synapse хранит таблицы Spark и журналы приложений в этой учетной записи. Azure Synapse эта учетная запись называется основной учетной записью хранения. Чтобы избежать путаницы, в этой статье используется термин учетная запись отчета об инвентаризации для обозначения учетной записи, содержащей отчеты инвентаризации.

  2. В рабочей области Synapse назначьте удостоверению пользователя роль Участник . См. статью Azure RBAC: роль владельца для рабочей области.

  3. Предоставьте рабочей области Synapse разрешение на доступ к отчетам об инвентаризации в учетной записи хранения, перейдя к учетной записи отчета об инвентаризации, а затем назначив роль участника данных BLOB-объектов хранилища системе управляемому удостоверению рабочей области. См. статью о назначении ролей Azure с помощью портала Azure.

  4. Перейдите к основной учетной записи хранения и назначьте удостоверению пользователя роль участник хранилища BLOB-объектов .

Настройка Synapse Studio

  1. Откройте рабочую область Synapse в Synapse Studio. См. раздел Открытие Synapse Studio.

  2. В Synapse Studio убедитесь, что вашему удостоверению назначена роль администратора Synapse. См . статью Synapse RBAC: роль администратора Synapse для рабочей области.

  3. Создайте пул Apache Spark. См . статью Создание бессерверного пула Apache Spark.

Настройка и запуск примера записной книжки

В этом разделе вы создадите статистические данные, которые будут визуализироваться в отчете. Чтобы упростить работу с этим руководством, в этом разделе используется пример файла конфигурации и пример записной книжки PySpark. Записная книжка содержит коллекцию запросов, выполняемых в Azure Synapse Studio.

Изменение и отправка примера файла конфигурации

  1. Скачайте файл BlobInventoryStorageAccountConfiguration.json .

  2. Обновите следующие заполнители этого файла:

    • Задайте storageAccountName имя учетной записи отчета об инвентаризации.

    • Задайте destinationContainer имя контейнера, в котором хранятся отчеты инвентаризации.

    • Задайте blobInventoryRuleName имя правила отчета об инвентаризации, которое создало результаты, которые вы хотите проанализировать.

    • Задайте для ключа accessKey учетной записи отчета об инвентаризации.

  3. Отправьте этот файл в контейнер в основной учетной записи хранения, указанной при создании рабочей области Synapse.

Импорт примера записной книжки PySpark

  1. Скачайте пример записной книжки ReportAnalysis.ipynb .

    Примечание

    Сохраните этот файл с расширением .ipynb .

  2. Откройте рабочую область Synapse в Synapse Studio. См. раздел Открытие Synapse Studio.

  3. В Synapse Studio выберите вкладку Разработка.

  4. Выберите знак "плюс " (+), чтобы добавить элемент.

  5. Выберите Импорт, перейдите к скачанного примера файла, выберите этот файл и нажмите кнопку Открыть.

    Откроется диалоговое окно Свойства .

  6. В диалоговом окне Свойства выберите ссылку Настройка сеанса .

    Снимок экрана: диалоговое окно

    Откроется диалоговое окно Настройка сеанса .

  7. В раскрывающемся списке Присоединиться к диалогового окна Настройка сеанса выберите пул Spark, созданный ранее в этой статье. Затем нажмите кнопку Применить .

Изменение записной книжки Python

  1. В первой ячейке записной книжки Python задайте для переменной storage_account имя основной учетной записи хранения.

  2. Обновите значение переменной container_name , указав имя контейнера в той учетной записи, которую вы указали при создании рабочей области Synapse.

  3. Нажмите кнопку Опубликовать.

Запуск записной книжки PySpark

  1. В записной книжке PySpark выберите Выполнить все.

    Запуск сеанса Spark займет несколько минут, а обработка отчетов инвентаризации — еще несколько минут. Первое выполнение может занять некоторое время при наличии большого количества отчетов инвентаризации для обработки. Последующие запуски будут обрабатывать только новые отчеты инвентаризации, созданные с момента последнего запуска.

    Примечание

    Если вы внесете какие-либо изменения в записную книжку, опубликуйте эти изменения с помощью кнопки Опубликовать .

  2. Убедитесь, что записная книжка успешно запущена, выбрав вкладку Данные .

    База данных с именем reportdata должна появиться на вкладке Рабочая область области Данные . Если эта база данных не отображается, может потребоваться обновить веб-страницу.

    Снимок экрана: панель данных с базой данных reportdata

    База данных содержит набор таблиц. Каждая таблица содержит сведения, полученные при выполнении запросов из записной книжки PySpark.

  3. Чтобы изучить содержимое таблицы, разверните папку Таблицы базы данных reportdata . Затем щелкните таблицу правой кнопкой мыши, выберите Выбрать скрипт SQL, а затем выберите Выбрать первые 100 строк.

    Снимок экрана: пункт меню для создания скрипта SQL

  4. При необходимости можно изменить запрос, а затем нажать кнопку Выполнить , чтобы просмотреть результаты.

    Снимок экрана: редактор запросов и результаты запроса

Визуализация данных

  1. Скачайте файл примера отчета ReportAnalysis.pbit .

  2. Откройте Power BI Desktop. Инструкции по установке см. в статье Получение Power BI Desktop.

  3. В Power BI выберите Файл, Открыть отчет, а затем — Обзор отчетов.

  4. В диалоговом окне Открыть измените тип файла на файлы шаблона Power BI (*.pbit).

    Снимок экрана: тип файлов шаблона Power BI, который отображается в диалоговом окне Открыть

  5. Перейдите к расположению загруженного файла ReportAnalysis.pbit и нажмите кнопку Открыть.

    Появится диалоговое окно с запросом указать имя рабочей области Synapse и имя базы данных.

  6. В диалоговом окне задайте для поля synapse_workspace_name имя рабочей области, а для поля database_namereportdataзначение . Затем нажмите кнопку Загрузить .

    Снимок экрана: диалоговое окно конфигурации отчета

    Появится отчет, который предоставляет визуализации данных, полученных записной книжкой. На следующих рисунках показаны типы диаграмм и графиков, которые отображаются в этом отчете.

    Снимок экрана: вкладка

    Снимок экрана: вкладка

    Снимок экрана: вкладка

Дальнейшие действия