Поделиться через


Руководство. Анализ отчетов инвентаризации BLOB-объектов

Понимая, как хранятся, организованы и используются большие двоичные объекты и контейнеры в рабочей среде, вы можете оптимизировать компромиссы между затратами и производительностью.

В этом руководстве показано, как создавать и визуализировать статистику, например рост данных с течением времени, количество измененных файлов, размер моментальных снимков BLOB-объектов, шаблоны доступа по каждому уровню и распределение данных как в данный момент, так и с течением времени (например, данные между уровнями, типами файлов, в контейнерах и типах BLOB-объектов).

В этом руководстве описано следующее:

  • Создание отчета инвентаризации BLOB-объектов
  • Настройка рабочей области Synapse
  • Настройка Synapse Studio
  • Создание аналитических данных в Synapse Studio
  • визуализация результатов в Power BI.

Необходимые компоненты

Создание отчета инвентаризации

Включите отчеты инвентаризации BLOB-объектов для учетной записи хранения. См. раздел "Включить служба хранилища Azure отчеты инвентаризации BLOB-объектов".

Возможно, вам придется ждать до 24 часов после включения отчетов инвентаризации для создания первого отчета.

Настройка рабочей области Synapse

  1. созданию рабочей области Azure Synapse. См. статью "Создание рабочей области Azure Synapse".

    Примечание.

    В рамках создания рабочей области вы создадите учетную запись хранения с иерархическим пространством имен. Azure Synapse хранит таблицы Spark и журналы приложений в этой учетной записи. Azure Synapse ссылается на эту учетную запись как основную учетную запись хранения. Чтобы избежать путаницы, в этой статье используется учетная запись отчета инвентаризации терминов для ссылки на учетную запись , содержащую отчеты инвентаризации.

  2. В рабочей области Synapse назначьте роль участника идентификатору пользователя. См . роль владельца azure RBAC для рабочей области.

  3. Предоставьте рабочей области Synapse разрешение на доступ к отчетам инвентаризации в учетной записи хранения, перейдя к учетной записи отчета инвентаризации, а затем назначьте роль участника данных BLOB-объектов хранилища системе управляемому удостоверению рабочей области. См. статью о назначении ролей Azure с помощью портала Azure.

  4. Перейдите к основной учетной записи хранения и назначьте роль участника хранилища BLOB-объектов идентификатору пользователя.

Настройка Synapse Studio

  1. Откройте рабочую область Synapse в Synapse Studio. См . раздел Open Synapse Studio.

  2. В Synapse Studio убедитесь, что удостоверение назначено роли администратора Synapse. См . статью Synapse RBAC: роль администратора Synapse для рабочей области.

  3. Создайте пул Apache Spark. См. статью "Создание бессерверного пула Apache Spark".

Настройка и запуск примера записной книжки

В этом разделе вы создадите статистические данные, которые будут визуализироваться в отчете. Чтобы упростить это руководство, в этом разделе используется пример файла конфигурации и пример записной книжки PySpark. Записная книжка содержит коллекцию запросов, выполняемых в Azure Synapse Studio.

Изменение и отправка примера файла конфигурации

  1. Скачайте файл BlobInventoryStorageAccountConfiguration.json.

  2. Обновите следующие заполнители этого файла:

    • Задайте storageAccountName имя учетной записи отчета инвентаризации.

    • Задайте destinationContainer имя контейнера, в котором хранятся отчеты инвентаризации.

    • Задайте blobInventoryRuleName имя правила отчета инвентаризации, создающего результаты, которые вы хотите проанализировать.

    • Задайте accessKey для ключа учетной записи отчета инвентаризации.

  3. Отправьте этот файл в контейнер в основной учетной записи хранения, указанной при создании рабочей области Synapse.

Импорт примера записной книжки PySpark

  1. Скачайте пример записной книжки ReportAnalysis.ipynb .

    Примечание.

    Сохраните этот файл с расширением .ipynb .

  2. Откройте рабочую область Synapse в Synapse Studio. См . раздел Open Synapse Studio.

  3. В Synapse Studio выберите вкладку "Разработка ".

  4. Выберите знак плюса (+), чтобы добавить элемент.

  5. Выберите "Импорт", перейдите к примеру файла, который вы скачали, выберите этот файл и нажмите кнопку "Открыть".

    Откроется диалоговое окно Свойства.

  6. В диалоговом окне "Свойства" выберите ссылку "Настройка сеанса".

    Снимок экрана: диалоговое окно

    Откроется диалоговое окно "Настройка сеанса ".

  7. В раскрывающемся списке "Подключение к подключению" диалогового окна "Настройка сеанса" выберите пул Spark, созданный ранее в этой статье. Затем нажмите кнопку "Применить ".

Изменение записной книжки Python

  1. В первой ячейке записной книжки Python задайте значение storage_account переменной имя основной учетной записи хранения.

  2. Обновите значение переменной container_name до имени контейнера в этой учетной записи, указанной при создании рабочей области Synapse.

  3. Нажмите кнопку Опубликовать.

Запуск записной книжки PySpark

  1. В записной книжке PySpark выберите "Выполнить все".

    Для начала сеанса Spark потребуется несколько минут, а еще несколько минут для обработки отчетов инвентаризации. Первый запуск может занять некоторое время, если есть множество отчетов инвентаризации для обработки. Последующие запуски обрабатывают только новые отчеты инвентаризации, созданные с момента последнего выполнения.

    Примечание.

    Если вы внесете изменения в записную книжку, будет запущена записная книжка, обязательно опубликуйте эти изменения с помощью кнопки "Опубликовать ".

  2. Убедитесь, что записная книжка успешно запущена, выбрав вкладку "Данные ".

    База данных с именем reportdata должна отображаться на вкладке "Рабочая область " области данных . Если эта база данных не отображается, может потребоваться обновить веб-страницу.

    Снимок экрана: панель данных, на которой показана база данных отчетов

    База данных содержит набор таблиц. Каждая таблица содержит сведения, полученные путем выполнения запросов из записной книжки PySpark.

  3. Чтобы проверить содержимое таблицы, разверните папку "Таблицы" базы данных отчетов. Затем щелкните таблицу правой кнопкой мыши и выберите сценарий SQL, а затем выберите top 100 строк.

    Снимок экрана: параметр меню для создания скрипта SQL

  4. Вы можете изменить запрос по мере необходимости, а затем нажать кнопку "Выполнить ", чтобы просмотреть результаты.

    Снимок экрана: редактор запросов и результаты запросов

Визуализация данных

  1. Скачайте пример файла отчета ReportAnalysis.pbit.

  2. Запустите Power BI Desktop. Инструкции по установке см. в разделе "Получение Power BI Desktop".

  3. В Power BI выберите "Файл", "Открыть отчет" и " Обзор отчетов".

  4. В диалоговом окне "Открыть" измените тип файла на файлы шаблонов Power BI (*.pbit).

    Снимок экрана: тип файлов шаблонов Power BI, отображаемый в диалоговом окне

  5. Перейдите к расположению скачаированного файла ReportAnalysis.pbit , а затем нажмите кнопку "Открыть".

    Откроется диалоговое окно, которое запрашивает указать имя рабочей области Synapse и имя базы данных.

  6. В диалоговом окне задайте для поля synapse_workspace_name имя рабочей области и задайте для поля database_name значение reportdata. Затем нажмите кнопку "Загрузить ".

    Снимок экрана: диалоговое окно конфигурации отчета

    Появится отчет, предоставляющий визуализации данных, полученных записной книжкой. На следующих изображениях показаны типы диаграмм и графов, которые отображаются в этом отчете.

    Снимок экрана: вкладка обзора отчета

    Снимок экрана: вкладка подробного анализа отчета

    Снимок экрана: вкладка разбивки отчета

Следующие шаги