Udostępnij za pośrednictwem


Samouczek: analizowanie raportów spisu obiektów blob

Dzięki zrozumieniu sposobu przechowywania, organizowania i używania obiektów blob i kontenerów w środowisku produkcyjnym można lepiej zoptymalizować kompromisy między kosztami i wydajnością.

W tym samouczku pokazano, jak generować i wizualizować statystyki, takie jak wzrost danych wraz z upływem czasu, liczba zmodyfikowanych plików, rozmiary migawek obiektów blob, wzorce dostępu w każdej warstwie oraz sposób dystrybucji danych zarówno obecnie, jak i w czasie (na przykład: dane między warstwami, typami plików, kontenerami i typami obiektów blob).

Z tego samouczka dowiesz się, jak wykonywać następujące czynności:

  • Generowanie raportu spisu obiektów blob
  • Konfigurowanie obszaru roboczego usługi Synapse
  • Konfigurowanie programu Synapse Studio
  • Generowanie danych analitycznych w programie Synapse Studio
  • Wizualizowanie wyników w usłudze Power BI

Wymagania wstępne

Generowanie raportu spisu

Włącz raporty spisu obiektów blob dla konta magazynu. Zobacz Włączanie raportów spisu obiektów blob usługi Azure Storage.

Po włączeniu raportów spisu do wygenerowania pierwszego raportu może być konieczne odczekanie do 24 godzin.

Konfigurowanie obszaru roboczego usługi Synapse

  1. Tworzenie obszaru roboczego usługi Azure Synapse. Zobacz Tworzenie obszaru roboczego usługi Azure Synapse.

    Uwaga

    W ramach tworzenia obszaru roboczego utworzysz konto magazynu, które ma hierarchiczną przestrzeń nazw. Usługa Azure Synapse przechowuje tabele platformy Spark i dzienniki aplikacji na tym koncie. Usługa Azure Synapse odwołuje się do tego konta jako podstawowego konta magazynu. Aby uniknąć nieporozumień, w tym artykule użyto terminu konto raportu spisu w celu odwoływania się do konta zawierającego raporty spisu.

  2. W obszarze roboczym usługi Synapse przypisz rolę Współautor do tożsamości użytkownika. Zobacz Kontrola dostępu oparta na rolach platformy Azure: rola właściciela obszaru roboczego.

  3. Nadaj obszarowi roboczemu usługi Synapse uprawnienie dostępu do raportów spisu na koncie magazynu, przechodząc do konta raportu spisu, a następnie przypisując rolę Współautor danych obiektu blob usługi Storage do tożsamości zarządzanej przez system obszaru roboczego. Zobacz Przypisywanie ról platformy Azure przy użyciu witryny Azure Portal.

  4. Przejdź do podstawowego konta magazynu i przypisz rolę Współautor usługi Blob Storage do tożsamości użytkownika.

Konfigurowanie programu Synapse Studio

  1. Otwórz obszar roboczy usługi Synapse w programie Synapse Studio. Zobacz Open Synapse Studio (Otwórz program Synapse Studio).

  2. W programie Synapse Studio upewnij się, że twoja tożsamość ma przypisaną rolę administratora usługi Synapse. Zobacz Synapse RBAC: Rola administratora usługi Synapse dla obszaru roboczego.

  3. Utwórz pulę platformy Apache Spark. Zobacz Tworzenie bezserwerowej puli platformy Apache Spark.

Konfigurowanie i uruchamianie przykładowego notesu

W tej sekcji wygenerujesz dane statystyczne, które będą wizualizowane w raporcie. Aby uprościć ten samouczek, w tej sekcji jest używany przykładowy plik konfiguracji i przykładowy notes PySpark. Notes zawiera kolekcję zapytań wykonywanych w usłudze Azure Synapse Studio.

Modyfikowanie i przekazywanie przykładowego pliku konfiguracji

  1. Pobierz plik BlobInventoryStorageAccountConfiguration.json.

  2. Zaktualizuj następujące symbole zastępcze tego pliku:

    • Ustaw storageAccountName nazwę konta raportu spisu.

    • Ustaw destinationContainer nazwę kontenera, który zawiera raporty spisu.

    • Ustaw blobInventoryRuleName nazwę reguły raportu spisu, która wygenerowała wyniki, które chcesz przeanalizować.

    • Ustaw accessKey klucz konta konta raportu spisu.

  3. Przekaż ten plik do kontenera na podstawowym koncie magazynu określonym podczas tworzenia obszaru roboczego usługi Synapse.

Importowanie przykładowego notesu PySpark

  1. Pobierz przykładowy notes ReportAnalysis.ipynb.

    Uwaga

    Pamiętaj, aby zapisać ten plik z .ipynb rozszerzeniem .

  2. Otwórz obszar roboczy usługi Synapse w programie Synapse Studio. Zobacz Open Synapse Studio (Otwórz program Synapse Studio).

  3. W programie Synapse Studio wybierz kartę Programowanie .

  4. Wybierz znak plus (+), aby dodać element.

  5. Wybierz pozycję Importuj, przejdź do pobranego pliku przykładowego, wybierz ten plik i wybierz pozycję Otwórz.

    Zostanie wyświetlone okno dialogowe Właściwości .

  6. W oknie dialogowym Właściwości wybierz link Konfiguruj sesję.

    Zrzut ekranu przedstawiający okno dialogowe Importowanie właściwości

    Zostanie otwarte okno dialogowe Konfigurowanie sesji .

  7. Na liście rozwijanej Dołączanie do okna dialogowego Konfigurowanie sesji wybierz pulę platformy Spark utworzoną wcześniej w tym artykule. Następnie wybierz przycisk Zastosuj .

Modyfikowanie notesu języka Python

  1. W pierwszej komórce notesu języka Python ustaw wartość storage_account zmiennej na nazwę podstawowego konta magazynu.

  2. Zaktualizuj wartość container_name zmiennej na nazwę kontenera na koncie określonym podczas tworzenia obszaru roboczego usługi Synapse.

  3. Wybierz przycisk Publikuj.

Uruchamianie notesu PySpark

  1. W notesie PySpark wybierz pozycję Uruchom wszystko.

    Uruchomienie sesji platformy Spark i przetworzenie raportów spisu potrwa kilka minut. Pierwsze uruchomienie może zająć trochę czasu, jeśli istnieje wiele raportów spisu do przetworzenia. Kolejne przebiegi będą przetwarzać tylko nowe raporty spisu utworzone od ostatniego uruchomienia.

    Uwaga

    Jeśli wprowadzisz jakiekolwiek zmiany w notesie, notes będzie uruchomiony, pamiętaj o opublikowaniu tych zmian za pomocą przycisku Publikuj .

  2. Sprawdź, czy notes został uruchomiony pomyślnie, wybierając kartę Dane .

    Baza danych o nazwie reportdata powinna być wyświetlana na karcie Obszar roboczy okienka Dane . Jeśli ta baza danych nie jest wyświetlana, może być konieczne odświeżenie strony internetowej.

    Zrzut ekranu przedstawiający okienko Dane, w którym jest wyświetlana baza danych reportdata

    Baza danych zawiera zestaw tabel. Każda tabela zawiera informacje uzyskane przez uruchomienie zapytań z notesu PySpark.

  3. Aby sprawdzić zawartość tabeli, rozwiń folder Tables bazy danych reportdata. Następnie kliknij prawym przyciskiem myszy tabelę, wybierz pozycję Wybierz skrypt SQL, a następnie wybierz pozycję Wybierz 100 pierwszych wierszy.

    Zrzut ekranu przedstawiający opcję menu umożliwiającą utworzenie nowego skryptu SQL

  4. Możesz zmodyfikować zapytanie zgodnie z potrzebami, a następnie wybrać pozycję Uruchom , aby wyświetlić wyniki.

    Zrzut ekranu przedstawiający edytor zapytań i wyniki zapytania

Wizualizacja danych

  1. Pobierz przykładowy plik raportu ReportAnalysis.pbit.

  2. Otwórz Power BI Desktop. Aby uzyskać wskazówki dotyczące instalacji, zobacz Pobieranie programu Power BI Desktop.

  3. W usłudze Power BI wybierz pozycję Plik, Otwórz raport, a następnie Przeglądaj raporty.

  4. W oknie dialogowym Otwieranie zmień typ pliku na pliki szablonów usługi Power BI (*.pbit)..

    Zrzut ekranu przedstawiający typ plików szablonu usługi Power BI wyświetlany w oknie dialogowym Otwieranie

  5. Przejdź do lokalizacji pobranego pliku ReportAnalysis.pbit , a następnie wybierz pozycję Otwórz.

    Zostanie wyświetlone okno dialogowe z prośbą o podanie nazwy obszaru roboczego usługi Synapse i nazwy bazy danych.

  6. W oknie dialogowym ustaw pole synapse_workspace_name na nazwę obszaru roboczego i ustaw pole database_name na reportdatawartość . Następnie wybierz przycisk Załaduj.

    Zrzut ekranu przedstawiający okno dialogowe konfiguracji raportu

    Zostanie wyświetlony raport zawierający wizualizacje danych pobranych przez notes. Na poniższych obrazach przedstawiono typy wykresów i wykresów wyświetlanych w tym raporcie.

    Zrzut ekranu przedstawiający kartę przeglądu raportu

    Zrzut ekranu przedstawiający kartę szczegółowej analizy raportu

    Zrzut ekranu przedstawiający kartę podziału raportu

Następne kroki