Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dzięki zrozumieniu sposobu przechowywania, organizowania i używania obiektów blob i kontenerów w środowisku produkcyjnym można lepiej zoptymalizować kompromisy między kosztami i wydajnością.
W tym samouczku pokazano, jak generować i wizualizować statystyki, takie jak wzrost danych wraz z upływem czasu, liczba zmodyfikowanych plików, rozmiary migawek obiektów blob, wzorce dostępu w każdej warstwie oraz sposób dystrybucji danych zarówno obecnie, jak i w czasie (na przykład: dane między warstwami, typami plików, kontenerami i typami obiektów blob).
W tym poradniku nauczysz się, jak:
- Generuj raport inwentaryzacji blobów
- Konfigurowanie obszaru roboczego usługi Synapse
- Konfigurowanie programu Synapse Studio
- Generowanie danych analitycznych w programie Synapse Studio
- Wizualizacja wyników w usłudze Power BI
Prerequisites
Subskrypcja platformy Azure — bezpłatne tworzenie konta
Konto usługi Azure Storage — tworzenie konta magazynu
Upewnij się, że tożsamość użytkownika ma przypisaną rolę Współautor danych obiektu blob usługi Storage.
Generowanie raportu spisu
Włącz raporty spisu obiektów blob dla konta magazynu. Zobacz Włączanie raportów spisu obiektów blob usługi Azure Storage.
Po włączeniu raportów spisu do wygenerowania pierwszego raportu może być konieczne odczekanie do 24 godzin.
Konfigurowanie obszaru roboczego usługi Synapse
Tworzenie obszaru roboczego usługi Azure Synapse. Zobacz Tworzenie obszaru roboczego usługi Azure Synapse.
Note
W ramach tworzenia obszaru roboczego utworzysz konto pamięci, które ma hierarchiczną przestrzeń nazw. Usługa Azure Synapse przechowuje tabele platformy Spark i dzienniki aplikacji na tym koncie. Usługa Azure Synapse odnosi się do tego konta jako do głównego konta magazynowego. Aby uniknąć nieporozumień, w tym artykule użyto terminu konto raportu spisu w celu odwoływania się do konta zawierającego raporty spisu.
W obszarze roboczym usługi Synapse przypisz rolę Współautor do tożsamości użytkownika. Zobacz Kontrola dostępu oparta na rolach w Azure: funkcja właściciela przestrzeni roboczej.
Nadaj obszarowi roboczemu usługi Synapse uprawnienie dostępu do raportów inwentaryzacji na Twoim koncie magazynu, przechodząc do konta raportów inwentaryzacji, a następnie przypisując rolę Współautor danych obiektów blob usługi Storage do tożsamości zarządzanej przez system obszaru roboczego. Zobacz Przypisywanie ról platformy Azure przy użyciu witryny Azure Portal.
Przejdź do podstawowego konta magazynu i przypisz rolę Współautor usługi Blob Storage do tożsamości użytkownika.
Konfigurowanie programu Synapse Studio
Otwórz obszar roboczy usługi Synapse w programie Synapse Studio. Przejdź do Open Synapse Studio.
W programie Synapse Studio upewnij się, że twoja tożsamość ma przypisaną rolę administratora usługi Synapse. Zobacz Synapse RBAC: Rola administratora Synapse dla obszaru roboczego.
Utwórz pulę Apache Spark. Zobacz Tworzenie bezserwerowej puli platformy Apache Spark.
Konfiguruj i uruchom przykładowy notatnik
W tej sekcji wygenerujesz dane statystyczne, które będą wizualizowane w raporcie. Aby uprościć ten samouczek, w tej sekcji jest używany przykładowy plik konfiguracji i przykładowy notes PySpark. Notatnik zawiera kolekcję zapytań wykonywanych w Azure Synapse Studio.
Modyfikowanie i przekazywanie przykładowego pliku konfiguracji
Pobierz plik BlobInventoryStorageAccountConfiguration.json .
Zaktualizuj następujące pola zastępcze w tym pliku:
Ustaw
storageAccountNamejako nazwę konta raportu o stanie zapasów.Ustaw
destinationContainernazwę kontenera, który zawiera raporty spisu.Ustaw
blobInventoryRuleNamenazwę reguły raportu spisu, która wygenerowała wyniki, które chcesz przeanalizować.Ustaw
accessKeyna klucz konta dla konta raportu zapasów.
Przekaż ten plik do kontenera na podstawowym koncie magazynu określonym podczas tworzenia obszaru roboczego usługi Synapse.
Zaimportuj przykładowy notes PySpark
Pobierz przykładowy notes ReportAnalysis.ipynb .
Note
Pamiętaj, aby zapisać ten plik z
.ipynbrozszerzeniem .Otwórz obszar roboczy usługi Synapse w programie Synapse Studio. Przejdź do Open Synapse Studio.
W programie Synapse Studio wybierz kartę Programowanie .
Wybierz znak plus (+), aby dodać element.
Wybierz pozycję Importuj, przejdź do pobranego pliku przykładowego, wybierz ten plik i wybierz pozycję Otwórz.
Zostanie wyświetlone okno dialogowe Właściwości .
W oknie dialogowym Właściwości wybierz link Konfiguruj sesję .
Zostanie otwarte okno dialogowe Konfigurowanie sesji .
Na liście rozwijanej Dołączanie do okna dialogowego Konfigurowanie sesji wybierz pulę platformy Spark utworzoną wcześniej w tym artykule. Następnie wybierz przycisk Zastosuj .
Zmodyfikuj notatnik języka Python
W pierwszej komórce notesu języka Python ustaw wartość
storage_accountzmiennej na nazwę podstawowego konta magazynu.Zaktualizuj wartość
container_namezmiennej na nazwę kontenera na koncie określonym podczas tworzenia obszaru roboczego usługi Synapse.Wybierz przycisk Publikuj.
Uruchamianie notesu PySpark
W notesie PySpark wybierz pozycję Uruchom wszystko.
Uruchomienie sesji platformy Spark i przetworzenie raportów spisu potrwa kilka minut. Pierwsze uruchomienie może zająć trochę czasu, jeśli istnieje wiele raportów inwentaryzacyjnych do przetworzenia. Kolejne uruchomienia będą przetwarzać tylko nowe raporty inwentaryzacyjne utworzone od ostatniego uruchomienia.
Note
Jeśli wprowadzisz jakiekolwiek zmiany w notesie podczas gdy jest uruchomiony, pamiętaj o opublikowaniu tych zmian używając przycisku Publikuj.
Sprawdź, czy notebook działa pomyślnie, wybierając kartę Dane.
Baza danych o nazwie reportdata powinna być wyświetlana na karcie Obszar roboczy okienka Dane . Jeśli ta baza danych nie jest wyświetlana, może być konieczne odświeżenie strony internetowej.
Baza danych zawiera zestaw tabel. Każda tabela zawiera informacje uzyskane przez uruchomienie zapytań z notesu PySpark.
Aby sprawdzić zawartość tabeli, rozwiń folder Tables bazy danych reportdata . Następnie kliknij prawym przyciskiem myszy tabelę, wybierz pozycję Wybierz skrypt SQL, a następnie wybierz pozycję Wybierz 100 pierwszych wierszy.
Możesz zmodyfikować zapytanie zgodnie z potrzebami, a następnie wybrać pozycję Uruchom , aby wyświetlić wyniki.
Wizualizacja danych
Pobierz przykładowy plik raportu ReportAnalysis.pbit .
Otwórz program Power BI Desktop. Aby uzyskać wskazówki dotyczące instalacji, zobacz Pobieranie programu Power BI Desktop.
W usłudze Power BI wybierz pozycję Plik, Otwórz raport, a następnie Przeglądaj raporty.
W oknie dialogowym Otwieranie zmień typ pliku na pliki szablonów usługi Power BI (*.pbit)..
Przejdź do lokalizacji pobranego pliku ReportAnalysis.pbit , a następnie wybierz pozycję Otwórz.
Zostanie wyświetlone okno dialogowe z prośbą o podanie nazwy obszaru roboczego usługi Synapse i nazwy bazy danych.
W oknie dialogowym ustaw pole synapse_workspace_name na nazwę obszaru roboczego, a pole database_name na
reportdata. Następnie wybierz przycisk Załaduj .
Zostanie wyświetlony raport zawierający wizualizacje danych pobranych przez notatnik. Poniższe obrazy pokazują rodzaje wykresów wyświetlanych w tym raporcie.
Dalsze kroki
Skonfiguruj potok usługi Azure Synapse, aby stale uruchamiać notes w regularnych odstępach czasu. Dzięki temu można przetwarzać nowe raporty spisu podczas ich tworzenia. Po pierwszym uruchomieniu każde z następnych wykonań będzie analizować dane przyrostowe, a następnie aktualizować tabele na podstawie wyników tej analizy. Aby uzyskać wskazówki, zapoznaj się z Integracja z pipeline'ami.
Dowiedz się, jak analizować poszczególne kontenery na koncie przechowywania. Zobacz następujące artykuły:
Samouczek: obliczanie statystyk kontenera przy użyciu usługi Databricks
Dowiedz się więcej o sposobach optymalizacji kosztów na podstawie analizy obiektów blob i kontenerów. Zobacz następujące artykuły:
Planowanie kosztów usługi Azure Blob Storage i zarządzanie nimi
Szacowanie kosztów archiwizacji danych
Optymalizowanie kosztów przez automatyczne zarządzanie cyklem życia danych