Udostępnij za pomocą


Charakterystyka wydajności inwentaryzacji blobów

Spis obiektów blob usługi Azure Storage to podstawowe narzędzie do zarządzania obiektami przechowywanymi na koncie usługi Azure Blob Storage i śledzenia ich. Oferuje ona kompleksowe omówienie zasobów magazynu, umożliwiając podejmowanie świadomych decyzji dotyczących zarządzania danymi i optymalizacji kosztów.

Po włączeniu raportów spisu obiektów blob obiekty na koncie magazynu są okresowo skanowane przy użyciu reguł zdefiniowanych w zasadach spisu. Czas potrzebny na wygenerowanie raportu spisu zależy od kilku czynników. Czynniki te obejmują liczbę obiektów, strukturę katalogu, filtry stosowane za pośrednictwem podtypów reguł, obciążenie klienta na koncie magazynu, dostępność zasobów magazynu i nie tylko. W niektórych przypadkach w zależności od tych czynników przetwarzanie wszystkich obiektów na koncie magazynu może potrwać wiele dni. Wydajność spisu może również się różnić w zależności od skanowania, a czasami podczas skanowania.

Czynniki wpływające na wydajność spisu obiektów blob

W przypadku używania spisu obiektów blob do generowania raportu spisu kilka kluczowych czynników może mieć wpływ na jego wydajność. Zrozumienie tych czynników może pomóc w optymalizacji procesów spisu i umożliwieniu wydajnego zarządzania danymi.

Rozkład obiektów w hierarchicznych kontach z obsługą przestrzeni nazw

Rozkład obiektów w ramach hierarchicznego konta z obsługą przestrzeni nazw może znacząco wpłynąć na wydajność spisu. Spis obiektów blob skanuje jeden katalog naraz i kończy skanowanie przed przejściem do następnego katalogu. W związku z tym duża liczba katalogów, szczególnie w przypadku rozrzedżonego rozkładu obiektów i głębokiego zagnieżdżania, może zwiększyć czas wymagany do wygenerowania raportu spisu.

Liczba obiektów przetworzonych dla reguły spisu

Całkowita liczba skanowanych obiektów na podstawie reguły spisu jest kluczowym czynnikiem wydajności przetwarzania. Reguły przeznaczone dla dużej liczby obiektów wymagają więcej czasu i zasobów w celu wygenerowania raportu spisu. Liczba obiektów do przetworzenia zwiększa się, jeśli reguła spisu zawiera wersje, migawki i nietrwałe obiekty usunięte. Gdy te podtypy istnieją na dużych woluminach, mogą one dodatkowo wydłużyć czas przetwarzania potrzebny do wygenerowania raportu spisu.

Format eksportu raportu spisu

Wybrany format eksportu raportu spisu (CSV lub Apache Parquet) może mieć wpływ na wydajność. Chociaż Parquet jest zoptymalizowany pod kątem szybkiego przetwarzania danych, wprowadza obciążenie, które może spowolnić generowanie raportów w porównaniu z woluminami CSV.

Duża liczba obiektów usuniętych nietrwale

Obiekty usunięte nietrwale, choć nie zostały trwale usunięte, są nadal uwzględniane w skanowaniach spisu. Duża ilość tych obiektów może zwiększyć czas przetwarzania i zmniejszyć wydajność. Biorąc pod uwagę te czynniki, możesz zwiększyć wydajność przebiegów spisu i mieć bardziej wydajne środowisko zarządzania danymi.

Najlepsze rozwiązania dotyczące zwiększania wydajności spisu obiektów blob

Efektywne zarządzanie usługą Azure Blob Storage jest niezbędne do utrzymania optymalnej wydajności i efektywności kosztowej. Poniżej przedstawiono kilka najlepszych rozwiązań w celu zwiększenia wydajności spisu obiektów blob usługi Azure Storage:

Unikaj rozrzedzonych kont w hierarchicznych kontach z obsługą przestrzeni nazw

Konta rozrzedzące to te, które zawierają dużą liczbę obiektów rozmieszczonych w wielu katalogach. Te katalogi mogą lub nie zawierają głęboko zagnieżdżonych struktur. Rozrzedne konta powodują bardzo niski stosunek plików do katalogu, co może powodować nieefektywność generowania raportu spisu, a nawet prowadzić do awarii. Aby wyeliminować te nieefektywności, upewnij się, że hierarchiczne konto magazynu z obsługą przestrzeni nazw jest dobrze zorganizowane i unikaj rozrzedzonego rozkładu obiektów.

Używanie pliku CSV dla formatu eksportu

Podczas generowania raportów spisu wybierz format csv, jeśli przypadek użycia nie wymaga szybkiego przetwarzania danych. Parquet to format pliku magazynu kolumnowego zoptymalizowany pod kątem wydajności i jeden z najszybszych formatów do odczytu na potrzeby przetwarzania danych. Jednak format parquet może wydłużyć czas wymagany do generowania raportów ze względu na obciążenie, co sprawia, że jest wolniejsze niż generowanie raportu w formacie CSV. Jeśli potrzebujesz formatu parquet do po przetworzeniu raportu, możesz użyć dostępnych narzędzi typu open source, które konwertują plik CSV na format parquet.

Określanie zakresu reguły spisu przy użyciu prefiksu

Zamiast uruchamiać spis na całym koncie magazynu, użyj filtru dopasowania prefiksu, aby wygenerować raport spisu dla określonych podzestawów danych.

  • Uwzględnij prefiks: ten filtr jest przeznaczony dla zestawu kontenerów lub ścieżek w kontenerze. Takie podejście pomaga zawęzić zakres raportu spisu, dzięki czemu proces będzie szybszy i bardziej wydajny.

  • Wyklucz prefiks: użyj tego filtru, aby wykluczyć z niego określony podzestaw. Takie podejście pomaga również zawęzić zakres raportu spisu. Aby dowiedzieć się więcej, zobacz Filtry reguł

Wybieranie odpowiednich pól

Dostosuj raporty spisu, wybierając tylko odpowiednie pola. Pozwala to zmniejszyć ilość przetwarzanych i eksportowanych danych, co prowadzi do szybszego generowania raportów i łatwiejszej analizy. Aby dowiedzieć się więcej o polach schematu spisu, zobacz Niestandardowe pola schematu obsługiwane dla spisu obiektów blob

Dołączanie podtypu: usunięte obiekty, migawki i wersje

Uwzględnienie tych podtypów może zapewnić bardziej kompleksowy widok konta magazynu, ale ważne jest, aby ocenić, czy są one niezbędne dla potrzeb związanych z inspekcją i zarządzaniem. Jeśli nie są one krytyczne, wykluczenie ich może pomóc zwiększyć wydajność i wydajność procesu generowania raportu. Aby zidentyfikować obiekty usunięte w ostatnich przebiegach spisu, porównaj nazwy obiektów blob z bieżącego przebiegu z tych z poprzedniego przebiegu. Różnica może zawierać listę ostatnio usuniętych obiektów.

Subskrybowanie zdarzeń spisu obiektów blob

Bądź na bieżąco z błędami spowodowanymi przez użytkownika, subskrybując zdarzenia spisu obiektów blob. Takie proaktywne podejście ułatwia szybkie rozwiązywanie problemów. Aby dowiedzieć się więcej na temat subskrybowania zdarzeń spisu, zobacz Subskrybowanie ukończonych zdarzeń spisu obiektów blob.

Monitorowanie nieoczekiwanych wzrostów pojemności

Zwróć uwagę na nieoczekiwane wzrosty pojemności konta magazynu, ponieważ mogą one sygnalizować akumulację wersji obiektów blob, migawek lub obiektów usuniętych nietrwale. Monitorowanie tych zmian może pomóc w wykrywaniu i rozwiązywaniu potencjalnych problemów przed ich wpływem na wydajność. Ponadto zarządzanie cyklem życia tych obiektów może uniemożliwić niepotrzebne tworzenie i zwiększyć wydajność spisu obiektów blob. Aby dowiedzieć się więcej na temat zarządzania cyklem życia obiektów blob, zobacz Omówienie zarządzania cyklem życia usługi Azure Blob Storage

Korzystając z tych najlepszych rozwiązań, możesz zwiększyć wydajność spisu obiektów blob, zapewniając wydajne i efektywne zarządzanie usługą Azure Blob Storage.

Dalsze kroki