Kurz: Analýza sestav inventáře objektů blob
Když pochopíte, jak se vaše objekty blob a kontejnery ukládají, uspořádávají a používají v produkčním prostředí, můžete lépe optimalizovat kompromisy mezi náklady a výkonem.
V tomto kurzu se dozvíte, jak generovat a vizualizovat statistiky, jako je růst dat v průběhu času, data přidaná v průběhu času, počet upravených souborů, velikosti snímků objektů blob, vzory přístupu v jednotlivých vrstvách a způsob distribuce dat v současné době i v průběhu času (například data napříč vrstvami, typy souborů, kontejnery a typy objektů blob).
V tomto kurzu se naučíte:
- Vygenerování sestavy inventáře objektů blob
- Nastavení pracovního prostoru Synapse
- Nastavení Synapse Studio
- Generování analytických dat v Synapse Studio
- Vizualizovat výsledky v Power BI
Požadavky
Předplatné Azure – vytvoření účtu zdarma
Účet úložiště Azure – vytvoření účtu úložiště
Ujistěte se, že vaše identita uživatele má přiřazenou roli Přispěvatel dat v objektech blob služby Storage .
Vygenerování sestavy inventáře
Povolte pro svůj účet úložiště sestavy inventáře objektů blob. Viz Povolení sestav inventáře objektů blob služby Azure Storage.
Po povolení sestav inventáře možná budete muset počkat až 24 hodin, než se vygeneruje první sestava.
Nastavení pracovního prostoru Synapse
Vytvořte pracovní prostor Azure Synapse. Viz Vytvoření pracovního prostoru Azure Synapse.
Poznámka
Při vytváření pracovního prostoru vytvoříte účet úložiště s hierarchickým oborem názvů. Azure Synapse do tohoto účtu ukládá tabulky Sparku a protokoly aplikací. Azure Synapse tento účet označuje jako primární účet úložiště. Aby nedocházelo k nejasnostem, používá tento článek termín účet sestavy inventáře k označení účtu, který obsahuje sestavy zásob.
V pracovním prostoru Synapse přiřaďte své identitě uživatele roli Přispěvatel . Viz Azure RBAC: Role vlastníka pracovního prostoru.
Udělte pracovnímu prostoru Synapse oprávnění pro přístup k sestavám inventáře ve vašem účtu úložiště tak, že přejdete na účet sestavy inventáře a pak přiřadíte roli Přispěvatel dat v objektech blob služby Storage k identitě spravované systémem pracovního prostoru. Viz téma Přiřazování rolí Azure s využitím webu Azure Portal.
Přejděte do primárního účtu úložiště a přiřaďte roli Přispěvatel služby Blob Storage k vaší identitě uživatele.
Nastavení Synapse Studio
Otevřete pracovní prostor Synapse v Synapse Studio. Viz Otevření Synapse Studio.
V Synapse Studio se ujistěte, že je vaší identitě přiřazená role správce Synapse. Viz Synapse RBAC: Role správce Synapse pro pracovní prostor.
Vytvořte fond Apache Sparku. Viz Vytvoření bezserverového fondu Apache Sparku.
Nastavení a spuštění ukázkového poznámkového bloku
V této části vygenerujete statistická data, která budete vizualizovat v sestavě. Pro zjednodušení tohoto kurzu používá tato část ukázkový konfigurační soubor a ukázkový poznámkový blok PySpark. Poznámkový blok obsahuje kolekci dotazů, které se spouštějí v Azure Synapse Studiu.
Úprava a nahrání ukázkového konfiguračního souboru
Stáhněte si soubor BlobInventoryStorageAccountConfiguration.json .
Aktualizujte následující zástupné symboly tohoto souboru:
Nastavte
storageAccountName
na název účtu sestavy inventáře.Nastavte
destinationContainer
na název kontejneru, který obsahuje sestavy inventáře.Nastavte
blobInventoryRuleName
na název pravidla sestavy inventáře, které vygenerovalo výsledky, které chcete analyzovat.Nastavte
accessKey
na klíč účtu sestavy inventáře.
Nahrajte tento soubor do kontejneru v primárním účtu úložiště, který jste zadali při vytváření pracovního prostoru Synapse.
Import ukázkového poznámkového bloku PySpark
Stáhněte si ukázkový poznámkový blok ReportAnalysis.ipynb .
Poznámka
Nezapomeňte tento soubor uložit s příponou
.ipynb
.Otevřete pracovní prostor Synapse v Synapse Studio. Viz Otevření Synapse Studio.
V Synapse Studio vyberte kartu Vývoj.
Vyberte znaménko plus (+) a přidejte položku.
Vyberte Importovat, přejděte na ukázkový soubor, který jste stáhli, vyberte tento soubor a vyberte Otevřít.
Zobrazí se dialogové okno Vlastnosti .
V dialogovém okně Vlastnosti vyberte odkaz Konfigurovat relaci .
Otevře se dialogové okno Konfigurovat relaci .
V rozevíracím seznamu Připojit k v dialogovém okně Konfigurovat relaci vyberte fond Spark, který jste vytvořili dříve v tomto článku. Pak vyberte tlačítko Použít .
Úprava poznámkového bloku Pythonu
V první buňce poznámkového bloku Pythonu nastavte hodnotu
storage_account
proměnné na název primárního účtu úložiště.Aktualizujte hodnotu
container_name
proměnné na název kontejneru v daném účtu, který jste zadali při vytváření pracovního prostoru Synapse.Vyberte tlačítko Publikovat.
Spuštění poznámkového bloku PySpark
V poznámkovém bloku PySpark vyberte Spustit vše.
Spuštění relace Sparku bude několik minut trvat a zpracování sestav inventáře bude trvat několik minut. První spuštění může nějakou dobu trvat, pokud je potřeba zpracovat velké množství sestav inventáře. Další spuštění budou zpracovávat pouze nové sestavy inventáře vytvořené od posledního spuštění.
Poznámka
Pokud v poznámkovém bloku uděláte nějaké změny, ve kterém je poznámkový blok spuštěný, nezapomeňte tyto změny publikovat pomocí tlačítka Publikovat .
Výběrem karty Data ověřte, že se poznámkový blok úspěšně spustil.
Databáze s názvem reportdata by se měla zobrazit na kartě Pracovní prostor v podokně Data . Pokud se tato databáze nezobrazí, bude pravděpodobně nutné aktualizovat webovou stránku.
Databáze obsahuje sadu tabulek. Každá tabulka obsahuje informace získané spuštěním dotazů z poznámkového bloku PySpark.
Pokud chcete prozkoumat obsah tabulky, rozbalte složku Tabulky databáze reportdata . Potom klikněte pravým tlačítkem na tabulku, vyberte Vybrat skript SQL a pak vyberte Vybrat prvních 100 řádků.
Podle potřeby můžete dotaz upravit a pak výběrem možnosti Spustit zobrazit výsledky.
Vizualizace dat
Stáhněte si ukázkový soubor sestavy ReportAnalysis.pbit .
Otevřete Power BI Desktop. Pokyny k instalaci najdete v tématu Získání Power BI Desktop.
V Power BI vyberte Soubor, Otevřít sestavu a pak Procházet sestavy.
V dialogovém okně Otevřít změňte typ souboru na soubory šablony Power BI (*.pbit).
Přejděte do umístění souboru ReportAnalysis.pbit , který jste stáhli, a pak vyberte Otevřít.
Zobrazí se dialogové okno s žádostí o zadání názvu pracovního prostoru Synapse a názvu datové báze.
V dialogovém okně nastavte pole synapse_workspace_name na název pracovního prostoru a pole database_name nastavte na
reportdata
. Pak vyberte tlačítko Načíst .Zobrazí se sestava s vizualizacemi dat načtených poznámkovým blokem. Následující obrázky znázorňují typy grafů, které se zobrazují v této sestavě.
Další kroky
Nastavte kanál Azure Synapse, abyste mohli poznámkový blok spouštět v pravidelných intervalech. Tímto způsobem můžete zpracovávat nové sestavy inventáře při jejich vytváření. Po počátečním spuštění bude každé z dalších spuštění analyzovat přírůstková data a potom aktualizovat tabulky výsledky této analýzy. Pokyny najdete v tématu Integrace s kanály.
Přečtěte si o způsobech analýzy jednotlivých kontejnerů v účtu úložiště. Přečtěte si tyto články:
Přečtěte si o způsobech, jak optimalizovat náklady na základě analýzy objektů blob a kontejnerů. Přečtěte si tyto články:
Plánování a správa nákladů na službu Azure Blob Storage
Odhad nákladů na archivaci dat
Optimalizace nákladů pomocí automatické správy životního cyklu dat
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro