Samouczek: tworzenie kompleksowego potoku danych w celu uzyskania szczegółowych informacji o sprzedaży w usłudze Azure HDInsight

W tym samouczku utworzysz pełny potok danych, który wykonuje operacje wyodrębniania, przekształcania i ładowania (ETL). Potok będzie używać klastrów Apache Spark i Apache Hive działających w usłudze Azure HDInsight do wykonywania zapytań i manipulowania danymi. Będziesz również używać technologii, takich jak Azure Data Lake Storage Gen2 do przechowywania danych, i Power BI do wizualizacji.

Ten potok danych łączy dane z różnych magazynów, usuwa niepożądane dane, dołącza nowe dane i ładuje je z powrotem do magazynu w celu wizualizacji analiz biznesowych. Przeczytaj więcej na temat potoków ETL w artykule Wyodrębnianie, przekształcanie i ładowanie (ETL) na dużą skalę.

ETL architecture

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Wymagania wstępne

Tworzenie zasobów

Klonowanie repozytorium za pomocą skryptów i danych

  1. Zaloguj się do subskrypcji platformy Azure. Jeśli planujesz używać usługi Azure Cloud Shell, wybierz pozycję Wypróbuj w prawym górnym rogu bloku kodu. W przeciwnym razie wprowadź poniższe polecenie:

    az login
    
    # If you have multiple subscriptions, set the one to use
    # az account set --subscription "SUBSCRIPTIONID"
    
  2. Upewnij się, że jesteś członkiem właściciela roli platformy Azure. Zastąp user@contoso.com ciąg swoim kontem, a następnie wprowadź polecenie:

    az role assignment list \
    --assignee "user@contoso.com" \
    --role "Owner"
    

    Jeśli żaden rekord nie zostanie zwrócony, nie jesteś członkiem i nie będzie można ukończyć tego samouczka.

  3. Pobierz dane i skrypty na potrzeby tego samouczka z repozytorium ETL szczegółowych informacji o sprzedaży usługi HDInsight. Wprowadź następujące polecenie:

    git clone https://github.com/Azure-Samples/hdinsight-sales-insights-etl.git
    cd hdinsight-sales-insights-etl
    
  4. Upewnij się salesdata scripts templates , że zostały utworzone. Sprawdź za pomocą następującego polecenia:

    ls
    

Wdrażanie zasobów platformy Azure wymaganych dla potoku

  1. Dodaj uprawnienia do wykonywania dla wszystkich skryptów, wprowadzając następujące polecenie:

    chmod +x scripts/*.sh
    
  2. Ustaw zmienną dla grupy zasobów. Zastąp RESOURCE_GROUP_NAME ciąg nazwą istniejącej lub nowej grupy zasobów, a następnie wprowadź polecenie:

    resourceGroup="RESOURCE_GROUP_NAME"
    
  3. Uruchom skrypt. Zastąp LOCATION żądaną wartością, a następnie wprowadź polecenie:

    ./scripts/resources.sh $resourceGroup LOCATION
    

    Jeśli nie masz pewności, który region ma być określony, możesz pobrać listę obsługiwanych regionów dla subskrypcji za pomocą polecenia az account list-locations .

    Polecenie wdroży następujące zasoby:

    • Konto usługi Azure Blob Storage. To konto będzie przechowywać dane sprzedaży firmy.
    • Konto Azure Data Lake Storage Gen2. To konto będzie służyć jako konto magazynu dla obu klastrów usługi HDInsight. Dowiedz się więcej o usłudze HDInsight i Data Lake Storage Gen2 integracji usługi Azure HDInsight z usługą Data Lake Storage Gen2.
    • Tożsamość zarządzana przypisana przez użytkownika. To konto zapewnia klastrom usługi HDInsight dostęp do konta Data Lake Storage Gen2.
    • Klaster Apache Spark. Ten klaster będzie używany do czyszczenia i przekształcania danych pierwotnych.
    • Klaster Interactive Query Apache Hive. Ten klaster umożliwi wykonywanie zapytań dotyczących danych sprzedaży i wizualizowanie ich przy użyciu Power BI.
    • Sieć wirtualna platformy Azure obsługiwana przez reguły sieciowej grupy zabezpieczeń. Ta sieć wirtualna umożliwia klastrom komunikowanie się i zabezpieczanie komunikacji.

Tworzenie klastra może potrwać około 20 minut.

Domyślne hasło dostępu SSH do klastrów to Thisisapassword1. Jeśli chcesz zmienić hasło, przejdź do ./templates/resourcesparameters_remainder.json pliku i zmień hasło parametrów sparksshPassword, sparkClusterLoginPassword, llapClusterLoginPasswordi llapsshPassword .

Weryfikowanie wdrożenia i zbieranie informacji o zasobach

  1. Jeśli chcesz sprawdzić stan wdrożenia, przejdź do grupy zasobów w Azure Portal. W obszarze Ustawienia wybierz pozycję Wdrożenia, a następnie wdrożenie. W tym miejscu można zobaczyć zasoby, które zostały pomyślnie wdrożone, oraz zasoby, które są nadal w toku.

  2. Aby wyświetlić nazwy klastrów, wprowadź następujące polecenie:

    sparkClusterName=$(cat resourcesoutputs_remainder.json | jq -r '.properties.outputs.sparkClusterName.value')
    llapClusterName=$(cat resourcesoutputs_remainder.json | jq -r '.properties.outputs.llapClusterName.value')
    
    echo "Spark Cluster" $sparkClusterName
    echo "LLAP cluster" $llapClusterName
    
  3. Aby wyświetlić konto usługi Azure Storage i klucz dostępu, wprowadź następujące polecenie:

    blobStorageName=$(cat resourcesoutputs_storage.json | jq -r '.properties.outputs.blobStorageName.value')
    
    blobKey=$(az storage account keys list \
        --account-name $blobStorageName \
        --resource-group $resourceGroup \
        --query [0].value -o tsv)
    
    echo $blobStorageName
    echo $blobKey
    
  4. Aby wyświetlić konto Data Lake Storage Gen2 i klucz dostępu, wprowadź następujące polecenie:

    ADLSGen2StorageName=$(cat resourcesoutputs_storage.json | jq -r '.properties.outputs.adlsGen2StorageName.value')
    
    adlsKey=$(az storage account keys list \
        --account-name $ADLSGen2StorageName \
        --resource-group $resourceGroup \
        --query [0].value -o tsv)
    
    echo $ADLSGen2StorageName
    echo $adlsKey
    

Tworzenie fabryki danych

Azure Data Factory to narzędzie, które pomaga zautomatyzować Azure Pipelines. Nie jest to jedyny sposób na wykonanie tych zadań, ale jest to doskonały sposób automatyzacji procesów. Aby uzyskać więcej informacji na temat Azure Data Factory, zobacz dokumentację Azure Data Factory.

Ta fabryka danych będzie miała jeden potok z dwoma działaniami:

  • Pierwsze działanie spowoduje skopiowanie danych z usługi Azure Blob Storage do konta magazynu usługi Data Lake Storage Gen 2 w celu naśladowania pozyskiwania danych.
  • Drugie działanie spowoduje przekształcenie danych w klastrze Spark. Skrypt przekształca dane, usuwając niepożądane kolumny. Dołącza również nową kolumnę, która oblicza przychód generowany przez jedną transakcję.

Aby skonfigurować potok Azure Data Factory, wykonaj poniższe polecenie. Nadal powinien znajdować się w hdinsight-sales-insights-etl katalogu .

blobStorageName=$(cat resourcesoutputs_storage.json | jq -r '.properties.outputs.blobStorageName.value')
ADLSGen2StorageName=$(cat resourcesoutputs_storage.json | jq -r '.properties.outputs.adlsGen2StorageName.value')

./scripts/adf.sh $resourceGroup $ADLSGen2StorageName $blobStorageName

Ten skrypt wykonuje następujące czynności:

  1. Tworzy jednostkę usługi z uprawnieniami Storage Blob Data Contributor na koncie magazynu Data Lake Storage Gen2.
  2. Uzyskuje token uwierzytelniania w celu autoryzowania żądań POST do interfejsu API REST systemu plików Data Lake Storage Gen2.
  3. Wypełnia rzeczywistą nazwę konta magazynu Data Lake Storage Gen2 w plikach sparktransform.py i query.hql .
  4. Uzyskuje klucze magazynu dla kont usługi Data Lake Storage Gen2 i usługi Blob Storage.
  5. Tworzy kolejne wdrożenie zasobów w celu utworzenia potoku Azure Data Factory ze skojarzonymi połączonymi usługami i działaniami. Przekazuje klucze magazynu jako parametry do pliku szablonu, aby połączone usługi mogły prawidłowo uzyskiwać dostęp do kont magazynu.

Uruchamianie potoku danych

Wyzwalanie działań usługi Data Factory

Pierwsze działanie w potoku usługi Data Factory, które zostało utworzone, przenosi dane z usługi Blob Storage do Data Lake Storage Gen2. Drugie działanie stosuje przekształcenia platformy Spark na danych i zapisuje przekształcone pliki .csv w nowej lokalizacji. Ukończenie całego potoku może potrwać kilka minut.

Aby pobrać nazwę usługi Data Factory, wprowadź następujące polecenie:

cat resourcesoutputs_adf.json | jq -r '.properties.outputs.factoryName.value'

Aby wyzwolić potok, możesz wykonać następujące czynności:

  • Wyzwalanie potoku usługi Data Factory w programie PowerShell. Zastąp RESOURCEGROUPwartości , i DataFactoryName odpowiednimi wartościami, a następnie uruchom następujące polecenia:

    # If you have multiple subscriptions, set the one to use
    # Select-AzSubscription -SubscriptionId "<SUBSCRIPTIONID>"
    
    $resourceGroup="RESOURCEGROUP"
    $dataFactory="DataFactoryName"
    
    $pipeline =Invoke-AzDataFactoryV2Pipeline `
        -ResourceGroupName $resourceGroup `
        -DataFactory $dataFactory `
        -PipelineName "IngestAndTransform"
    
    Get-AzDataFactoryV2PipelineRun `
        -ResourceGroupName $resourceGroup  `
        -DataFactoryName $dataFactory `
        -PipelineRunId $pipeline
    

    Get-AzDataFactoryV2PipelineRun Wykonaj ponownie zgodnie z potrzebami, aby monitorować postęp.

    Lub

  • Otwórz fabrykę danych i wybierz pozycję Author Monitor (Tworzenie & monitora). Wyzwól IngestAndTransform potok z portalu. Aby uzyskać informacje na temat wyzwalania potoków za pośrednictwem portalu, zobacz Create on-demand Apache Hadoop clusters in HDInsight using Azure Data Factory (Tworzenie klastrów Apache Hadoop na żądanie w usłudze HDInsight przy użyciu Azure Data Factory).

Aby sprawdzić, czy potok został uruchomiony, możesz wykonać jedną z następujących czynności:

  • Przejdź do sekcji Monitorowanie w fabryce danych za pośrednictwem portalu.
  • W Eksplorator usługi Azure Storage przejdź do konta magazynu usługi Data Lake Storage Gen 2. Przejdź do systemu plików, a następnie przejdź do filestransformed folderu i sprawdź jego zawartość, aby sprawdzić, czy potok zakończył się pomyślnie.

Aby uzyskać inne sposoby przekształcania danych przy użyciu usługi HDInsight, zobacz ten artykuł dotyczący korzystania z Jupyter Notebook.

Tworzenie tabeli w klastrze Interactive Query w celu wyświetlenia danych w Power BI

  1. query.hql Skopiuj plik do klastra LLAP przy użyciu punktu połączenia usługi. Wprowadź polecenie:

    llapClusterName=$(cat resourcesoutputs_remainder.json | jq -r '.properties.outputs.llapClusterName.value')
    scp scripts/query.hql sshuser@$llapClusterName-ssh.azurehdinsight.net:/home/sshuser/
    

    Przypomnienie: domyślne hasło to Thisisapassword1.

  2. Użyj protokołu SSH, aby uzyskać dostęp do klastra LLAP. Wprowadź polecenie:

    ssh sshuser@$llapClusterName-ssh.azurehdinsight.net
    
  3. Użyj następującego polecenia, aby uruchomić skrypt:

    beeline -u 'jdbc:hive2://localhost:10001/;transportMode=http' -f query.hql
    

    Ten skrypt utworzy tabelę zarządzaną w klastrze Interactive Query, do którego można uzyskać dostęp z Power BI.

Tworzenie pulpitu nawigacyjnego Power BI na podstawie danych sprzedaży

  1. Otwórz program Power BI Desktop.

  2. Z menu przejdź do pozycji Pobierz daneWięcej>...>Azure>Interactive Query usługi HDInsight.

  3. Wybierz pozycję Połącz.

  4. W oknie dialogowym Interactive Query usługi HDInsight:

    1. W polu tekstowym Serwer wprowadź nazwę klastra LLAP w formacie https://LLAPCLUSTERNAME.azurehdinsight.net.
    2. W polu tekstowym bazy danych wprowadź .default
    3. Wybierz przycisk OK.
  5. W oknie dialogowym AzureHive :

    1. W polu tekstowym Nazwa użytkownika wprowadź .admin
    2. W polu tekstowym Hasło wprowadź wartość Thisisapassword1.
    3. Wybierz pozycję Połącz.
  6. W obszarze Nawigator wybierz pozycję salesi/lub sales_raw , aby wyświetlić podgląd danych. Po załadowaniu danych możesz eksperymentować z pulpitem nawigacyjnym, który chcesz utworzyć. Zobacz następujące linki, aby rozpocząć pracę z pulpitami nawigacyjnymi Power BI:

Czyszczenie zasobów

Jeśli nie zamierzasz nadal korzystać z tej aplikacji, usuń wszystkie zasoby przy użyciu następującego polecenia, aby nie zostały naliczone opłaty za nie.

  1. Aby usunąć grupę zasobów, wprowadź polecenie:

    az group delete -n $resourceGroup
    
  2. Aby usunąć jednostkę usługi, wprowadź polecenia:

    servicePrincipal=$(cat serviceprincipal.json | jq -r '.name')
    az ad sp delete --id $servicePrincipal
    

Następne kroki