Trasformare i dati nel cloud usando l'attività Spark in Azure Data Factory

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

In questa esercitazione si userà Azure PowerShell per creare una pipeline di Data Factory che trasforma i dati usando l'attività Spark e un servizio collegato HDInsight su richiesta. In questa esercitazione vengono completati i passaggi seguenti:

Creare una fabbrica di dati.
Creare e distribuire servizi collegati.
Progettare e distribuire una pipeline.
Avviare un'esecuzione della pipeline.
Monitorare l'esecuzione della pipeline.

Se non si ha una sottoscrizione Azure, creare un account free prima di iniziare.

Prerequisiti

Nota

È consigliabile usare il modulo Az PowerShell Azure per interagire con Azure. Per iniziare, vedere Installare Azure PowerShell. Per informazioni su come eseguire la migrazione al modulo Az PowerShell, vedere Migrate Azure PowerShell da AzureRM ad Az.

Archiviazione di Azure account. Creare uno script Python e un file di input e caricarli nella risorsa di archiviazione Azure. L'output del programma Spark viene archiviato in questo account di archiviazione. Il cluster Spark su richiesta usa lo stesso account di archiviazione come risorsa di archiviazione primaria.
Azure PowerShell. Seguire le istruzioni in Come installare e configurare Azure PowerShell.

Caricare lo script Python nell'account gestione rete virtuale di Azure

Creare un file di Python denominato WordCount_Spark.py con il contenuto seguente:

import sys
from operator import add

from pyspark.sql import SparkSession

def main():
    spark = SparkSession\
        .builder\
        .appName("PythonWordCount")\
        .getOrCreate()

    lines = spark.read.text("wasbs://adftutorial@<storageaccountname>.blob.core.windows.net/spark/inputfiles/minecraftstory.txt").rdd.map(lambda r: r[0])
    counts = lines.flatMap(lambda x: x.split(' ')) \
        .map(lambda x: (x, 1)) \
        .reduceByKey(add)
    counts.saveAsTextFile("wasbs://adftutorial@<storageaccountname>.blob.core.windows.net/spark/outputfiles/wordcount")

    spark.stop()

if __name__ == "__main__":
    main()

Sostituire <storageAccountName> con il nome dell'account Archiviazione di Azure. Salvare quindi il file.
Nel Archiviazione BLOB di Azure creare un contenitore denominato adftutorial se non esiste.
Creare una cartella denominata spark.
Creare una sottocartella denominata script nella cartella spark.
Caricare il file WordCount_Spark.py nella sottocartella script.

Caricare il file di input

Creare un file denominato minecraftstory.txt con del testo. Il programma Spark conta il numero di parole in questo testo.
Creare una sottocartella denominata inputfiles nella cartella spark.
Caricare il file minecraftstory.txt nella sottocartella inputfiles.

Servizi collegati dall'autore

In questa sezione creerai due servizi collegati:

Un servizio collegato Archiviazione di Azure che collega un account Archiviazione di Azure alla data factory. Questo archivio viene usato dal cluster HDInsight su richiesta. Contiene anche lo script Spark da eseguire.
Un servizio su richiesta collegato a HDInsight. Azure Data Factory crea automaticamente un cluster HDInsight, esegue il programma Spark e quindi elimina il cluster HDInsight dopo che è inattiva per un tempo preconfigurato.

Servizio collegato di Archiviazione di Azure

Creare un file JSON usando l'editor preferito, copiare la definizione JSON seguente di un servizio collegato Archiviazione di Azure e quindi salvare il file come MyStorageLinkedService.json.

{
    "name": "MyStorageLinkedService",
    "properties": {
      "type": "AzureStorage",
      "typeProperties": {
        "connectionString": "DefaultEndpointsProtocol=https;AccountName=<storageAccountName>;AccountKey=<storageAccountKey>"
      }
    }
}

Aggiornare il <storageAccountName> e <storageAccountKey> con il nome e la chiave dell'account Archiviazione di Azure.

Servizio collegato HDInsight su richiesta

Creare un file JSON usando l'editor preferito, copiare la definizione JSON seguente di un servizio collegato Azure HDInsight e salvare il file come MyOnDemandSparkLinkedService.json.

{
    "name": "MyOnDemandSparkLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
        "clusterSize": 2,
        "clusterType": "spark",
        "timeToLive": "00:15:00",
        "hostSubscriptionId": "<subscriptionID> ",
        "servicePrincipalId": "<servicePrincipalID>",
        "servicePrincipalKey": {
          "value": "<servicePrincipalKey>",
          "type": "SecureString"
        },
        "tenant": "<tenant ID>",
        "clusterResourceGroup": "<resourceGroupofHDICluster>",
        "version": "3.6",
        "osType": "Linux",
        "clusterNamePrefix":"ADFSparkSample",
        "linkedServiceName": {
          "referenceName": "MyStorageLinkedService",
          "type": "LinkedServiceReference"
        }
      }
    }
}

Aggiornare i valori per le proprietà seguenti nella definizione del servizio collegato:

hostSubscriptionId. Sostituire <subscriptionID> con l'ID della sottoscrizione Azure. Il cluster HDInsight su richiesta verrà creato in questa sottoscrizione.
tenant. Sostituire <tenantID> con ID del tenant Azure.
servicePrincipalId, servicePrincipalKey. Sostituire <servicePrincipalID> e <servicePrincipalKey> con l'ID e la chiave dell'entità servizio in Microsoft Entra ID. Questa entità servizio deve essere un membro del ruolo Collaboratore della sottoscrizione o del gruppo di risorse in cui viene creato il cluster. Per informazioni dettagliate, si veda creare un'applicazione Microsoft Entra e un'entità del servizio. L'ID entità servizio equivale all'ID applicazione e una chiave entità servizio equivale al valore di un segreto client.
clusterResourceGroup. Sostituire <resourceGroupOfHDICluster> con il nome del gruppo di risorse in cui deve essere creato il cluster HDInsight.

Nota

Azure HDInsight presenta limitazioni sul numero totale di core che è possibile usare in ogni area Azure supportata. Per il servizio collegato HDInsight su richiesta, il cluster HDInsight verrà creato nella stessa posizione del Archiviazione di Azure usato come risorsa di archiviazione primaria. Assicurati di avere a disposizione quote di core sufficienti per creare con successo il cluster. Per altre informazioni, vedere Configurare i cluster di HDInsight con Hadoop, Spark, Kafka e altro ancora.

Creare una pipeline

In questo passaggio si crea una nuova pipeline con un'attività Spark. L'attività usa l'esempio del conteggio parole. Se non è già stato fatto, scarica il contenuto da questa posizione.

Creare un file JSON usando l'editor preferito, copiare la definizione JSON seguente di una pipeline e quindi salvare il file con il nome MySparkOnDemandPipeline.json.

{
  "name": "MySparkOnDemandPipeline",
  "properties": {
    "activities": [
      {
        "name": "MySparkActivity",
        "type": "HDInsightSpark",
        "linkedServiceName": {
            "referenceName": "MyOnDemandSparkLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
          "rootPath": "adftutorial/spark",
          "entryFilePath": "script/WordCount_Spark.py",
          "getDebugInfo": "Failure",
          "sparkJobLinkedService": {
            "referenceName": "MyStorageLinkedService",
            "type": "LinkedServiceReference"
          }
        }
      }
    ]
  }
}

Notare i punti seguenti:

rootPath punta alla cartella spark del contenitore adftutorial.
entryFilePath punta al file WordCount_Spark.py nella sottocartella script della cartella spark.

Creare una data factory

Hai scritto le definizioni del servizio collegato e della pipeline nei file JSON. A questo punto si creerà una data factory e si distribuirà i file JSON del servizio e della pipeline collegati usando i cmdlet di PowerShell. Eseguire questi comandi di PowerShell uno alla volta:

Impostare le variabili una alla volta.

Nome gruppo di risorse

$resourceGroupName = "ADFTutorialResourceGroup"

Nome della data factory. Deve essere univoco a livello globale

$dataFactoryName = "MyDataFactory09102017"

Il nome della pipeline

$pipelineName = "MySparkOnDemandPipeline" # Name of the pipeline

Avviare PowerShell. Mantenere Azure PowerShell aperto fino alla fine di questa guida introduttiva. Se si chiude e si riapre, sarà necessario eseguire di nuovo questi comandi. Per un elenco di aree Azure in cui Data Factory è attualmente disponibile, selezionare le aree a cui si è interessati nella pagina seguente e quindi espandere Analytics per individuare Data Factory: Products disponibile in base all'area. Gli archivi dati (Archiviazione di Azure, database SQL di Azure e così via) e i calcoli (HDInsight e così via) usati dalla data factory possono trovarsi in altre aree.

Eseguire il comando seguente e immettere il nome utente e la password usati per accedere al portale di Azure:
```
Connect-AzAccount
```
Eseguire questo comando per visualizzare tutte le sottoscrizioni per l'account:
```
Get-AzSubscription
```
Eseguire il comando seguente per selezionare la sottoscrizione da usare. Sostituire SubscriptionId con l'ID della sottoscrizione Azure:
```
Select-AzSubscription -SubscriptionId "<SubscriptionId>"    
```

Creare il gruppo di risorse ADFTutorialResourceGroup.

New-AzResourceGroup -Name $resourceGroupName -Location "East Us"

Creare la data factory.

 $df = Set-AzDataFactoryV2 -Location EastUS -Name $dataFactoryName -ResourceGroupName $resourceGroupName

Eseguire questo comando per visualizzare l'output:

$df

Passare alla cartella in cui sono stati creati file JSON ed eseguire il comando seguente per distribuire un servizio collegato Archiviazione di Azure:

Set-AzDataFactoryV2LinkedService -DataFactoryName $dataFactoryName -ResourceGroupName $resourceGroupName -Name "MyStorageLinkedService" -File "MyStorageLinkedService.json"

Eseguire questo comando per distribuire un servizio collegato Spark su richiesta:

Set-AzDataFactoryV2LinkedService -DataFactoryName $dataFactoryName -ResourceGroupName $resourceGroupName -Name "MyOnDemandSparkLinkedService" -File "MyOnDemandSparkLinkedService.json"

Eseguire questo comando per distribuire una pipeline:

Set-AzDataFactoryV2Pipeline -DataFactoryName $dataFactoryName -ResourceGroupName $resourceGroupName -Name $pipelineName -File "MySparkOnDemandPipeline.json"

Avviare e monitorare un'esecuzione della pipeline

Avviare un'esecuzione della pipeline. Viene rilevato anche l'ID di esecuzione della pipeline per il monitoraggio futuro.

$runId = Invoke-AzDataFactoryV2Pipeline -DataFactoryName $dataFactoryName -ResourceGroupName $resourceGroupName -PipelineName $pipelineName

Eseguire questo script per verificare costantemente lo stato di esecuzione della pipeline fino al termine.

while ($True) {
    $result = Get-AzDataFactoryV2ActivityRun -DataFactoryName $dataFactoryName -ResourceGroupName $resourceGroupName -PipelineRunId $runId -RunStartedAfter (Get-Date).AddMinutes(-30) -RunStartedBefore (Get-Date).AddMinutes(30)

    if(!$result) {
        Write-Host "Waiting for pipeline to start..." -foregroundcolor "Yellow"
    }
    elseif (($result | Where-Object { $_.Status -eq "InProgress" } | Measure-Object).count -ne 0) {
        Write-Host "Pipeline run status: In Progress" -foregroundcolor "Yellow"
    }
    else {
        Write-Host "Pipeline '"$pipelineName"' run finished. Result:" -foregroundcolor "Yellow"
        $result
        break
    }
    ($result | Format-List | Out-String)
    Start-Sleep -Seconds 15
}

Write-Host "Activity `Output` section:" -foregroundcolor "Yellow"
$result.Output -join "`r`n"

Write-Host "Activity `Error` section:" -foregroundcolor "Yellow"
$result.Error -join "`r`n"

Ecco l'output dell'esecuzione di esempio:

Pipeline run status: In Progress
ResourceGroupName : ADFTutorialResourceGroup
DataFactoryName   : 
ActivityName      : MySparkActivity
PipelineRunId     : 94e71d08-a6fa-4191-b7d1-cf8c71cb4794
PipelineName      : MySparkOnDemandPipeline
Input             : {rootPath, entryFilePath, getDebugInfo, sparkJobLinkedService}
Output            : 
LinkedServiceName : 
ActivityRunStart  : 9/20/2017 6:33:47 AM
ActivityRunEnd    : 
DurationInMs      : 
Status            : InProgress
Error             :
…

Pipeline ' MySparkOnDemandPipeline' run finished. Result:
ResourceGroupName : ADFTutorialResourceGroup
DataFactoryName   : MyDataFactory09102017
ActivityName      : MySparkActivity
PipelineRunId     : 94e71d08-a6fa-4191-b7d1-cf8c71cb4794
PipelineName      : MySparkOnDemandPipeline
Input             : {rootPath, entryFilePath, getDebugInfo, sparkJobLinkedService}
Output            : {clusterInUse, jobId, ExecutionProgress, effectiveIntegrationRuntime}
LinkedServiceName : 
ActivityRunStart  : 9/20/2017 6:33:47 AM
ActivityRunEnd    : 9/20/2017 6:46:30 AM
DurationInMs      : 763466
Status            : Succeeded
Error             : {errorCode, message, failureType, target}

Activity Output section:
"clusterInUse": "https://ADFSparkSamplexxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx.azurehdinsight.net/"
"jobId": "0"
"ExecutionProgress": "Succeeded"
"effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)"
Activity Error section:
"errorCode": ""
"message": ""
"failureType": ""
"target": "MySparkActivity"

Verificare che sia stata creata una cartella denominata outputfiles nella cartella spark del contenitore adftutorial con l'output del programma Spark.

La pipeline in questo esempio copia i dati da una posizione a un'altra in un archivio BLOB Azure. Si è appreso come:

Creare una fabbrica di dati.
Creare e distribuire servizi collegati.
Progettare e distribuire una pipeline.
Avviare un'esecuzione della pipeline.
Monitorare l'esecuzione della pipeline.

Passare all'esercitazione successiva per informazioni su come trasformare i dati eseguendo lo script Hive in un cluster Azure HDInsight che si trova in una rete virtuale.

Tutorial: trasformare i dati usando Hive in Rete virtuale di Azure.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-01