Trasformare i dati usando l'attività di Hadoop Hive in Azure Data Factory o Synapse Analytics

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

L'attività Hive di HDInsight in una pipeline di Azure Data Factory o Synapse Analytics esegue query Hive sul proprio cluster HDInsight o sul cluster HDInsight su richiesta basato su Windows o Linux. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Se non si ha Azure Data Factory e Synapse Analytics, leggere gli articoli introduttivi per Azure Data Factory o Synapse Analytics ed eseguire Tutorial: transform data prima di leggere questo articolo.

Aggiungere un'attività di Hive di HDInsight a una pipeline con l'interfaccia utente

Per usare un'attività Hive di HDInsight per Azure Data Lake Analytics in una pipeline, seguire questa procedura:

Cercare Hive nel riquadro Attività della pipeline, quindi trascinare un'attività Hive nel canvas della pipeline.
Selezionare la nuova attività Hive nell'area di disegno, se non è già selezionata.
Selezionare la scheda HDI Cluster per selezionare o creare un nuovo servizio collegato a un cluster HDInsight che verrà utilizzato per eseguire l'attività Hive.
Selezionare la scheda Script per selezionare o creare un nuovo servizio collegato di archiviazione e un percorso all'interno del percorso di archiviazione, che ospiterà lo script.

Sintassi

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Dettagli sintassi

Proprietà	Descrizione	Richiesto
nome	Nome dell'attività	Sì
descrizione	Testo che descrive l'uso dell'attività	No
tipo	Per l'Attività Hive, il tipo di attività è HDinsightHive	Sì
nomeServizioCollegato	Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo.	Sì
scriptLinkedService	Riferimento a un servizio collegato Azure Storage usato per archiviare lo script Hive da eseguire. Sono supportati solo Azure Blob Storage e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Azure Storage definito nel servizio collegato HDInsight.	No
scriptPath	Specificare il percorso del file di script archiviato nella Azure Storage a cui fa riferimento scriptLinkedService. Il nome del file distingue tra maiuscole e minuscole.	Sì
getDebugInfo	Specifica quando i file di log vengono copiati nel Azure Storage usato dal cluster HDInsight (o) specificato da scriptLinkedService. Valori consentiti: Nessuno, Sempre o Errore. Valore predefinito: None.	No
argomenti	Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando.	No
definisce	Specificare i parametri come coppie chiave/valore per fare riferimento a essi nello script Hive.	No
queryTimeout	Valore di timeout di query (in minuti). Applicabile se il cluster HDInsight è abilitato per Enterprise Security Package.	No

Nota

Il valore predefinito per queryTimeout è 120 minuti.

Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati:

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-22