Transformar dados usando a atividade do Hadoop Hive no Azure Data Factory ou no Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

A atividade do Hive do HDInsight em um pipeline do Azure Data Factory ou do Synapse Analytics executa consultas do Hive por conta própria ou no cluster HDInsight sob demanda. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.

Se você é novo no Azure Data Factory e no Synapse Analytics, leia os artigos de introdução do Azure Data Factory ou do Synapse Analytics e faça o Tutorial: transformar dados antes de ler este artigo.

Adicionar uma atividade do Hive do HDInsight a um pipeline com a interface do usuário

Para usar uma atividade do HDInsight Hive para o Azure Data Lake Analytics em um pipeline, conclua as seguintes etapas:

  1. Procure Hive no painel Atividades do pipeline e arraste uma atividade do Hive para a tela do pipeline.

  2. Selecione a nova atividade do Hive na tela, se ainda não estiver selecionada.

  3. Selecione a guia Cluster HDI para selecionar ou criar um novo serviço vinculado a um cluster HDInsight que será usado para executar a atividade do Hive.

    Shows the UI for a Hive activity.

  4. Selecione a guia Script para selecionar ou criar um novo serviço vinculado de armazenamento e um caminho dentro do local de armazenamento, que hospedará o script.

    Shows the UI for the Script tab for a Hive activity.

Sintaxe

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalhes da sintaxe

Propriedade Descrição Necessário
nome Nome da atividade Sim
descrição Texto descrevendo para que a atividade é usada Não
tipo Para Hive Activity, o tipo de atividade é HDinsightHive Sim
linkedServiceName Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. Sim
scriptLinkedService Referência a um Serviço Vinculado de Armazenamento do Azure usado para armazenar o script do Hive a ser executado. Apenas o Armazenamento de Blobs do Azure e os serviços vinculados ADLS Gen2 são suportados aqui. Se você não especificar esse Serviço Vinculado, o Serviço Vinculado de Armazenamento do Azure definido no Serviço Vinculado do HDInsight será usado. Não
scriptPath Forneça o caminho para o arquivo de script armazenado no Armazenamento do Azure referido por scriptLinkedService. O nome do arquivo diferencia maiúsculas de minúsculas. Sim
getDebugInfo Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. Não
Argumentos Especifica uma matriz de argumentos para um trabalho Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
define Especifique parâmetros como pares chave/valor para referência dentro do script Hive. Não
queryTimeout Valor de tempo limite de consulta (em minutos). Aplicável quando o cluster HDInsight está com o Pacote de Segurança Empresarial ativado. Não

Nota

O valor padrão para queryTimeout é 120 minutos.

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: