Transformar dados usando a atividade de streaming do Hadoop no Azure Data Factory ou no Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

A Atividade de Streaming do HDInsight em um pipeline do Azure Data Factory ou do Synapse Analytics executa programas de Streaming Hadoop por conta própria ou em um cluster HDInsight sob demanda. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.

Para saber mais, leia os artigos de introdução ao Azure Data Factory e ao Synapse Analytics e faça o Tutorial: transformar dados antes de ler este artigo.

Adicionar uma atividade de Streaming do HDInsight a um pipeline com a interface do usuário

Para usar uma atividade de Streaming do HDInsight em um pipeline, conclua as seguintes etapas:

  1. Pesquise Streaming no painel Atividades do pipeline e arraste uma atividade de Streaming para a tela do pipeline.

  2. Selecione a nova atividade de streaming na tela, se ainda não estiver selecionada.

  3. Selecione a guia Cluster HDI para selecionar ou criar um novo serviço vinculado a um cluster HDInsight que será usado para executar a atividade de Streaming.

    Shows the UI for a Streaming activity.

  4. Selecione a guia Arquivo para especificar os nomes do mapeador e do redutor para seu trabalho de streaming e selecione ou crie um novo serviço vinculado a uma conta de Armazenamento do Azure que fará os arquivos de mapeador, redutor, entrada e saída para o trabalho. Você também pode configurar detalhes avançados, incluindo configuração de depuração, argumentos e parâmetros a serem passados para o trabalho.

    Shows the UI for the File tab for a Streaming activity.

Exemplo de JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalhes da sintaxe

Propriedade Descrição Necessário
nome Nome da atividade Sim
descrição Texto descrevendo para que a atividade é usada Não
tipo Para Hadoop Streaming Activity, o tipo de atividade é HDInsightStreaming Sim
linkedServiceName Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. Sim
mapeador Especifica o nome do executável do mapeador Sim
redutor Especifica o nome do executável redutor Sim
combinador Especifica o nome do executável do combinador Não
fileLinkedService Referência a um Serviço Vinculado de Armazenamento do Azure usado para armazenar os programas Mapeador, Combinador e Redutor a serem executados. Apenas o Armazenamento de Blobs do Azure e os serviços vinculados ADLS Gen2 são suportados aqui. Se você não especificar esse Serviço Vinculado, o Serviço Vinculado de Armazenamento do Azure definido no Serviço Vinculado do HDInsight será usado. Não
filePath Forneça uma matriz de caminho para os programas Mapeador, Combinador e Redutor armazenados no Armazenamento do Azure referidos por fileLinkedService. O caminho é sensível a maiúsculas e minúsculas. Sim
input Especifica o caminho WASB para o arquivo de entrada para o Mapeador. Sim
saída Especifica o caminho WASB para o arquivo de saída para o redutor. Sim
getDebugInfo Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. Não
Argumentos Especifica uma matriz de argumentos para um trabalho Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
define Especifique parâmetros como pares chave/valor para referência dentro do script Hive. Não

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: