Преобразование данных с помощью действия потоковой передачи Hadoop в Фабрике данных Azure или Synapse Analytics

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Действие потоковой передачи HDInsight в конвейере Фабрики данных Azure или Synapse Analytics выполняет программы потоковой передачи Hadoop в собственном кластере HDInsight или в кластере HDInsight по запросу. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Дополнительные сведения см. в статьях с вводной информацией о Фабрике данных Azure и Synapse Analytics, а перед изучением этой статьи выполните руководство по преобразованию данных.

Добавление действия потоковой передачи HDInsight в конвейер с помощью пользовательского интерфейса

Чтобы использовать в конвейере действие потоковой передачи HDInsight, выполните следующие действия.

  1. Выполните поиск элемента Streaming на панели конвейера "Действия" и перетащите действие Streaming на холст конвейера.

  2. Выберите действие Streaming на холсте, если оно еще не выбрано.

  3. Перейдите на вкладку Кластер HDI, чтобы выбрать или создать связанную службу для кластера HDInsight, которая будет использоваться для выполнения действия Streaming.

    Shows the UI for a Streaming activity.

  4. Перейдите на вкладку Файл, чтобы указать сопоставитель и редуктор для задания потоковой передачи, а также выберите или создайте связанную службу для учетной записи службы хранилища Azure, в которой будут размещаться сопоставитель, редуктор, входные и выходные данные задания. Можно также настроить дополнительные сведения: конфигурацию отладки, аргументы и параметры для отправки в задание.

    Shows the UI for the File tab for a Streaming activity.

Пример JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Сведения о синтаксисе

Свойство Описание: Обязательное поле
name Имя действия. Да
description Текст, описывающий, для чего используется действие No
type Для действия потоковой передачи Hadoop используется тип действия HDInsightStreaming. Да
linkedServiceName Ссылка на кластер HDInsight, зарегистрированный в качестве связанной службы. Дополнительные сведения об этой связанной службе см. в статье Вычислительные среды, поддерживаемые фабрикой данных Azure. Да
mapper Указывает имя исполняемого файла средства сопоставления. Да
reducer Указывает имя исполняемого файла средства приведения. Да
combiner Указывает имя исполняемого файла средства объединения. No
fileLinkedService Ссылки на связанные службы хранилища Azure, используемые для хранения программ средств сопоставления, объединения и приведения, которые следует выполнить. Здесь поддерживаются только связанные службы Хранилище BLOB-объектов Azure и ADLS 2-го поколения. Если не указать эту связанную службу, будет использоваться связанная служба хранилища Azure, определенная в связанной службе HDInsight. No
filePath Предоставляет массив путей к программам средств сопоставления, объединения и приведения, хранящийся в службе хранилища Azure, на которую ссылается свойство fileLinkedService. Путь учитывает регистр. Да
input Указывает путь WASB к входному файлу для средства сопоставления. Да
output Указывает путь WASB к выходному файлу для средства приведения. Да
getDebugInfo Указывает, когда файлы журнала копируются в службу хранилища Azure, используемую кластером HDInsight или определенную scriptLinkedService. Допустимые значения: None, Always или Failure. Значение по умолчанию: None. No
аргументы Указывает массив аргументов для задания Hadoop. Аргументы передаются в качестве аргументов командной строки в каждую задачу. No
defines Параметры в виде пары "ключ — значение", ссылки на которые указываются в скрипте Hive. No

Ознакомьтесь со следующими ссылками, в которых описаны способы преобразования данных другими способами: