Azure Data Factory veya Synapse Analytics'te Hadoop Akış etkinliğini kullanarak verileri dönüştürme

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Azure Data Factory veya Synapse Analytics pipeline içindeki HDInsight Akış Etkinliği, Hadoop Akış programlarını kendi veya talep üzerine HDInsight kümesinde yürütür. Bu makale , veri dönüştürme ve desteklenen dönüştürme etkinliklerine genel bir genel bakış sunan veri dönüştürme etkinlikleri makalesini oluşturur.

Daha fazla bilgi edinmek için Azure Data Factory ve Synapse Analytics giriş makalelerini okuyun ve bu makaleyi okumadan önce Tutorial: transform data yapın.

Kullanıcı arabirimiyle bir işlem hattına HDInsight Akış etkinliği ekleyin.

İşlem hattında HDInsight Akış etkinliği kullanmak için aşağıdaki adımları tamamlayın:

  1. İşlem hattı Etkinlikleri bölmesinde Streaming'i arayın ve bir Streaming etkinliğini işlem hattı tuvaline sürükleyin.

  2. Henüz seçili değilse tuvaldeki yeni Akış etkinliğini seçin.

  3. HDI Kümesi sekmesini seçin ve Akış etkinliğini yürütmek için kullanılacak bir HDInsight kümesine yeni bir bağlı hizmet oluşturun veya seçin.

    Akış etkinliğinin kullanıcı arabirimini gösterir.

  4. Akış işinizin eşleyici ve azaltıcı adlarını belirtmek için File sekmesini seçin ve iş için eşleyici, azaltıcı, giriş ve çıkış dosyalarını içeren bir Azure Storage hesabına yeni bir bağlı hizmet seçin veya oluşturun. Ayrıca hata ayıklama yapılandırması, bağımsız değişkenler ve parametreler dahil olmak üzere, iş sırasında kullanılacak gelişmiş ayrıntıları da yapılandırabilirsiniz.

    Akış etkinliği için Dosya sekmesinin kullanıcı arabirimini gösterir.

JSON örneği

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Söz dizimi ayrıntıları

Özellik Açıklama Gerekli
Adı Etkinliğin adı Yes
açıklama Etkinliğin ne için kullanıldığını açıklayan metin Hayır
Tip Hadoop Akış Etkinliği için etkinlik türü HDInsightStreaming'dir Yes
bağlantılıHizmetAdı Bağlı hizmet olarak kaydedilen HDInsight kümesine başvuru. Bu bağlı hizmet hakkında bilgi edinmek için Bağlı hizmetleri hesaplama makalesine bakın. Yes
Eşleyici Eşleyici yürütülebilir dosyasının adını belirtir Yes
Redüktör Azaltıcı yürütülebilir dosyasının adını belirtir Yes
Birleştirici Birleştirici yürütülebilir dosyasının adını belirtir Hayır
fileLinkedService Yürütülecek Eşleyici, Birleştirici ve Azaltıcı programlarını depolamak için kullanılan Azure Storage Bağlı Hizmetine başvuru. Burada yalnızca Azure Blob Storage ve ADLS 2. Nesil bağlı hizmetler desteklenir. Bu Bağlı Hizmeti belirtmezseniz HDInsight Bağlı Hizmeti'nde tanımlanan Azure Storage Bağlı Hizmet kullanılır. Hayır
filePath fileLinkedService tarafından başvurulan Azure Storage içinde bulunan Mapper, Combiner ve Reducer programlarının yollarının bir dizisini sağlayın. Bu yol büyük/küçük harfe duyarlıdır. Yes
girdi Eşleyici için giriş dosyasının WASB yolunu belirtir. Yes
çıkış Azaltıcı için çıkış dosyasının WASB yolunu belirtir. Yes
getDebugInfo HDInsight kümesi veya scriptLinkedService tarafından belirtilen Azure Storage kullanılarak günlük dosyalarının ne zaman kopyalanacağını belirtir. İzin verilen değerler: Yok, Her Zaman veya Hata. Varsayılan değer: Hiçbiri. Hayır
Parametreler Hadoop görevi için bir dizi bağımsız değişken belirtir. Bağımsız değişkenler, her göreve komut satırı argümanları olarak aktarılır. Hayır
Tanımlar Hive betiği içinde başvurmak için parametreleri anahtar/değer çiftleri olarak belirtin. Hayır

Verileri başka şekillerde dönüştürmeyi açıklayan aşağıdaki makalelere bakın: