Azure Data Factory veya Synapse Analytics'te Hadoop MapReduce etkinliğini kullanarak verileri dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory veya Synapse Analytics işlem hattındaki HDInsight MapReduce etkinliği, MapReduce programını kendi veya isteğe bağlı HDInsight kümenizde çağırır. Bu makale , veri dönüştürme ve desteklenen dönüştürme etkinliklerine genel bir genel bakış sunan veri dönüştürme etkinlikleri makalesini oluşturur.

Daha fazla bilgi edinmek için Azure Data Factory ve Synapse Analytics'e giriş makalelerini okuyun ve öğreticiyi yapın: Öğretici: bu makaleyi okumadan önce verileridönüştürme.

HDInsight Pig ve Hive etkinliklerini kullanarak bir işlem hattından HDInsight kümesinde Pig/Hive betikleri çalıştırma hakkında ayrıntılı bilgi için bkz. Pig ve Hive.

Ui ile işlem hattına HDInsight MapReduce etkinliği ekleme

İşlem hattında HDInsight MapReduce etkinliğini kullanmak için aşağıdaki adımları tamamlayın:

  1. İşlem hattı Etkinlikleri bölmesinde MapReduce araması yapıp MapReduce etkinliğini işlem hattı tuvaline sürükleyin.

  2. Henüz seçili değilse tuvaldeki yeni MapReduce etkinliğini seçin.

  3. MapReduce etkinliğini yürütmek için kullanılacak bir HDInsight kümesine bağlı yeni bir hizmet seçmek veya oluşturmak için HDI Kümesi sekmesini seçin.

    Shows the UI for a MapReduce activity.

  4. Jar sekmesini seçerek betiğinizi barındıracak azure Depolama hesabına yeni bir Jar bağlı hizmeti seçin veya oluşturun. Orada yürütülecek bir sınıf adı ve depolama konumu içinde bir dosya yolu belirtin. Ayrıca Jar libs konumu, hata ayıklama yapılandırması ve betike geçirilecek bağımsız değişkenler ve parametreler gibi gelişmiş ayrıntıları yapılandırabilirsiniz.

    Shows the UI for the Jar tab for a MapReduce activity.

Sözdizimi

{
    "name": "Map Reduce Activity",
    "description": "Description",
    "type": "HDInsightMapReduce",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "className": "org.myorg.SampleClass",
        "jarLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "jarFilePath": "MyAzureStorage/jars/sample.jar",
        "getDebugInfo": "Failure",
        "arguments": [
            "-SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Söz dizimi ayrıntıları

Özellik Açıklama Gerekli
name Etkinliğin adı Evet
açıklama Etkinliğin ne için kullanıldığını açıklayan metin No
type MapReduce Etkinliği için etkinlik türü HDinsightMapReduce'dir Evet
linkedServiceName Bağlı hizmet olarak kaydedilen HDInsight kümesine başvuru. Bu bağlı hizmet hakkında bilgi edinmek için bkz . Bağlı hizmetleri hesaplama makalesi. Evet
Classname Yürütülecek sınıfın adı Evet
jarLinkedService Jar dosyalarını depolamak için kullanılan Azure Depolama Bağlı Hizmetine başvuru. Burada yalnızca Azure Blob Depolama ve ADLS 2. Nesil bağlı hizmetleri desteklenir. Bu Bağlı Hizmeti belirtmezseniz HDInsight Bağlı Hizmeti'nde tanımlanan Azure Depolama Bağlı Hizmeti kullanılır. No
jarFilePath JarLinkedService tarafından başvurulan Azure Depolama depolanan Jar dosyalarının yolunu belirtin. Dosya adı büyük/küçük harfe duyarlıdır. Evet
jarlibs jarLinkedService içinde tanımlanan Azure Depolama depolanan iş tarafından başvurulan Jar kitaplığı dosyalarının yolunun dize dizisi. Dosya adı büyük/küçük harfe duyarlıdır. No
getDebugInfo Günlük dosyalarının jarLinkedService tarafından belirtilen HDInsight kümesi (veya) tarafından kullanılan Azure Depolama ne zaman kopyalandığı belirtir. İzin verilen değerler: Yok, Her Zaman veya Hata. Varsayılan değer: Hiçbiri. No
Bağımsız değişken Hadoop işi için bir bağımsız değişken dizisi belirtir. Bağımsız değişkenler her göreve komut satırı bağımsız değişkenleri olarak geçirilir. No
Tanım -lar Hive betiği içinde başvurmak için parametreleri anahtar/değer çiftleri olarak belirtin. No

Örnek

HDInsight kümesinde herhangi bir MapReduce jar dosyasını çalıştırmak için HDInsight MapReduce Etkinliğini kullanabilirsiniz. İşlem hattının aşağıdaki örnek JSON tanımında, HDInsight Etkinliği bir Mahout JAR dosyası çalıştıracak şekilde yapılandırılmıştır.

{
    "name": "MapReduce Activity for Mahout",
    "description": "Custom MapReduce to generate Mahout result",
    "type": "HDInsightMapReduce",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "className": "org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob",
        "jarLinkedService": {
            "referenceName": "MyStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "jarFilePath": "adfsamples/Mahout/jars/mahout-examples-0.9.0.2.2.7.1-34.jar",
        "arguments": [
            "-s",
            "SIMILARITY_LOGLIKELIHOOD",
            "--input",
            "wasb://adfsamples@spestore.blob.core.windows.net/Mahout/input",
            "--output",
            "wasb://adfsamples@spestore.blob.core.windows.net/Mahout/output/",
            "--maxSimilaritiesPerItem",
            "500",
            "--tempDir",
            "wasb://adfsamples@spestore.blob.core.windows.net/Mahout/temp/mahout"
        ]
    }
}

Bağımsız değişkenler bölümünde MapReduce programı için herhangi bir bağımsız değişken belirtebilirsiniz. Çalışma zamanında MapReduce çerçevesinden birkaç ek bağımsız değişken (örneğin: mapreduce.job.tags) görürsünüz. Bağımsız değişkenlerinizi MapReduce bağımsız değişkenleriyle ayırt etmek için, aşağıdaki örnekte gösterildiği gibi hem seçenek hem de değeri bağımsız değişken olarak kullanmayı göz önünde bulundurun (-s,--input,--output vb. seçenekler hemen ardından değerleri gelir).

Verileri başka şekillerde dönüştürmeyi açıklayan aşağıdaki makalelere bakın: