Öğretici: Azure PowerShell kullanarak ilk Azure data factory’nizi derleme

Not

Bu makale, Data Factory’nin 1. sürümü için geçerlidir. Sürüm 1 bakım modunda. Belge eski kullanıcılar için var. Data Factory'nin geçerli sürümünü kullanıyorsanız Hızlı Başlangıç: Azure Data Factory'yi kullanarak veri fabrikası oluşturma konusunu inceleyin.

Bu makalede, ilk Azure data factory’nizi oluşturmak için Azure PowerShell kullanırsınız. Diğer araçları/SDK’ları kullanarak öğreticiyi uygulamak için açılır listedeki seçeneklerden birini belirleyin.

Bu öğreticideki işlem hattı bir etkinlik içerir: HDInsight Hive etkinliği. Bu etkinlik, Azure HDInsight kümesi üzerinde çıkış verileri üretmek üzere giriş verilerini dönüştüren bir hive betiği çalıştırır. İşlem hattı, belirtilen başlangıç ve bitiş saatleri arasında ayda bir kez çalışacak şekilde zamanlanmıştır.

Not

Bu öğreticideki veri işlem hattı, çıkış verileri üretmek üzere giriş verilerini dönüştürür. Bir kaynak veri deposundan hedef veri deposuna verileri kopyalamaz. Azure Data Factory kullanarak verileri kopyalama öğreticisi için bkz. Öğretici: Blob Depolama’dan SQL Veritabanı’na veri kopyalama.

Bir işlem hattında birden fazla etkinlik olabilir. Bir etkinliğin çıkış veri kümesini diğer etkinliğin giriş veri kümesi olarak ayarlayarak iki etkinliği zincirleyebilir, yani bir etkinliğin diğerinden sonra çalıştırılmasını sağlayabilirsiniz. Daha fazla bilgi için bkz. Data Factory'de zamanlama ve yürütme.

Önkoşullar

Not

Azure ile etkileşime geçmek için Azure Az PowerShell modülü önerilir. Başlamak için bkz. Azure PowerShell yükleme. Az PowerShell modülüne nasıl geçeceğinizi öğrenmek için bkz. Azure PowerShell’i AzureRM’den Az’ye geçirme.

Veri fabrikası oluşturma

Bu adımda FirstDataFactoryPSH adlı bir Azure Data Factory oluşturmak için Azure PowerShell’i kullanırsınız. Bir veri fabrikasında bir veya daha fazla işlem hattı olabilir. İşlem hattında bir veya daha fazla etkinlik olabilir. Örneğin, bir kaynaktan hedef veri deposuna veri kopyalama amaçlı bir Kopyalama Etkinliği ve giriş verilerini dönüştürmek üzere Hive betiği çalıştırma amaçlı bir HDInsight Hive etkinliği. Bu adımda data factory oluşturmayla başlayalım.

  1. Azure PowerShell’i başlatın ve aşağıdaki komutu çalıştırın. Bu öğreticide sonuna kadar Azure PowerShell’i açık tutun. Kapatıp yeniden açarsanız, bu komutları yeniden çalıştırmanız gerekir.

    • Aşağıdaki komutu çalıştırın ve Azure portalda oturum açmak için kullandığınız kullanıcı adı ve parolayı girin.

      Connect-AzAccount
      
    • Bu hesapla ilgili tüm abonelikleri görmek için aşağıdaki komutu çalıştırın.

      Get-AzSubscription  
      
    • Çalışmak isteğiniz aboneliği seçmek için aşağıdaki komutu çalıştırın. Bu abonelik Azure portalında kullanılanla aynı olmalıdır.

      Get-AzSubscription -SubscriptionName <SUBSCRIPTION NAME> | Set-AzContext
      
  2. Aşağıdaki komutu çalıştırarak ADFTutorialResourceGroup adlı bir Azure kaynak grubu oluşturun:

    New-AzResourceGroup -Name ADFTutorialResourceGroup  -Location "West US"
    

    Bu öğreticideki adımlardan bazıları ADFTutorialResourceGroup adlı kaynak grubunu kullandığınızı varsayar. Farklı bir kaynak grubu kullanıyorsanız, bu öğreticide ADFTutorialResourceGroup yerine onu kullanmanız gerekir.

  3. FirstDataFactoryPSH adlı bir veri fabrikası oluşturan New-AzDataFactory cmdlet'ini çalıştırın.

    New-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name FirstDataFactoryPSH –Location "West US"
    

Şunlara dikkat edin:

  • Azure Data Factory adı küresel olarak benzersiz olmalıdır. Şu hatayı alırsanız: “FirstDataFactoryPSH” veri fabrikası adı yok, adı değiştirin (örneğin, yournameFirstDataFactoryPSH). Bu öğreticide adımları uygularken ADFTutorialFactoryPSH yerine bu adı kullanın. Data Factory yapıtlarının adlandırma kuralları için Data Factory - Adlandırma Kuralları konusuna bakın.

  • Data Factory örnekleri oluşturmak için, Azure aboneliğinde katılımcı/yönetici rolünüz olmalıdır

  • Veri fabrikasının adı gelecekte bir DNS adı olarak kaydedilmiş ve herkese görünür hale gelmiş olabilir.

  • "Bu abonelik Microsoft.DataFactory ad alanını kullanacak şekilde kaydedilmedi" hatasını alırsanız, aşağıdakilerden birini yapın ve yayımlamayı yeniden deneyin:

    • Azure PowerShell’de Data Factory sağlayıcısını kaydetmek için aşağıdaki komutu çalıştırın:

      Register-AzResourceProvider -ProviderNamespace Microsoft.DataFactory
      

      Data Factory sağlayıcısının kayıtlı olduğunu onaylamak için aşağıdaki komutu çalıştırabilirsiniz:

      Get-AzResourceProvider
      
    • Azure aboneliğini kullanarak Azure portalında oturum açın ve Data Factory dikey penceresine gidin (ya da) Azure portalında bir data factory oluşturun. Bu eylem sağlayıcıyı sizin için otomatik olarak kaydeder.

İşlem hattı oluşturmadan önce, öncelikle birkaç Data Factory varlığı oluşturmanız gerekir. Önce veri depolarını/işlemleri veri deponuza bağlamak için bağlı hizmetler oluşturun, bağlı veri depolarında giriş/çıkış verilerini temsil etmek üzere giriş ve çıkış veri kümeleri tanımlayın, sonra da bu veri kümelerini kullanan bir etkinlikle işlem hattını oluşturun.

Bağlı hizmetler oluşturma

Bu adımda, Azure Depolama hesabınızı ve isteğe bağlı Azure HDInsight kümesini data factory’nize bağlarsınız. Azure Depolama hesabı, bu örnekteki işlem hattı için girdi ve çıktı verilerini tutar. HDInsight bağlı hizmeti, bu örnekteki işlem hattının etkinliğinde belirtilen Hive betiğini çalıştırmak için kullanılır. Senaryonuzda hangi veri deposu/işlem hizmetlerinin kullanılacağını belirleyin ve bağlı hizmetler oluşturarak bu hizmetleri data factory’ye bağlayın.

Azure Storage bağlı hizmeti oluşturma

Bu adımda, Azure Depolama hesabınızı veri fabrikanıza bağlarsınız. Giriş/çıkış verilerini ve HQL betik dosyasını depolamak için aynı Azure Depolama hesabını kullanırsınız.

  1. C:\ADFGetStarted klasöründe aşağıdaki içeriğe sahip StorageLinkedService.json adlı bir JSON dosyası oluşturun: Henüz yoksa ADFGetStarted klasörünü oluşturun.

    {
        "name": "StorageLinkedService",
        "properties": {
            "type": "AzureStorage",
            "description": "",
            "typeProperties": {
                "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
            }
        }
    }
    

    Hesap adını Azure Depolama hesabınızın adıyla, hesap anahtarını ise Azure Depolama hesabının erişim anahtarıyla değiştirin. Depolama erişim anahtarınızı nasıl alacağınızı öğrenmek için bkz. Depolama hesabı erişim anahtarlarını yönetme.

  2. Azure PowerShell’de ADFGetStarted klasörüne geçin.

  3. Bağlı bir hizmet oluşturan New-AzDataFactoryLinkedService cmdlet'ini kullanabilirsiniz. Bu öğreticide kullandığınız bu cmdlet ve diğer Data Factory cmdlet'leri ResourceGroupName ve DataFactoryName parametreleri için değerleri geçirmenizi gerektirir. Alternatif olarak, Bir DataFactory nesnesi almak ve her cmdlet çalıştırdığınızda ResourceGroupName ve DataFactoryName yazmadan nesneyi geçirmek için Get-AzDataFactory kullanabilirsiniz. Get-AzDataFactory cmdlet'inin çıkışını bir $df değişkenine atamak için aşağıdaki komutu çalıştırın.

    $df = Get-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name FirstDataFactoryPSH
    
  4. Şimdi, bağlı StorageLinkedService hizmetini oluşturan New-AzDataFactoryLinkedServicecmdlet'ini çalıştırın.

    New-AzDataFactoryLinkedService $df -File .\StorageLinkedService.json
    

    Get-AzDataFactory cmdlet'ini çalıştırmadıysanız ve çıkışı $df değişkenine atamadıysanız ResourceGroupName ve DataFactoryName parametreleri için değerleri aşağıdaki gibi belirtmeniz gerekirdi.

    New-AzDataFactoryLinkedService -ResourceGroupName ADFTutorialResourceGroup -DataFactoryName FirstDataFactoryPSH -File .\StorageLinkedService.json
    

    Öğreticinin ortasındaki Azure PowerShell kapatırsanız, öğreticiyi tamamlamak için Azure PowerShell bir sonraki başlatışınızda Get-AzDataFactory cmdlet'ini çalıştırmanız gerekir.

Azure HDInsight bağlı hizmeti oluşturma

Bu adımda, isteğe bağlı HDInsight kümesini data factory’nize bağlarsınız. HDInsight kümesi çalışma zamanında otomatik olarak oluşturulur ve işlenmesi bittiğinde ve belirtilen sürede boşta kalırsa silinir. İsteğe bağlı HDInsight kümesi yerine kendi HDInsight kümenizi kullanabilirsiniz. Ayrıntılar için bkz. İşlem Bağlı Hizmetleri.

  1. C:\ADFGetStarted klasöründe aşağıdaki içeriğe sahip HDInsightOnDemandLinkedService.json adlı bir JSON dosyası oluşturun:

    {
        "name": "HDInsightOnDemandLinkedService",
        "properties": {
            "type": "HDInsightOnDemand",
            "typeProperties": {
                "version": "3.5",
                "clusterSize": 1,
                "timeToLive": "00:05:00",
                "osType": "Linux",
                "linkedServiceName": "StorageLinkedService"
            }
        }
    }
    

    Aşağıdaki tabloda, kod parçacığında kullanılan JSON özellikleri için açıklamalar verilmektedir:

    Özellik Açıklama
    clusterSize HDInsight kümesi boyutunu belirtir.
    timeToLive Silinmeden önce HDInsight kümesinin boşta kalma süresini belirtir.
    linkedServiceName HDInsight tarafından oluşturulan günlükleri depolamak için kullanılan depolama hesabını belirtir

    Aşağıdaki noktalara dikkat edin:

    • Data Factory, sizin için JSON ile Linux tabanlı bir HDInsight kümesi oluşturur. Ayrıntılar için bkz. İsteğe Bağlı HDInsight Bağlı Hizmeti.

    • İsteğe bağlı HDInsight kümesi kullanmak yerine kendi HDInsight kümenizi kullanabilirsiniz. Ayrıntılar için bkz. HDInsight Bağlı Hizmeti.

    • HDInsight kümesi, JSON'da (linkedServiceName) belirttiğiniz blob depolama alanında varsayılan bir kapsayıcı oluşturur. HDInsight, küme silindiğinde bu kapsayıcıyı silmez. Bu davranış tasarım gereğidir. İsteğe bağlı HDInsight bağlı hizmetiyle, mevcut bir canlı küme (timeToLive) olmadığı sürece bir dilim her işlendiğinde bir HDInsight kümesi oluşturulur. Küme, işlem tamamlandığında otomatik olarak silinir.

      Daha fazla dilim işlendikçe, Azure blob depolamanızda çok sayıda kapsayıcı görürsünüz. İşlerin sorunları giderilmesi için bunlara gerek yoksa, depolama maliyetini azaltmak için bunları silmek isteyebilirsiniz. Bu kapsayıcıların adları şu deseni izler: "adfyourdatafactoryname-linkedservicename-datetimestamp". Azure blob depolama alanınızdaki kapsayıcıları silmek için Microsoft Azure Depolama Gezgini gibi araçları kullanın.

      Ayrıntılar için bkz. İsteğe Bağlı HDInsight Bağlı Hizmeti.

  2. HDInsightOnDemandLinkedService adlı bağlı hizmeti oluşturan New-AzDataFactoryLinkedService cmdlet'ini çalıştırın.

    New-AzDataFactoryLinkedService $df -File .\HDInsightOnDemandLinkedService.json
    

Veri kümeleri oluşturma

Bu adımda, Hive işlenmesi için girdi ve çıktı verilerini temsil edecek veri kümeleri oluşturursunuz. Bu veri kümeleri, bu öğreticide daha önce oluşturduğunuz StorageLinkedService öğesine başvurur. Bağlı hizmet Azure Storage hesabını belirtirken, veri kümeleri de girdi ve çıktı verilerini tutan depolama biriminde kapsayıcı, klasör, dosya adı belirtir.

Girdi veri kümesi oluşturma

  1. C:\ADFGetStarted klasöründe aşağıdaki içeriğe sahip InputTable.json adlı bir JSON dosyası oluşturun:

     {
         "name": "AzureBlobInput",
         "properties": {
             "type": "AzureBlob",
             "linkedServiceName": "StorageLinkedService",
             "typeProperties": {
                 "fileName": "input.log",
                 "folderPath": "adfgetstarted/inputdata",
                 "format": {
                     "type": "TextFormat",
                     "columnDelimiter": ","
                 }
             },
             "availability": {
                 "frequency": "Month",
                 "interval": 1
             },
             "external": true,
             "policy": {}
         }
     }
    

    Bu JSON, işlem hattındaki bir etkinliğin girdi verilerini temsil eden AzureBlobInput adlı veri kümesini tanımlamaktadır. Ek olarak, girdi verilerinin adfgetstarted adlı blob kapsayıcısında ve inputdata adlı klasörde bulunduğunu belirtir.

    Aşağıdaki tabloda, kod parçacığında kullanılan JSON özellikleri için açıklamalar verilmektedir:

    Özellik Açıklama
    tür Veriler Azure blob depolamada yer aldığından type özelliği AzureBlob olarak ayarlanmıştır.
    linkedServiceName daha önce oluşturduğunuz StorageLinkedService’e başvurur.
    fileName Bu özellik isteğe bağlıdır. Bu özelliği atarsanız, tüm folderPath dosyaları alınır. Bu durumda, yalnızca input.log işlenir.
    tür Günlük dosyaları metin biçiminde olduğundan TextFormat kullanacağız.
    columnDelimiter Günlük dosyalarındaki sütunlar virgül (,) ile ayrılmıştır.
    frequency/interval frequency Ay, interval de 1 olarak ayarlanmıştır; girdi dilimlerinin aylık olarak kullanılabileceğini belirtir.
    external bu özellik, girdi verileri Data Factory hizmetiyle oluşturulmadıysa true olarak ayarlanır.
  2. Data Factory veri kümesi oluşturmak için Azure PowerShell’de şu komutu çalıştırın:

    New-AzDataFactoryDataset $df -File .\InputTable.json
    

Çıktı veri kümesi oluşturma

Şimdi, Azure Blob depolamada depolanan çıktı verilerini göstermek için çıktı veri kümesi oluşturursunuz.

  1. C:\ADFGetStarted klasöründe aşağıdaki içeriğe sahip OutputTable.json adlı bir JSON dosyası oluşturun:

    {
      "name": "AzureBlobOutput",
      "properties": {
        "type": "AzureBlob",
        "linkedServiceName": "StorageLinkedService",
        "typeProperties": {
          "folderPath": "adfgetstarted/partitioneddata",
          "format": {
            "type": "TextFormat",
            "columnDelimiter": ","
          }
        },
        "availability": {
          "frequency": "Month",
          "interval": 1
        }
      }
    }
    

    Bu JSON, işlem hattındaki bir etkinliğin çıktı verilerini temsil eden AzureBlobOutput adlı veri kümesini tanımlamaktadır. Ek olarak, sonuçların adfgetstarted adlı blob kapsayıcısında ve partitioneddata adlı klasörde depolandığını belirtir. Burada, availability bölümü çıktı veri kümesinin aylık tabanda oluşturulduğunu belirtiyor.

  2. Data Factory veri kümesi oluşturmak için Azure PowerShell’de şu komutu çalıştırın:

    New-AzDataFactoryDataset $df -File .\OutputTable.json
    

İşlem hattı oluşturma

Bu adımda, HDInsightHive etkinliğiyle ilk işlem hattınızı oluşturursunuz. Girdi diliminin ayda bir (frequency: Month, interval: 1) kullanılabilir, çıktı dilimi ayda bir oluşturulur ve etkinlik zamanlayıcı özelliği de ayda bir olacak şekilde ayarlanır. Çıktı veri kümesi ve etkinlik zamanlayıcı ayarlarının eşleşmesi gerekir. Şu anda, çıktı veri kümesi zamanlamayı yönetendir; bu nedenle etkinlik hiçbir çıktı oluşturmasa bile sizin bir çıktı veri kümesi oluşturmanız gerekir. Etkinlik herhangi bir girdi almazsa, girdi veri kümesi oluşturma işlemini atlayabilirsiniz. Aşağıdaki JSON’da kullanılan özellikler bu bölümün sonunda anlatılmaktadır.

  1. C:\ADFGetStarted klasöründe aşağıdaki içeriğe sahip MyFirstPipelinePSH.json adlı bir JSON dosyası oluşturun:

    Önemli

    storageaccountname değerini JSON'daki depolama hesabınızın adıyla değiştirin.

     {
         "name": "MyFirstPipeline",
         "properties": {
             "description": "My first Azure Data Factory pipeline",
             "activities": [
                 {
                     "type": "HDInsightHive",
                     "typeProperties": {
                         "scriptPath": "adfgetstarted/script/partitionweblogs.hql",
                         "scriptLinkedService": "StorageLinkedService",
                         "defines": {
                             "inputtable": "wasb://adfgetstarted@<storageaccountname>.blob.core.windows.net/inputdata",
                             "partitionedtable": "wasb://adfgetstarted@<storageaccountname>.blob.core.windows.net/partitioneddata"
                         }
                     },
                     "inputs": [
                         {
                             "name": "AzureBlobInput"
                         }
                     ],
                     "outputs": [
                         {
                             "name": "AzureBlobOutput"
                         }
                     ],
                     "policy": {
                         "concurrency": 1,
                         "retry": 3
                     },
                     "scheduler": {
                         "frequency": "Month",
                         "interval": 1
                     },
                     "name": "RunSampleHiveActivity",
                     "linkedServiceName": "HDInsightOnDemandLinkedService"
                 }
             ],
             "start": "2017-07-01T00:00:00Z",
             "end": "2017-07-02T00:00:00Z",
             "isPaused": false
         }
     }
    

    JSON parçacığında, HDInsight kümesinde Veri işleyecek Hive’ı kullanan etkinlikten oluşmuş bir işlem hattı oluşturuyorsunuz.

    partitionweblogs.hql Hive betik dosyası Azure Depolama hesabında (ScriptLinkedService tarafından belirtilen StorageLinkedService olarak adlandırılır) ve adfgetstarted kapsayıcısının script klasöründe depolanır.

    Burada, defines bölümü hive betiğine Hive yapılandırma değerleri olarak (örn., ${hiveconf:inputtable}, ${hiveconf:partitionedtable}) geçirilecek çalışma zamanı ayarlarını belirtmek için kullanılır.

    İşlem hattının start ve end özellikleri işlem hattının etkin dönemini belirtir.

    JSON etkinliğinde, Hive betiğinin linkedServiceNameHDInsightOnDemandLinkedService tarafından belirtilen işlemde çalışacağını belirtirsiniz.

    Not

    Örnekte kullanılan JSON özellikleri hakkında ayrıntılı bilgi için Azure Data Factory'deki işlem hatları ve etkinlikler sayfasındaki "JSON İşlem Hatları" bölümüne bakın.

  2. Azure blob depolamada adfgetstarted/inputdata klasöründeki input.log dosyasını gördüğünüzü doğrulayın ve işlem hattına dağıtmak için aşağıdaki komutu çalıştırın. start ve end zamanları geçmişe ayarlanmış ve isPaused yanlış olarak ayarlanmış olduğundan işlem hattı (işlem hattında etkinlik) dağıtıldıktan hemen sonra çalışır.

    New-AzDataFactoryPipeline $df -File .\MyFirstPipelinePSH.json
    
  3. Tebrikler, Azure PowerShell kullanarak ilk işlem hattınızı başarıyla oluşturdunuz.

İşlem hattını izleme

Bu adımda, Azure data factory’de neler olduğunu izlemek için Azure PowerShell kullanırsınız.

  1. Get-AzDataFactory komutunu çalıştırın ve çıkışı bir $df değişkenine atayın.

    $df = Get-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name FirstDataFactoryPSH
    
  2. İşlem hattının çıkış tablosu olan EmpSQLTable'ın tüm dilimleriyle ilgili ayrıntıları almak için Get-AzDataFactorySlice komutunu çalıştırın.

    Get-AzDataFactorySlice $df -DatasetName AzureBlobOutput -StartDateTime 2017-07-01
    

    Burada belirttiğiniz StartDateTime ile JSON işlem hattında belirtilen başlangıç zamanıyla aynı olmasına özen gösterin. Örnek çıktı aşağıdaki gibidir:

    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : FirstDataFactoryPSH
    DatasetName       : AzureBlobOutput
    Start             : 7/1/2017 12:00:00 AM
    End               : 7/2/2017 12:00:00 AM
    RetryCount        : 0
    State             : InProgress
    SubState          :
    LatencyStatus     :
    LongRetryCount    : 0
    
  3. Belirli bir dilim için etkinlik çalıştırmalarının ayrıntılarını almak için Get-AzDataFactoryRun komutunu çalıştırın.

    Get-AzDataFactoryRun $df -DatasetName AzureBlobOutput -StartDateTime 2017-07-01
    

    Örnek çıktı aşağıdaki gibidir:

    Id                  : 0f6334f2-d56c-4d48-b427-d4f0fb4ef883_635268096000000000_635292288000000000_AzureBlobOutput
    ResourceGroupName   : ADFTutorialResourceGroup
    DataFactoryName     : FirstDataFactoryPSH
    DatasetName         : AzureBlobOutput
    ProcessingStartTime : 12/18/2015 4:50:33 AM
    ProcessingEndTime   : 12/31/9999 11:59:59 PM
    PercentComplete     : 0
    DataSliceStart      : 7/1/2017 12:00:00 AM
    DataSliceEnd        : 7/2/2017 12:00:00 AM
    Status              : AllocatingResources
    Timestamp           : 12/18/2015 4:50:33 AM
    RetryAttempt        : 0
    Properties          : {}
    ErrorMessage        :
    ActivityName        : RunSampleHiveActivity
    PipelineName        : MyFirstPipeline
    Type                : Script
    

    Dilimi Hazır durumunda veya Başarısız durumunda görene kadar bu cmdlet’i çalışır halde tutun. Dilim Hazır durumunda olduğunda, çıktı verileri için blob depolamanızın adfgetstarted klasöründe partitioneddata klasörünü denetleyin. İsteğe bağlı HDInsight kümesinin oluşturulması genellikle biraz zaman alır.

    çıktı verileri

Önemli

İsteğe bağlı HDInsight kümesinin oluşturulması genellikle biraz zaman alır (yaklaşık 20 dakika). Bu nedenle işlem hattının dilimi işlemesi yaklaşık 30 dakika sürer.

Dilim başarıyla işlendiğinde girdi dosyası silinir. Bu nedenle, dilimi yeniden çalıştırmak veya öğreticiyi yeniden uygulamak isterseniz girdi dosyasını (input.log) adfgetstarted kapsayıcısının inputdata klasörüne yükleyin.

Özet

Bu öğreticide, HDInsight hadoop kümesindeki Hive betiği çalıştırılarak verileri işlemek için bir Azure data factory oluşturdunuz. Aşağıdaki adımları uygulamak için Azure Portal’da Data Factory Düzenleyici’yi kullandınız:

  1. Oluşturulan Azure data factory.
  2. Oluşturulan iki bağlı hizmet:
    1. Girdi/çıktı dosyalarını tutan Azure blob depolamanızı data factory’ye bağlamak için Azure Storage bağlı hizmeti.
    2. İsteğe bağlı HDInsight Hadoop kümesini data factory’ye bağlamak için isteğe bağlı Azure HDInsight bağlı hizmeti. Azure Data Factory, girdi verilerini işlemek, çıktı verilerini de oluşturmak için tam zamanında HDInsight Hadoop kümesi oluşturur.
  3. İşlem hattındaki HDInsight Hive etkinliği için giriş ve çıkış verilerini açıklayan iki veri kümesi oluşturuldu.
  4. HDInsight Hive etkinliğine sahip oluşturulan bir işlem hattı.

Sonraki adımlar

Bu makalede, isteğe bağlı Azure HDInsight kümesinde bir Hive betiği çalıştıran dönüştürme etkinliğine (HDInsight Etkinliği) sahip işlem hattı oluşturdunuz. Verileri Azure Blob’tan Azure SQL’e kopyalamak için Kopyalama Etkinliği’nin kullanılması hakkında bilgi için bkz. Öğretici: Verileri Azure Blob’dan Azure SQL’e kopyalama.

Ayrıca Bkz.

Konu Description
Data Factory Cmdlet Başvurusu Data Factory cmdlet'leri hakkında kapsamlı belgelere bakma
Pipelines Bu makale, Azure Data Factory’de işlem hatlarının ve etkinliklerini anlamanıza ve senaryonuz ya da işletmeniz için uçtan uca veri odaklı iş akışları oluşturmak amacıyla bunları nasıl kullanacağınızı anlamanıza yardımcı olur.
Veri kümeleri Bu makale, Azure Data Factory’deki veri kümelerini anlamanıza yardımcı olur.
Zamanlama ve Yürütme Bu makalede Azure Data Factory uygulama modelinin zamanlama ve yürütme yönleri açıklanmaktadır.
İzleme Uygulaması kullanılarak işlem hatlarını izleme ve yönetme Bu makalede İzleme Yönetimi Uygulaması kullanılarak & işlem hatlarını izleme, yönetme ve hata ayıklama işlemleri açıklanır.