Öğretici: Hadoop kümesini kullanarak verileri dönüştürmek için ilk işlem hattınızı oluşturma

Not

Bu makale, Data Factory’nin 1. sürümü için geçerlidir. Data Factory'nin geçerli sürümünü kullanıyorsanız Hızlı Başlangıç: Azure Data Factory'yi kullanarak veri fabrikası oluşturma konusunu inceleyin.

Bu öğreticide bir veri işlem hattı ile ilk Azure veri fabrikanızı oluşturacaksınız. İşlem hattı, çıkış verileri oluşturmak için bir Azure HDInsight (Hadoop) kümesinde Hive betiği çalıştırarak giriş verilerini dönüştürür.

Bu makalede, öğreticiye genel bakış ve önkoşullar sağlanır. Önkoşulları tamamladıktan sonra öğreticiyi aşağıdaki araçlardan/SDK'lardan birini kullanarak yapabilirsiniz: Visual Studio, PowerShell, Resource Manager şablonu, REST API. Öğreticiyi bu seçeneklerden birini kullanarak yapmak için bu makalenin başındaki (veya) bağlantıların başındaki açılan listede yer alan seçeneklerden birini belirleyin.

Öğreticiye genel bakış

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

  1. Veri fabrikası oluşturma. Veri fabrikası, verileri taşıyabilen ve dönüştüren bir veya daha fazla veri işlem hattı içerebilir.

    Bu öğreticide, veri fabrikasında bir işlem hattı oluşturursunuz.

  2. İşlem hattı oluşturma. İşlem hattında bir veya daha fazla etkinlik bulunabilir (Örnek: Kopya Etkinliği, HDInsight Hive Etkinliği). Bu örnek, HDInsight Hadoop kümesinde Hive betiği çalıştıran HDInsight Hive etkinliğini kullanır. Betik önce Azure blob depolamada depolanan ham web günlüğü verilerine başvuran ve ardından ham verileri yıl ve aya göre bölümleyen bir tablo oluşturur.

    Bu öğreticide işlem hattı, Bir Azure HDInsight Hadoop kümesinde Hive sorgusu çalıştırarak verileri dönüştürmek için Hive Etkinliğini kullanır.

  3. Bağlı hizmetler oluşturun. Bir veri deposunu veya işlem hizmetini, veri fabrikasına bağlamak için bir bağlı hizmet oluşturursunuz. Azure Depolama gibi bir veri deposu, veri işlem hattındaki etkinliklerin giriş/çıkış verilerini tutar. HDInsight Hadoop kümesi gibi bir işlem hizmeti verileri işler/dönüştürür.

    Bu öğreticide iki bağlı hizmet oluşturacaksınız: Azure Depolama ve Azure HDInsight. Azure Depolama bağlı hizmeti, giriş/çıkış verilerini tutan bir Azure Depolama Hesabını veri fabrikasına bağlar. Azure HDInsight bağlı hizmeti, verileri veri fabrikasına dönüştürmek için kullanılan bir Azure HDInsight kümesini bağlar.

  4. Giriş ve çıkış veri kümeleri oluşturun. Giriş veri kümesi, veri işlem hattındaki bir etkinlik için girişi ve çıktı veri kümesi, etkinliğin çıktısını temsil eder.

    Bu öğreticide, giriş ve çıkış veri kümeleri Azure Blob Depolama giriş ve çıkış verilerinin konumlarını belirtir. Azure Depolama bağlı hizmeti, hangi Azure Depolama Hesabının kullanıldığını belirtir. Giriş veri kümesi, giriş dosyalarının bulunduğu yeri ve çıkış veri kümesi çıkış dosyalarının nereye yerleştirileceği belirtir.

Azure Data Factory ayrıntılı bir genel bakış için Azure Data Factory giriş makalesine bakın.

Bu öğreticide oluşturduğunuz örnek veri fabrikasının diyagram görünümü aşağıda verilmiştir. MyFirstPipeline , Giriş olarak AzureBlobInput veri kümesini kullanan ve çıkış olarak AzureBlobOutput veri kümesi üreten Hive türünde bir etkinliğe sahiptir.

Data Factory öğreticisinde diyagram görünümü

Bu öğreticide, adfgetstarted Azure blob kapsayıcısının inputdata klasörü input.log adlı bir dosya içerir. Bu günlük dosyasında üç aya ait girdiler vardır: Ocak, Şubat ve Mart 2016. Girdi dosyasındaki, her aya ait örnek satırlar şunlardır.

2016-01-01,02:01:09,SAMPLEWEBSITE,GET,/blogposts/mvc4/step2.png,X-ARR-LOG-ID=2ec4b8ad-3cf0-4442-93ab-837317ece6a1,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,53175,871
2016-02-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871
2016-03-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871

Dosya, işlem hattı tarafından HDInsight Hive etkinliği ile işlendiğinde etkinlik, giriş verilerini yıl ve aya göre bölümlere ayıran HDInsight kümesi üzerinde bir Hive betiği çalıştırır. Betik, her bir aya ait girişlerin bulunduğu bir dosya içeren üç çıktı klasörü oluşturur.

adfgetstarted/partitioneddata/year=2016/month=1/000000_0
adfgetstarted/partitioneddata/year=2016/month=2/000000_0
adfgetstarted/partitioneddata/year=2016/month=3/000000_0

Yukarıda gösterilen örnek satırlardan ilki (2016-01-01 ile) month=1 klasöründeki 000000_0 dosyasına yazılır. Benzer şekilde, ikinci satır month=2 klasöründeki dosyaya ve üçüncü satır month=3 klasöründeki dosyaya yazılır.

Önkoşullar

Bu öğreticiye başlamadan önce aşağıdaki önkoşullara sahip olmanız gerekir:

  1. Azure aboneliği: Aboneliğiniz yoksa yalnızca birkaç dakika içinde ücretsiz bir deneme hesabı oluşturabilirsiniz. Nasıl ücretsiz bir deneme hesabı edinebileceğinizi öğrenmek için Ücretsiz Deneme makalesine bakın.
  2. Azure Depolama - Bu öğreticideki verileri depolamak için bir Azure depolama hesabı kullanırsınız. Azure depolama hesabınız yoksa Depolama hesabı oluşturma makalesine bakın. Depolama hesabını oluşturduktan sonra hesap adını ve erişim anahtarını not edin. Depolama hesabı erişim anahtarlarını alma hakkında bilgi için bkz. Depolama hesabı erişim anahtarlarını yönetme.
  3. adresinde bulunan Hive sorgu dosyasını (HQL) indirin ve gözden geçirin. https://adftutorialfiles.blob.core.windows.net/hivetutorial/partitionweblogs.hql Bu sorgu, çıkış verileri üretmek için giriş verilerini dönüştürür.
  4. Adresinde bulunan örnek giriş dosyasını (input.log) indirin ve gözden geçirin: https://adftutorialfiles.blob.core.windows.net/hivetutorial/input.log
  5. Azure Blob Depolama adfgetstarted adlı bir blob kapsayıcısı oluşturun.
  6. partitionweblogs.hql dosyasını adfgetstarted kapsayıcısında betik klasörüne yükleyin. Microsoft Azure Depolama Gezgini gibi araçları kullanın.
  7. input.log dosyasını adfgetstarted kapsayıcısında inputdata klasörüne yükleyin.

Önkoşulları tamamladıktan sonra öğreticiyi gerçekleştirmek için aşağıdaki araçlardan/SDK'lardan birini seçin:

Visual Studio, veri fabrikalarınızı oluşturmanın gui yolunu sağlar. PowerShell, Resource Manager Şablonu ve REST API seçenekleri ise veri fabrikalarınızı oluşturmanın betik/programlama yolunu sağlar.

Not

Bu öğreticideki veri işlem hattı, çıkış verileri üretmek üzere giriş verilerini dönüştürür. Bir kaynak veri deposundan hedef veri deposuna verileri kopyalamaz. Azure Data Factory kullanarak verileri kopyalama öğreticisi için bkz. Öğretici: Blob Depolama’dan SQL Veritabanı’na veri kopyalama.

Bir etkinliğin çıkış veri kümesini diğer etkinliğin giriş veri kümesi olarak ayarlayarak iki etkinliği zincirleyebilir, yani bir etkinliği diğerinden sonra çalıştırılmasını sağlayabilirsiniz. Ayrıntılı bilgi için bkz. Data Factory’de zamanlama ve yürütme.