Aracılığıyla paylaş


Azure portalını kullanarak Azure Data Factory'de Hive etkinliğini kullanarak Azure Sanal Ağ verileri dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu öğreticide, Azure portalını kullanarak Azure Sanal Ağ’daki bir HDInsight kümesinde Hive Etkinliği ile verileri dönüştüren bir Data Factory işlem hattı oluşturursunuz. Bu öğreticide aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.
  • Şirket içinde barındırılan tümleştirme çalışma zamanı oluşturma
  • Azure Depolama ve Azure HDInsight bağlı hizmetleri oluşturma
  • Hive etkinliği ile bir işlem hattı oluşturun.
  • İşlem hattı çalıştırması tetikleyin.
  • İşlem hattı çalıştırmasını izleme
  • Çıktıyı doğrulama

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Önkoşullar

Not

Azure ile etkileşim kurmak için Azure Az PowerShell modülünü kullanmanızı öneririz. Başlamak için bkz . Azure PowerShell'i yükleme. Az PowerShell modülüne nasıl geçeceğinizi öğrenmek için bkz. Azure PowerShell’i AzureRM’den Az’ye geçirme.

  • Azure Depolama hesabı. Bir hive betiği oluşturun ve Azure depolama alanına yükleyin. Hive betiğinin çıktısı bu depolama hesabında depolanır. Bu örnekte, HDInsight kümesi bu Azure Depolama hesabını birincil depolama alanı olarak kullanır.

  • Azure Sanal Ağı. Bir Azure sanal ağınız yoksa bu yönergeleri izleyerek bir tane oluşturun. Bu örnekte HDInsight bir Azure Sanal Ağ içindedir. Azure Sanal Ağ’ın örnek yapılandırması aşağıda verilmiştir.

    Sanal ağ oluşturma

  • HDInsight kümesi. Bir HDInsight kümesi oluşturun ve önceki adımda oluşturduğunuz sanal ağa katmak için şu makaleyi izleyin: Bir Azure Sanal Ağ kullanarak Azure HDInsight’ı genişletme. Bir sanal ağda HDInsight’ın örnek yapılandırması aşağıda verilmiştir.

    Sanal ağda HDInsight

  • Azure PowerShell. Azure PowerShell’i yükleme ve yapılandırma bölümündeki yönergeleri izleyin.

  • Bir sanal makine. Bir Azure sanal makinesi oluşturun ve HDInsight kümenizi içeren sanal ağa ekleyin. Ayrıntılar için bkz. Sanal makine oluşturma.

Hive betiğini Blob Depolama hesabınıza yükleme

  1. Aşağıdaki içeriğe sahip hivescript.hql adlı bir Hive SQL dosyası oluşturun:

    DROP TABLE IF EXISTS HiveSampleOut; 
    CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
    STORED AS TEXTFILE LOCATION '${hiveconf:Output}';
    
    INSERT OVERWRITE TABLE HiveSampleOut
    Select 
        clientid,
        market,
        devicemodel,
        state
    FROM hivesampletable
    
  2. Azure Blob depolama alanınızda henüz yoksa adftutorial adlı bir kapsayıcı oluşturun.

  3. hivescripts adlı bir klasör oluşturun.

  4. hivescript.hql dosyasını hivescripts alt klasörüne yükleyin.

Veri fabrikası oluşturma

  1. Veri fabrikanızı henüz oluşturmadıysanız Hızlı Başlangıç: Azure portalını ve Azure Data Factory Studio'yu kullanarak veri fabrikası oluşturma bölümünde yer alan adımları izleyin. Oluşturduktan sonra Azure portalında veri fabrikasına göz atın.

    Azure Data Factory Studio'yu Aç kutucuğuyla Azure Data Factory giriş sayfasının ekran görüntüsü.

  2. Veri Entegrasyonu uygulamasını ayrı bir sekmede başlatmak için Azure Data Factory Studio'yu Aç kutucuğunda Aç'ı seçin.

Şirket içinde barındırılan tümleştirme çalışma zamanı oluşturma

Hadoop kümesi bir sanal ağın içinde olduğundan, aynı sanal ağa şirket içinde barındırılan bir tümleştirme çalışma zamanı (IR) yüklemeniz gerekir. Bu bölümde yeni bir VM oluşturur, bu VM’yi aynı sana ağa katar ve VM’ye şirket içinde barındırılan IR yüklersiniz. Şirket içinde barındırılan IR, Data Factory hizmetinin bir sanal ağ içindeki HDInsight gibi bir işlem hizmetine işleme istekleri göndermesine imkan tanır. Ayrıca, bir sanal ağ içindeki veri depoları ile Azure arasında veri taşımanıza imkan sağlar. Veri deposu veya işlem de şirket içi bir ortamda olduğunda, şirket içinde barındırılan IR kullanırsınız.

  1. Azure Data Factory kullanıcı arabiriminde, pencerenin en altından Bağlantılar’a tıklayın, Tümleştirme Çalışma Zamanları sekmesine geçin ve araç çubuğunda + Yeni düğmesine tıklayın.

    Yeni tümleştirme çalışma zamanı menüsü

  2. Tümleştirme Çalışma Zamanı Kurulumu penceresinde Dış işlemlere veri taşıma ve dağıtım etkinlikleri gerçekleştir seçeneğini belirleyip İleri’ye tıklayın.

    Veri taşıma ve dağıtım etkinlikleri gerçekleştir seçeneği

  3. Özel Ağ seçeneğini belirleyip İleri’ye tıklayın.

    Özel ağı seçin

  4. Ad için MySelfHostedIR adını girip İleri’ye tıklayın.

    Tümleştirme çalışma zamanı adını belirleyin

  5. Kopyala düğmesine tıklayarak tümleştirme çalışma zamanının kimlik doğrulama anahtarını kopyalayın ve kaydedin. Pencereyi açık tutun. Bir sanal makinede yüklü IR’yi kaydetmek için bu anahtarı kullanırsınız.

    Kimlik doğrulama anahtarını kopyalama

Bir sanal makineye IR yükleme

  1. Azure VM’ye şirket içinde barındırılan tümleştirme çalışma zamanını indirin. Şirket içinde barındırılan tümleştirme çalışma zamanını el ile kaydetmek için önceki adımda elde edilen kimlik doğrulama anahtarını kullanın.

    Tümleştirme çalışma zamanını kaydetme

  2. Şirket içinde barındırılan tümleştirme çalışma zamanı başarıyla kaydedildiğinde aşağıdaki iletiyi görürsünüz.

    Başarıyla kaydedildi

  3. Configuration Manager'ı Başlat’a tıklayın. Düğüm bulut hizmetine bağlandığında şu sayfayı görürsünüz:

    Düğüm bağlı

Azure Data Factory kullanıcı arabiriminde şirket içinde barındırılan IR

  1. Azure Data Factory kullanıcı arabiriminde, şirket içinde barındırılan sanal makinenin adını ve durumunu görürsünüz.

    Mevcut şirket içinde barındırılan düğümler

  2. Son’a tıklayarak Tümleştirme Çalışma Zamanı penceresini kapatın. Tümleştirme çalışma zamanları listesinde şirket içinde barındırılan IR’yi görürsünüz.

    Listedeki şirket içinde barındırılan IR

Bağlı hizmetler oluşturma

Bu bölümde iki Bağlı Hizmet oluşturup dağıtacaksınız:

  • Bir Azure Depolama hesabını veri fabrikasına bağlayan Azure Depolama Bağlı Hizmeti. Bu depolama, HDInsight kümeniz tarafından kullanılan birincil depolamadır. Bu durumda, Hive betiğini ve betiğin çıktısını depolamak için de bu Azure Depolama hesabını kullanırsınız.
  • Bir HDInsight Bağlı Hizmeti. Azure Data Factory, hive betiğini yürütme için bu HDInsight kümesine gönderir.

Azure Storage bağlı hizmeti oluşturma

  1. Bağlı Hizmetler sekmesine geçin ve Yeni’ye tıklayın.

    Yeni bağlı hizmet düğmesi

  2. New Linked Service (Yeni Bağlı Hizmet) penceresinde Azure Blob Depolama’yı seçip Devam’a tıklayın.

    Azure Blob Depolama Alanı’nı seçin

  3. New Linked Service (Yeni Bağlı Hizmet) penceresinde aşağıdaki adımları izleyin:

    1. Ad için AzureStorageLinkedService adını girin.

    2. Tümleştirme çalışma zamanı aracılığıyla bağlan için MySelfHostedIR seçeneğini belirleyin.

    3. Depolama hesabı adı için Azure depolama hesabınızı seçin.

    4. Depolama hesabı bağlantısını test etmek için Bağlantıyı sına’ya tıklayın.

    5. Kaydet'e tıklayın.

      Azure Blob Depolama hesabını belirtme

HDInsight bağlı hizmeti oluşturma

  1. Bir kere daha Yeni’ye tıklayarak başka bir bağlı hizmet oluşturun.

    Yeni bağlı hizmet düğmesi

  2. İşlem sekmesine geçin, Azure HDInsight’ı seçin ve Devam’a tıklayın.

    Azure HDInsight’ı seçin

  3. New Linked Service (Yeni Bağlı Hizmet) penceresinde aşağıdaki adımları izleyin:

    1. Ad için AzureHDInsightLinkedService adını girin.

    2. Kendi HDInsight’ınızı getirin’i seçin.

    3. Hdi kümesi için HDInsight kümenizi seçin.

    4. HDInsight kümesi için kullanıcı adını girin.

    5. Kullanıcının parolasını girin.

      Azure HDInsight ayarları

Bu makalede, kümeye internet üzerinden erişebildiğiniz varsayılır. Örneğin, https://clustername.azurehdinsight.net konumundaki kümeye bağlanabildiğiniz kabul edilir. Bu adres, İnternet'ten erişimi kısıtlamak için ağ güvenlik grupları (NSG) veya kullanıcı tanımlı yollar (UDR) kullandıysanız kullanılabilir olmayan ortak ağ geçidi kullanır. Data Factory’nin işleri Azure Sanal Ağdaki HDInsight kümesine gönderebilmesi için Azure Sanal Ağınızı URL’nin HDInsight tarafından kullanılan ağ geçidine ait özel IP adresine çözümlenebileceği şekilde yapılandırmanız gerekir.

  1. Azure portalından, HDInsight’ın içinde bulunduğu Sanal Ağı açın. Adı nic-gateway-0 ile başlayan ağ arabirimini açın. Özel IP adresini not edin. Örneğin, 10.6.0.15.

  2. Azure sanal ağınızda DNS sunucusu varsa, HDInsight kümesi https://<clustername>.azurehdinsight.net URL’sinin 10.6.0.15 hedefine çözümlenebilmesi için DNS kaydını güncelleştirin. Azure Sanal Ağınızda bir DNS sunucusu yoksa, aşağıdaki gibi bir giriş ekleyerek şirket içinde barındırılan tümleştirme çalışma zamanı düğümleri olarak kaydedilmiş tüm VM’lerin ana bilgisayar dosyalarını (C:\Windows\System32\drivers\etc) düzenleyerek geçici bir çözüm bulabilirsiniz:

    10.6.0.15 myHDIClusterName.azurehdinsight.net

İşlem hattı oluşturma

Bu adımda, Hive etkinliği ile bir işlem hattı oluşturacaksınız. Etkinlik, bir örnek tablodan veri döndürmek ve tanımladığınız bir yola kaydetmek üzere Hive betiğini yürütür.

Aaşağıdaki noktaları unutmayın:

  • scriptPath, MyStorageLinkedService için kullandığınız Azure Depolama Hesabında Hive betiğinin yoluna işaret eder. Bu yol büyük/küçük harfe duyarlıdır.
  • Çıktı, Hive betiğinde kullanılan bir değişkendir. Azure Depolama hesabınızda var olan bir klasörü işaret etmek için wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/ biçimini kullanın. Bu yol büyük/küçük harfe duyarlıdır.
  1. Data Factory kullanıcı arabiriminde, sol bölmedeki + (artı) seçeneğine tıklayıp İşlem Hattı’na tıklayın.

    Yeni işlem hattı menüsü

  2. Etkinlikler araç kutusunda HDInsight’ı genişletin ve Hive etkinliğini sürükleyerek işlem hattı tasarımcısının yüzeyine bırakın.

    Hive etkinliğini sürükleyip bırakma

  3. Özellikler penceresinde HDI Kümesi sekmesine geçin ve HDInsight Bağlı Hizmeti için AzureHDInsightLinkedService hizmetini seçin.

    HDInsight bağlı hizmetini seçme

  4. Betikler sekmesine geçin ve aşağıdaki adımları uygulayın:

    1. Betik Bağlı Hizmeti için AzureStorageLinkedService hizmetini seçin.

    2. Dosya Yolu için Depolamaya Gözat’a tıklayın.

      Depolamaya gözat

    3. Dosya veya klasör seçin penceresinde adftutorial kapsayıcısının hivescripts klasörüne gidin, hivescript.hql dosyasını seçin ve Son'a tıklayın.

      Dosya veya klasör seçme

    4. Dosya Yolu olarak adftutorial/hivescripts/hivescript.hql yolunu gördüğünüzü onaylayın.

      Betik ayarları

    5. Betik sekmesinde Gelişmiş bölümünü genişletin.

    6. Parametreler için Betikten otomatik olarak doldur’a tıklayın.

    7. Çıktı parametresinin değerini şu biçimde girin: wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. Örneğin: wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/.

      Betik bağımsız değişkenleri

  5. Yapıtları Data Factory’de yayımlamak için Yayımla’ya tıklayın.

    Data Factory'de yayımlama seçeneğini gösteren ekran görüntüsü.

İşlem hattı çalıştırmasını tetikleme

  1. İlk olarak araç çubuğundaki Doğrula düğmesine tıklayarak işlem hattını doğrulayın. Sağ oka (>>) tıklayarak İşlem Hattı Doğrulama Çıktısı penceresini kapatın.

    İşlem hattını doğrulama

  2. Bir işlem hattı çalıştırması tetiklemek için araç çubuğunda Tetikle’ye tıklayıp Şimdi Tetikle’ye tıklayın.

    Şimdi tetikle

İşlem hattı çalıştırmasını izleme

  1. Soldaki İzleyici sekmesine geçin. İşlem Hattı Çalıştırmaları listesinde bir işlem hattı çalıştırması görürsünüz.

    İşlem hattı çalıştırmalarını izleme

  2. Listeyi yenilemek için Yenile’ye tıklayın.

  3. İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görüntülemek için Eylemler sütunundan Etkinlik çalıştırmalarını göster’e tıklayın. Diğer eylem bağlantıları, işlem hattının durdurulması/yeniden çalıştırılması içindir.

    Etkinlik çalıştırmalarını görüntüleme

  4. İşlem hattında HDInsightHive türünde tek bir etkinlik olduğundan, yalnızca bir etkinlik çalıştırması görürsünüz. Önceki görünüme dönmek için üstteki İşlem hatları bağlantısına tıklayın.

    Etkinlik çalıştırmaları

  5. adftutorial kapsayıcısının outputfolder klasöründe bir çıktı dosyası gördüğünüzü onaylayın.

    Çıktı dosyası

Bu öğreticide aşağıdaki adımları gerçekleştirdiniz:

  • Veri fabrikası oluşturma.
  • Şirket içinde barındırılan tümleştirme çalışma zamanı oluşturma
  • Azure Depolama ve Azure HDInsight bağlı hizmetleri oluşturma
  • Hive etkinliği ile bir işlem hattı oluşturun.
  • İşlem hattı çalıştırması tetikleyin.
  • İşlem hattı çalıştırmasını izleme
  • Çıktıyı doğrulama

Azure üzerinde bir Spark kümesi kullanarak veri dönüştürme hakkında bilgi edinmek için aşağıdaki öğreticiye geçin: