Azure portalını kullanarak Azure Data Factory'de Hive etkinliğini kullanarak Azure Sanal Ağ verileri dönüştürme
UYGULANANLAR: Azure Data Factory Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Bu öğreticide, Azure portalını kullanarak Azure Sanal Ağ’daki bir HDInsight kümesinde Hive Etkinliği ile verileri dönüştüren bir Data Factory işlem hattı oluşturursunuz. Bu öğreticide aşağıdaki adımları gerçekleştireceksiniz:
- Veri fabrikası oluşturma.
- Şirket içinde barındırılan tümleştirme çalışma zamanı oluşturma
- Azure Depolama ve Azure HDInsight bağlı hizmetleri oluşturma
- Hive etkinliği ile bir işlem hattı oluşturun.
- İşlem hattı çalıştırması tetikleyin.
- İşlem hattı çalıştırmasını izleme
- Çıktıyı doğrulama
Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
Önkoşullar
Not
Azure ile etkileşim kurmak için Azure Az PowerShell modülünü kullanmanızı öneririz. Başlamak için bkz . Azure PowerShell'i yükleme. Az PowerShell modülüne nasıl geçeceğinizi öğrenmek için bkz. Azure PowerShell’i AzureRM’den Az’ye geçirme.
Azure Depolama hesabı. Bir hive betiği oluşturun ve Azure depolama alanına yükleyin. Hive betiğinin çıktısı bu depolama hesabında depolanır. Bu örnekte, HDInsight kümesi bu Azure Depolama hesabını birincil depolama alanı olarak kullanır.
Azure Sanal Ağı. Bir Azure sanal ağınız yoksa bu yönergeleri izleyerek bir tane oluşturun. Bu örnekte HDInsight bir Azure Sanal Ağ içindedir. Azure Sanal Ağ’ın örnek yapılandırması aşağıda verilmiştir.
HDInsight kümesi. Bir HDInsight kümesi oluşturun ve önceki adımda oluşturduğunuz sanal ağa katmak için şu makaleyi izleyin: Bir Azure Sanal Ağ kullanarak Azure HDInsight’ı genişletme. Bir sanal ağda HDInsight’ın örnek yapılandırması aşağıda verilmiştir.
Azure PowerShell. Azure PowerShell’i yükleme ve yapılandırma bölümündeki yönergeleri izleyin.
Bir sanal makine. Bir Azure sanal makinesi oluşturun ve HDInsight kümenizi içeren sanal ağa ekleyin. Ayrıntılar için bkz. Sanal makine oluşturma.
Hive betiğini Blob Depolama hesabınıza yükleme
Aşağıdaki içeriğe sahip hivescript.hql adlı bir Hive SQL dosyası oluşturun:
DROP TABLE IF EXISTS HiveSampleOut; CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '${hiveconf:Output}'; INSERT OVERWRITE TABLE HiveSampleOut Select clientid, market, devicemodel, state FROM hivesampletable
Azure Blob depolama alanınızda henüz yoksa adftutorial adlı bir kapsayıcı oluşturun.
hivescripts adlı bir klasör oluşturun.
hivescript.hql dosyasını hivescripts alt klasörüne yükleyin.
Veri fabrikası oluşturma
Veri fabrikanızı henüz oluşturmadıysanız Hızlı Başlangıç: Azure portalını ve Azure Data Factory Studio'yu kullanarak veri fabrikası oluşturma bölümünde yer alan adımları izleyin. Oluşturduktan sonra Azure portalında veri fabrikasına göz atın.
Veri Entegrasyonu uygulamasını ayrı bir sekmede başlatmak için Azure Data Factory Studio'yu Aç kutucuğunda Aç'ı seçin.
Şirket içinde barındırılan tümleştirme çalışma zamanı oluşturma
Hadoop kümesi bir sanal ağın içinde olduğundan, aynı sanal ağa şirket içinde barındırılan bir tümleştirme çalışma zamanı (IR) yüklemeniz gerekir. Bu bölümde yeni bir VM oluşturur, bu VM’yi aynı sana ağa katar ve VM’ye şirket içinde barındırılan IR yüklersiniz. Şirket içinde barındırılan IR, Data Factory hizmetinin bir sanal ağ içindeki HDInsight gibi bir işlem hizmetine işleme istekleri göndermesine imkan tanır. Ayrıca, bir sanal ağ içindeki veri depoları ile Azure arasında veri taşımanıza imkan sağlar. Veri deposu veya işlem de şirket içi bir ortamda olduğunda, şirket içinde barındırılan IR kullanırsınız.
Azure Data Factory kullanıcı arabiriminde, pencerenin en altından Bağlantılar’a tıklayın, Tümleştirme Çalışma Zamanları sekmesine geçin ve araç çubuğunda + Yeni düğmesine tıklayın.
Tümleştirme Çalışma Zamanı Kurulumu penceresinde Dış işlemlere veri taşıma ve dağıtım etkinlikleri gerçekleştir seçeneğini belirleyip İleri’ye tıklayın.
Özel Ağ seçeneğini belirleyip İleri’ye tıklayın.
Ad için MySelfHostedIR adını girip İleri’ye tıklayın.
Kopyala düğmesine tıklayarak tümleştirme çalışma zamanının kimlik doğrulama anahtarını kopyalayın ve kaydedin. Pencereyi açık tutun. Bir sanal makinede yüklü IR’yi kaydetmek için bu anahtarı kullanırsınız.
Bir sanal makineye IR yükleme
Azure VM’ye şirket içinde barındırılan tümleştirme çalışma zamanını indirin. Şirket içinde barındırılan tümleştirme çalışma zamanını el ile kaydetmek için önceki adımda elde edilen kimlik doğrulama anahtarını kullanın.
Şirket içinde barındırılan tümleştirme çalışma zamanı başarıyla kaydedildiğinde aşağıdaki iletiyi görürsünüz.
Configuration Manager'ı Başlat’a tıklayın. Düğüm bulut hizmetine bağlandığında şu sayfayı görürsünüz:
Azure Data Factory kullanıcı arabiriminde şirket içinde barındırılan IR
Azure Data Factory kullanıcı arabiriminde, şirket içinde barındırılan sanal makinenin adını ve durumunu görürsünüz.
Son’a tıklayarak Tümleştirme Çalışma Zamanı penceresini kapatın. Tümleştirme çalışma zamanları listesinde şirket içinde barındırılan IR’yi görürsünüz.
Bağlı hizmetler oluşturma
Bu bölümde iki Bağlı Hizmet oluşturup dağıtacaksınız:
- Bir Azure Depolama hesabını veri fabrikasına bağlayan Azure Depolama Bağlı Hizmeti. Bu depolama, HDInsight kümeniz tarafından kullanılan birincil depolamadır. Bu durumda, Hive betiğini ve betiğin çıktısını depolamak için de bu Azure Depolama hesabını kullanırsınız.
- Bir HDInsight Bağlı Hizmeti. Azure Data Factory, hive betiğini yürütme için bu HDInsight kümesine gönderir.
Azure Storage bağlı hizmeti oluşturma
Bağlı Hizmetler sekmesine geçin ve Yeni’ye tıklayın.
New Linked Service (Yeni Bağlı Hizmet) penceresinde Azure Blob Depolama’yı seçip Devam’a tıklayın.
New Linked Service (Yeni Bağlı Hizmet) penceresinde aşağıdaki adımları izleyin:
Ad için AzureStorageLinkedService adını girin.
Tümleştirme çalışma zamanı aracılığıyla bağlan için MySelfHostedIR seçeneğini belirleyin.
Depolama hesabı adı için Azure depolama hesabınızı seçin.
Depolama hesabı bağlantısını test etmek için Bağlantıyı sına’ya tıklayın.
Kaydet'e tıklayın.
HDInsight bağlı hizmeti oluşturma
Bir kere daha Yeni’ye tıklayarak başka bir bağlı hizmet oluşturun.
İşlem sekmesine geçin, Azure HDInsight’ı seçin ve Devam’a tıklayın.
New Linked Service (Yeni Bağlı Hizmet) penceresinde aşağıdaki adımları izleyin:
Ad için AzureHDInsightLinkedService adını girin.
Kendi HDInsight’ınızı getirin’i seçin.
Hdi kümesi için HDInsight kümenizi seçin.
HDInsight kümesi için kullanıcı adını girin.
Kullanıcının parolasını girin.
Bu makalede, kümeye internet üzerinden erişebildiğiniz varsayılır. Örneğin, https://clustername.azurehdinsight.net
konumundaki kümeye bağlanabildiğiniz kabul edilir. Bu adres, İnternet'ten erişimi kısıtlamak için ağ güvenlik grupları (NSG) veya kullanıcı tanımlı yollar (UDR) kullandıysanız kullanılabilir olmayan ortak ağ geçidi kullanır. Data Factory’nin işleri Azure Sanal Ağdaki HDInsight kümesine gönderebilmesi için Azure Sanal Ağınızı URL’nin HDInsight tarafından kullanılan ağ geçidine ait özel IP adresine çözümlenebileceği şekilde yapılandırmanız gerekir.
Azure portalından, HDInsight’ın içinde bulunduğu Sanal Ağı açın. Adı
nic-gateway-0
ile başlayan ağ arabirimini açın. Özel IP adresini not edin. Örneğin, 10.6.0.15.Azure sanal ağınızda DNS sunucusu varsa, HDInsight kümesi
https://<clustername>.azurehdinsight.net
URL’sinin10.6.0.15
hedefine çözümlenebilmesi için DNS kaydını güncelleştirin. Azure Sanal Ağınızda bir DNS sunucusu yoksa, aşağıdaki gibi bir giriş ekleyerek şirket içinde barındırılan tümleştirme çalışma zamanı düğümleri olarak kaydedilmiş tüm VM’lerin ana bilgisayar dosyalarını (C:\Windows\System32\drivers\etc) düzenleyerek geçici bir çözüm bulabilirsiniz:10.6.0.15 myHDIClusterName.azurehdinsight.net
İşlem hattı oluşturma
Bu adımda, Hive etkinliği ile bir işlem hattı oluşturacaksınız. Etkinlik, bir örnek tablodan veri döndürmek ve tanımladığınız bir yola kaydetmek üzere Hive betiğini yürütür.
Aaşağıdaki noktaları unutmayın:
- scriptPath, MyStorageLinkedService için kullandığınız Azure Depolama Hesabında Hive betiğinin yoluna işaret eder. Bu yol büyük/küçük harfe duyarlıdır.
- Çıktı, Hive betiğinde kullanılan bir değişkendir. Azure Depolama hesabınızda var olan bir klasörü işaret etmek için
wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/
biçimini kullanın. Bu yol büyük/küçük harfe duyarlıdır.
Data Factory kullanıcı arabiriminde, sol bölmedeki + (artı) seçeneğine tıklayıp İşlem Hattı’na tıklayın.
Etkinlikler araç kutusunda HDInsight’ı genişletin ve Hive etkinliğini sürükleyerek işlem hattı tasarımcısının yüzeyine bırakın.
Özellikler penceresinde HDI Kümesi sekmesine geçin ve HDInsight Bağlı Hizmeti için AzureHDInsightLinkedService hizmetini seçin.
Betikler sekmesine geçin ve aşağıdaki adımları uygulayın:
Betik Bağlı Hizmeti için AzureStorageLinkedService hizmetini seçin.
Dosya Yolu için Depolamaya Gözat’a tıklayın.
Dosya veya klasör seçin penceresinde adftutorial kapsayıcısının hivescripts klasörüne gidin, hivescript.hql dosyasını seçin ve Son'a tıklayın.
Dosya Yolu olarak adftutorial/hivescripts/hivescript.hql yolunu gördüğünüzü onaylayın.
Betik sekmesinde Gelişmiş bölümünü genişletin.
Parametreler için Betikten otomatik olarak doldur’a tıklayın.
Çıktı parametresinin değerini şu biçimde girin:
wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/
. Örneğin:wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/
.
Yapıtları Data Factory’de yayımlamak için Yayımla’ya tıklayın.
İşlem hattı çalıştırmasını tetikleme
İlk olarak araç çubuğundaki Doğrula düğmesine tıklayarak işlem hattını doğrulayın. Sağ oka (>>) tıklayarak İşlem Hattı Doğrulama Çıktısı penceresini kapatın.
Bir işlem hattı çalıştırması tetiklemek için araç çubuğunda Tetikle’ye tıklayıp Şimdi Tetikle’ye tıklayın.
İşlem hattı çalıştırmasını izleme
Soldaki İzleyici sekmesine geçin. İşlem Hattı Çalıştırmaları listesinde bir işlem hattı çalıştırması görürsünüz.
Listeyi yenilemek için Yenile’ye tıklayın.
İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görüntülemek için Eylemler sütunundan Etkinlik çalıştırmalarını göster’e tıklayın. Diğer eylem bağlantıları, işlem hattının durdurulması/yeniden çalıştırılması içindir.
İşlem hattında HDInsightHive türünde tek bir etkinlik olduğundan, yalnızca bir etkinlik çalıştırması görürsünüz. Önceki görünüme dönmek için üstteki İşlem hatları bağlantısına tıklayın.
adftutorial kapsayıcısının outputfolder klasöründe bir çıktı dosyası gördüğünüzü onaylayın.
İlgili içerik
Bu öğreticide aşağıdaki adımları gerçekleştirdiniz:
- Veri fabrikası oluşturma.
- Şirket içinde barındırılan tümleştirme çalışma zamanı oluşturma
- Azure Depolama ve Azure HDInsight bağlı hizmetleri oluşturma
- Hive etkinliği ile bir işlem hattı oluşturun.
- İşlem hattı çalıştırması tetikleyin.
- İşlem hattı çalıştırmasını izleme
- Çıktıyı doğrulama
Azure üzerinde bir Spark kümesi kullanarak veri dönüştürme hakkında bilgi edinmek için aşağıdaki öğreticiye geçin: