Azure Data Factory nedir?

ŞUNLAR IÇIN GEÇERLIDIR: Azure Data Factory Azure Synapse Analytics

Büyük veri dünyasında ham ve düzensiz veriler genellikle ilişkisel, ilişkisel olmayan ve diğer depolama sistemlerinde depolanır. Ancak, ham veriler kendi başlarına analiz uzmanlarına, veri bilimcilerine veya iş karar mekanizmalarına anlamlı bilgiler sağlamak için uygun bağlama veya anlama sahip değildir.

Büyük veriler, bu muazzam ham veri depolarını eyleme dönüştürülebilir iş içgörülerine daraltmak için süreçleri düzenleyip kullanıma hazır hale getirebilen bir hizmet gerektirir. Azure Data Factory, bu karmaşık karma ayıkla-dönüştür-yükle (ETL), ayıkla-yükle-dönüştür (ELT) ve veri tümleştirme projeleri için oluşturulmuş, yönetilen bir bulut hizmetidir.

Kullanım senaryoları

Örneğin bulutta çalışan oyunların oluşturduğu petabaytlarca oyun günlüğünü toplayan bir oyun şirketini düşünün. Şirket müşteri tercihleri, demografik bilgiler ve kullanıcı davranışları hakkında içgörü elde etme amacıyla bu günlükleri analiz etmek istiyor. Ayrıca yukarı satış ve çapraz satış fırsatlarını belirlemek, yeni cazip özellikler geliştirmek, işleri büyütmek ve müşterilerine daha iyi bir deneyim sunmayı amaçlamaktadır.

Bu günlükleri analiz etmek için, şirketin şirket içi veri deposunda bulunan müşteri bilgileri, oyun bilgileri ve pazarlama kampanyası bilgileri gibi başvuru verilerini kullanması gerekir. Şirket bu verileri şirket içi veri deposundan bir bulut veri deposunda sahip olduğu ek günlük verileriyle bir arada kullanmak istemektedir.

İçgörüleri ayıklamak için, bulutta bir Spark kümesi (Azure HDInsight) kullanarak birleştirilmiş verileri işlemeyi ve dönüştürülen verileri Azure Synapse Analytics gibi bir bulut veri ambarında yayımlayarak bunun üzerinde kolayca bir rapor oluşturmayı umuyor. Bu iş akışını otomatikleştirmek ve bunu günlük olarak izleyip yönetmek istiyor. Ayrıca bu iş akışını blob deposu kapsayıcısına dosyalar ulaştığında yürütmek istiyor.

Azure Data Factory, bu tür veri senaryolarını çözen platformdur. Veri taşıma ve verileri büyük ölçekte dönüştürme amacıyla veri odaklı iş akışları oluşturmanıza olanak tanıyan bulut tabanlı ETL ve veri tümleştirme hizmetidir. Azure Data Factory platformunu kullanarak farklı veri depolarından veri alabilen veri odaklı iş akışları (işlem hattı olarak adlandırılır) oluşturabilir ve zamanlayabilirsiniz. Veri akışlarıyla veya Azure HDInsight Hadoop, Azure Databricks ve Azure SQL Veritabanı gibi işlem hizmetlerini kullanarak verileri görsel olarak dönüştüren karmaşık ETL işlemleri oluşturabilirsiniz.

Ayrıca, dönüştürülen verilerinizi iş zekası (BI) uygulamaları için Azure Synapse Analytics gibi veri depolarında yayımlayabilirsiniz. Sonuç olarak, Azure Data Factory sayesinde ham veriler daha iyi iş kararları için anlamlı veri depoları ve veri gölleri halinde düzenlenebilir.

Nasıl çalışır?

Data Factory, veri mühendisleri için uçtan uca tam kapsamlı bir platform sunan bağlantılı sistemlerden oluşur.

Azure Data Factory en üst düzey mimari diyagramını gösterir.

Bu görsel kılavuz, Data Factory mimarisinin tamamına ayrıntılı bir genel bakış sağlar:

Azure Data Factory için tam sistem mimarisine yönelik ayrıntılı görsel kılavuz, tek bir yüksek çözünürlüklü görüntüde sunulur.

Daha fazla ayrıntı görmek için, yakınlaştırmak için önceki resmi seçin veya yüksek çözünürlüklü resme göz atın.

Bağlanma ve toplama

Kuruluşlar şirket içinde, bulutta bulunan yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış ve tümü farklı aralık ve hızlarda gelen farklı kaynaklarda bulunan çeşitli veri türlerine sahiptir.

Bilgi üretim sistemi oluşturmanın ilk adımı hizmet olarak yazılım (SaaS) hizmetleri, veritabanları, dosya paylaşımları, FTP, web hizmetleri gibi tüm gerekli veri kaynaklarına ve işleme çalışmalarına bağlanmaktır. Sonraki adım ise takip eden işleme çalışmaları için gerektiğinde verileri merkezi bir konuma taşımaktır.

Data Factory olmadığında, kuruluşların bu veri kaynaklarını ve işleme çalışmalarını tümleştirmek için özel veri taşıma bileşenleri oluşturması veya özel hizmetler yazması gerekir. Bu tür sistemleri tümleştirmenin ve bakımını yapmanın maliyeti yüksektir. Buna ek olarak bu sistemlerde tamamen yönetilebilir bir hizmetin sunduğu kurumsal sınıf izleme, uyarı oluşturma ve denetim özellikleri mevcut değildir.

Data Factory ile, verileri hem şirket içi hem de bulut kaynağı veri depolarından daha fazla analiz için buluttaki merkezi bir veri deposuna taşımak için veri işlem hattındaki Kopyalama Etkinliğini kullanabilirsiniz. Örneğin, Azure Data Lake Storage'da veri toplayabilir ve daha sonra azure Data Lake Analytics işlem hizmetini kullanarak verileri dönüştürebilirsiniz. Verileri Azure Blob depolama alanından toplayıp daha sonra Azure HDInsight Hadoop kümesi kullanarak da dönüştürebilirsiniz.

Dönüştürme ve zenginleştirme

Veriler bulutta merkezi bir veri deposunda mevcut olduktan sonra, ADF eşleme veri akışlarını kullanarak toplanan verileri işleyin veya dönüştürün. Veri akışları, veri mühendislerinin Spark kümelerini veya Spark programlamasını anlamaya gerek kalmadan Spark üzerinde yürütülen veri dönüştürme grafları oluşturmasına ve bakımını yapmasına olanak tanır.

Dönüştürmeleri el ile kodlamayı tercih ederseniz, ADF HDInsight Hadoop, Spark, Data Lake Analytics ve Machine Learning gibi işlem hizmetlerinde dönüştürmelerinizi yürütmek için dış etkinlikleri destekler.

CI/CD ve yayımlama

Data Factory, Azure DevOps ve GitHub kullanarak veri işlem hatlarınızın CI/CD'si için tam destek sunar. Bu, tamamlanmış ürünü yayımlamadan önce ETL süreçlerinizi artımlı olarak geliştirmenize ve sunmanıza olanak tanır. Ham veriler iş için hazır bir kullanılabilir biçime dönüştürüldikten sonra, verileri Azure Data Warehouse, veritabanı, Azure Cosmos DB Azure SQL veya iş zekası araçlarından iş zekası araçlarından işaret eden analiz altyapısına yükleyin.

İzleyici

Veri tümleştirme işlem hattınızı başarıyla oluşturup dağıtarak iyileştirilmiş verilerden iş değeri elde ettikten sonra, başarı ve hata oranları için zamanlanmış etkinlikleri ve işlem hatlarını izleyin. Azure Data Factory, Azure portal Azure İzleyici, API, PowerShell, Azure İzleyici günlükleri ve sistem durumu panelleri aracılığıyla işlem hattı izleme için yerleşik desteğe sahiptir.

Üst düzey kavramlar

Azure aboneliğinin bir veya birden çok Azure Data Factory örneği (veya veri fabrikası) olabilir. Azure Data Factory aşağıdaki temel bileşenlerden oluşur.

  • Pipelines
  • Etkinlikler
  • Veri kümeleri
  • Bağlı hizmetler
  • Veri Akışları
  • Tümleştirme Çalışma Zamanları

Bu bileşenler, üzerinde veri taşıma ve dönüştürme adımları ile veri odaklı iş akışları oluşturabileceğiniz platformu sağlamak üzere birlikte çalışır.

İşlem Hattı

Bir veri fabrikasında bir veya daha fazla işlem hattı olabilir. İşlem hattı, bir iş birimini gerçekleştiren etkinliklerden oluşan mantıksal gruptur. İşlem hattındaki etkinlikler birlikte bir görevi gerçekleştirir. Örneğin, bir işlem hattı Azure blobundan verileri alan ve ardından HDInsight kümesinde Hive sorgusu çalıştırarak verileri bölümlere ayıran bir grup etkinlik içerebilir.

İşlem hattının avantajı, etkinliklerin her birini tek tek yönetmek yerine bir küme olarak yönetmenize olanak tanımasıdır. Bir işlem hattındaki etkinlikler, sırayla çalışmak üzere birbirine zincirlenebilir veya paralel olarak birbirinden bağımsız çalışabilir.

Veri akışlarını eşleme

Herhangi bir boyuttaki verileri dönüştürmek için kullanabileceğiniz veri dönüştürme mantığı grafiklerini oluşturun ve yönetin. Veri dönüştürme yordamlarından oluşan yeniden kullanılabilir bir kitaplık oluşturabilir ve bu işlemleri ADF işlem hatlarınızdan ölçeği genişletilmiş bir şekilde yürütebilirsiniz. Data Factory, mantığınızı ihtiyaç duyduğunuzda açılan ve açılan bir Spark kümesinde yürütür. Kümeleri yönetmek veya bakımını yapmak zorunda kalmazsınız.

Etkinlik

Etkinlikler bir işlem hattındaki işleme adımını temsil eder. Örneğin, bir veri deposundan başka bir veri deposuna veri kopyalamak için kopyalama etkinliğini kullanabilirsiniz. Benzer şekilde, verilerinizi dönüştürmek veya analiz etmek amacıyla Azure HDInsight kümesinde bir Hive sorgusu çalıştıran bir Hive etkinliği kullanabilirsiniz. Data Factory üç tür etkinliği destekler: veri taşıma etkinlikleri, veri dönüştürme etkinlikleri ve denetim etkinlikleri.

Veri kümeleri

Veri kümeleri, veri depoları içinde etkinliklerinizde giriş veya çıkış olarak kullanmak istediğiniz verilere işaret eden veya başvuruda bulunan veri yapılarını temsil eder.

Bağlı hizmetler

Bağlı hizmetler, dış kaynaklara bağlanmak için Data Factory'ye gereken bağlantı bilgilerini tanımlayan bağlantı dizelerine çok benzer. Şöyle düşünün: bağlı bir hizmet, veri kaynağıyla bağlantıyı tanımlar ve veri kümesi verilerin yapısını temsil eder. Örneğin, Azure Depolama bağlı hizmeti Azure Depolama hesabına bağlanacak bağlantı dizesini belirtir. Ayrıca, bir Azure blob veri kümesi blob kapsayıcıyı ve verileri içeren klasörü belirtir.

Bağlı hizmetler Data Factory’de iki amaçla kullanılır:

  • SQL Server veritabanı, Oracle veritabanı, dosya paylaşımı veya Azure blob depolama hesabı içeren ancak bunlarla sınırlı olmayan bir veri depolarını temsil etmek için. Desteklenen veri depolarının listesi için kopyalama etkinliği makalesine bakın.

  • Bir etkinliğin yürütülmesini barındırabilen bir işlem kaynağını temsil etmek için. Örneğin, HDInsightHive etkinliği bir HDInsight Hadoop kümesinde yürütülür. Dönüştürme etkinlikleri ve desteklenen işlem ortamlarının listesi için veri dönüştürme makalesine bakın.

Tümleştirme Çalışma Zamanı

Data Factory'de etkinlik, gerçekleştirilecek eylemi tanımlar. Bağlı hizmet, bir hedef veri deposunu veya işlem hizmetini tanımlar. Tümleştirme çalışma zamanı, etkinlik ile bağlı Hizmetler arasında köprü görevi görür. Bağlı hizmet veya etkinlik tarafından başvurulur ve etkinliğin üzerinde çalıştığı veya gönderildiği işlem ortamını sağlar. Bu şekilde etkinlik hedef veri deposuna veya işlem hizmetine en yakın bölgeden en yüksek performansla gerçekleştirilirken güvenlik ve uyum gereksinimleri korunmuş olur.

Tetikleyiciler

Tetikleyiciler, bir işlem hattı çalıştırmasının başlatılması gereken zamanı belirleyen işlem birimini temsil eder. Farklı etkinlik türleri için farklı tetikleyici türleri vardır.

İşlem hattı çalıştırmaları

İşlem hattı çalıştırması, işlem hattı yürütme örneğidir. İşlem hattı çalıştırmaları örneği genelde bağımsız değişkenlerin işlem hatlarında tanımlanan parametrelere iletilmesiyle oluşturulur. Bağımsız değişkenler el ile veya tetikleyici tanımı içinde geçirilebilir.

Parametreler

Parametreler salt okunur yapılandırmanın anahtar-değer çiftleridir.  Parametreler işlem hattında tanımlanır. Tanımlı parametrelerin bağımsız değişkenleri, bir tetikleyici tarafından oluşturulan çalıştırma bağlamı veya el ile yürütülen işlem hattından yürütme sırasında geçirilir. İşlem hattındaki etkinlikler parametre değerlerini kullanır.

Veri kümesi, türü kesin olarak belirtilmiş bir parametre ve yeniden kullanılabilir/başvurulabilir bir varlıktır. Bir etkinlik, veri kümelerine başvurabilir ve veri kümesi tanımında belirtilen özellikleri kullanabilir.

Bağlı hizmet de türü kesin olarak belirtilmiş ve veri deposu ya da işlem ortamı ile bağlantı bilgilerini içeren bir parametredir. Bu da yeniden kullanılabilir/başvurulabilir bir varlıktır.

Denetim akışı

Denetim akışı, işlem hattı düzeyinde ve işlem hattı talep üzerine ya da bir tetikleyiciden çağrılırken geçirilen bağımsız değişkenlerde tanımlanabilen dizi, dallanma ve parametrelerdeki zincirleme etkinliklerini içeren işlem hattı etkinliklerinin düzenlenmesidir. Ayrıca özel durum geçirme ve döngü kapsayıcılarını, diğer bir deyişle For-each yineleyicilerini içerir.

Değişkenler

Değişkenler geçici değerleri depolamak için işlem hatlarının içinde kullanılabilir ve işlem hatları, veri akışları ve diğer etkinlikler arasında değer geçirmeyi etkinleştirmek için parametrelerle birlikte de kullanılabilir.

Sonraki adımlar

İşte keşfedilecek önemli sonraki adım belgeleri: