Azure Data Factory nedir?
UYGULANANLAR: Azure Data Factory Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Büyük veri dünyasında ham ve düzensiz veriler genellikle ilişkisel, ilişkisel olmayan ve diğer depolama sistemlerinde depolanır. Ancak, ham veriler kendi başlarına analiz uzmanlarına, veri bilimcilerine veya iş karar mekanizmalarına anlamlı bilgiler sağlamak için uygun bağlama veya anlama sahip değildir.
Büyük veri, bu muazzam ham veri depolarını eyleme dönüştürülebilir iş içgörülerine daraltmak için süreçleri düzenleyebilecek ve kullanıma hazır hale getirebilen bir hizmet gerektirir. Azure Data Factory, bu karmaşık karma ayıkla-dönüştür-yükle (ETL), ayıkla-yükle-dönüştür (ELT) ve veri tümleştirme projeleri için oluşturulmuş, yönetilen bir bulut hizmetidir.
Azure Data Factory özellikleri
Veri Sıkıştırma: Veri Kopyalama etkinliği sırasında verileri sıkıştırmak ve sıkıştırılmış verileri hedef veri kaynağına yazmak mümkündür. Bu özellik, veri kopyalamada bant genişliği kullanımını iyileştirmeye yardımcı olur.
Farklı Veri Kaynakları için Kapsamlı Bağlantı Desteği: Azure Data Factory, farklı veri kaynaklarına bağlanmak için geniş bağlantı desteği sağlar. Bu, farklı veri kaynaklarından veri çekmek veya yazmak istediğinizde kullanışlıdır.
Özel Olay Tetikleyicileri: Azure Data Factory, özel olay tetikleyicilerini kullanarak veri işlemeyi otomatikleştirmenizi sağlar. Bu özellik, belirli bir olay gerçekleştiğinde belirli bir eylemi otomatik olarak yürütmenizi sağlar.
Veri Önizleme ve Doğrulama: Veri Kopyalama etkinliği sırasında, verilerin önizlemesi ve doğrulanması için araçlar sağlanır. Bu özellik, verilerin doğru kopyalandığından ve hedef veri kaynağına doğru yazılmasını sağlamanıza yardımcı olur.
Özelleştirilebilir Veri Akışı: Azure Data Factory, özelleştirilebilir veri akışları oluşturmanıza olanak tanır. Bu özellik, veri işleme için özel eylemler veya adımlar eklemenize olanak tanır.
Tümleşik Güvenlik: Azure Data Factory, veri akışlarına erişimi denetlemek için Entra ID tümleştirmesi ve rol tabanlı erişim denetimi gibi tümleşik güvenlik özellikleri sunar. Bu özellik, veri işlemede güvenliği artırır ve verilerinizi korur.
Kullanım senaryoları
Örneğin bulutta çalışan oyunların oluşturduğu petabaytlarca oyun günlüğünü toplayan bir oyun şirketini düşünün. Şirket müşteri tercihleri, demografik bilgiler ve kullanıcı davranışları hakkında içgörü elde etme amacıyla bu günlükleri analiz etmek istiyor. Ayrıca yukarı satış ve çapraz satış fırsatlarını belirlemek, yeni cazip özellikler geliştirmek, işleri büyütmek ve müşterilerine daha iyi bir deneyim sunmayı amaçlamaktadır.
Bu günlükleri analiz etmek için, şirketin şirket içi veri deposunda bulunan müşteri bilgileri, oyun bilgileri ve pazarlama kampanyası bilgileri gibi başvuru verilerini kullanması gerekir. Şirket bu verileri şirket içi veri deposundan bir bulut veri deposunda sahip olduğu ek günlük verileriyle bir arada kullanmak istemektedir.
İçgörüleri ayıklamak için bulutta bir Spark kümesi (Azure HDInsight) kullanarak birleştirilmiş verileri işlemeyi ve dönüştürülen verileri Azure Synapse Analytics gibi bir bulut veri ambarında yayımlayarak bunun üzerinde kolayca bir rapor oluşturmayı umuyor. Bu iş akışını otomatikleştirmek ve bunu günlük olarak izleyip yönetmek istiyor. Ayrıca bu iş akışını blob deposu kapsayıcısına dosyalar ulaştığında yürütmek istiyor.
Azure Data Factory, bu tür veri senaryolarını çözen platformdur. Büyük ölçekte veri taşıma ve dönüştürme işlemleri için veri odaklı iş akışları oluşturmanıza olanak tanıyan bulut tabanlı ETL ve veri tümleştirme hizmetidir. Azure Data Factory platformunu kullanarak farklı veri depolarından veri alabilen veri odaklı iş akışları (işlem hattı olarak adlandırılır) oluşturabilir ve zamanlayabilirsiniz. Veri akışlarıyla veya Azure HDInsight Hadoop, Azure Databricks ve Azure SQL Veritabanı gibi işlem hizmetlerini kullanarak verileri görsel olarak dönüştüren karmaşık ETL işlemleri oluşturabilirsiniz.
Ayrıca, dönüştürülen verilerinizi iş zekası (BI) uygulamaları için Azure Synapse Analytics gibi veri depolarında da yayımlayabilirsiniz. Sonuç olarak, Azure Data Factory sayesinde ham veriler daha iyi iş kararları için anlamlı veri depoları ve veri gölleri halinde düzenlenebilir.
Nasıl çalışır?
Data Factory, veri mühendisleri için uçtan uca tam kapsamlı bir platform sunan bağlantılı sistemlerden oluşur.
Bu görsel kılavuz, Data Factory mimarisinin tamamına ayrıntılı bir genel bakış sağlar:
Daha fazla ayrıntı görmek için, yakınlaştırmak için önceki resmi seçin veya yüksek çözünürlüklü resme göz atın.
Bağlanma ve toplama
Kuruluşlar şirket içinde, bulutta bulunan yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış ve tümü farklı aralık ve hızlarda gelen farklı kaynaklarda bulunan çeşitli veri türlerine sahiptir.
Bilgi üretim sistemi oluşturmanın ilk adımı hizmet olarak yazılım (SaaS) hizmetleri, veritabanları, dosya paylaşımları, FTP, web hizmetleri gibi tüm gerekli veri kaynaklarına ve işleme çalışmalarına bağlanmaktır. Sonraki adım ise takip eden işleme çalışmaları için gerektiğinde verileri merkezi bir konuma taşımaktır.
Data Factory olmadığında, kuruluşların bu veri kaynaklarını ve işleme çalışmalarını tümleştirmek için özel veri taşıma bileşenleri oluşturması veya özel hizmetler yazması gerekir. Bu tür sistemleri tümleştirmenin ve bakımını yapmanın maliyeti yüksektir. Buna ek olarak bu sistemlerde tamamen yönetilebilir bir hizmetin sunduğu kurumsal sınıf izleme, uyarı oluşturma ve denetim özellikleri mevcut değildir.
Data Factory ile, veri işlem hattında Kopyalama Etkinliği’ni kullanarak hem şirket içinde hem de buluttaki kaynak veri depolarını daha fazla analiz için merkezi bir veri deposuna taşıyabilirsiniz. Örneğin, Azure Data Lake Storage'da veri toplayabilir ve daha sonra bir Azure Data Lake Analytics işlem hizmetini kullanarak verileri dönüştürebilirsiniz. Verileri Azure Blob depolama alanından toplayıp daha sonra Azure HDInsight Hadoop kümesi kullanarak da dönüştürebilirsiniz.
Dönüştürme ve zenginleştirme
Veriler buluttaki merkezi bir veri deposunda mevcut olduktan sonra, ADF eşleme veri akışlarını kullanarak toplanan verileri işleyin veya dönüştürün. Veri akışları, veri mühendislerinin Spark kümelerini veya Spark programlamasını anlamaya gerek kalmadan Spark üzerinde yürütülen veri dönüştürme grafları oluşturmasına ve bakımını yapmasına olanak tanır.
Dönüştürmeleri el ile kodlama tercih ediyorsanız, ADF HDInsight Hadoop, Spark, Data Lake Analytics ve Machine Learning gibi işlem hizmetlerinde dönüşümlerinizi yürütmek için dış etkinlikleri destekler.
CI/CD ve yayımlama
Data Factory, Azure DevOps ve GitHub kullanarak veri işlem hatlarınızın CI/CD'si için tam destek sunar. Bu, tamamlanmış ürünü yayımlamadan önce ETL süreçlerinizi artımlı olarak geliştirmenize ve sunmanıza olanak tanır. Ham veriler iş için hazır tüketilebilir bir biçime dönüştürüldikten sonra verileri Azure Veri Ambarı, Azure SQL Veritabanı, Azure Cosmos DB veya iş kullanıcılarınızın iş zekası araçlarından işaret ettiği analiz altyapısına yükleyin.
İzleyici
Veri tümleştirme işlem hattınızı başarıyla oluşturup dağıtarak iyileştirilmiş verilerden iş değeri elde ettikten sonra, başarı ve hata oranları için zamanlanmış etkinlikleri ve işlem hatlarını izleyin. Azure Data Factory, Azure portalında Azure İzleyici, API, PowerShell, Azure İzleyici günlükleri ve sistem durumu panelleri aracılığıyla işlem hattı izleme için yerleşik desteğe sahiptir.
Üst düzey kavramlar
Azure aboneliğinin bir veya birden çok Azure Data Factory örneği (veya veri fabrikası) olabilir. Azure Data Factory aşağıdaki temel bileşenlerden oluşur:
- Pipelines
- Aktiviteler
- Veri Kümeleri
- Bağlı hizmetler
- Veri Akışları
- Tümleştirme Çalışma Zamanları
Bu bileşenler, üzerinde veri taşıma ve dönüştürme adımları ile veri odaklı iş akışları oluşturabileceğiniz platformu sağlamak üzere birlikte çalışır.
İşlem Hattı
Bir veri fabrikasında bir veya daha fazla işlem hattı olabilir. İşlem hattı, bir iş birimini gerçekleştiren etkinliklerden oluşan mantıksal gruptur. İşlem hattındaki etkinlikler birlikte bir görevi gerçekleştirir. Örneğin, bir işlem hattı Azure blobundan verileri alan ve ardından HDInsight kümesinde Hive sorgusu çalıştırarak verileri bölümlere ayıran bir grup etkinlik içerebilir.
İşlem hattının avantajı, etkinliklerin her birini tek tek yönetmek yerine bir küme olarak yönetmenize olanak tanımasıdır. Bir işlem hattındaki etkinlikler, sırayla çalışmak üzere birbirine zincirlenebilir veya paralel olarak birbirinden bağımsız çalışabilir.
Veri akışlarını eşleme
Herhangi bir boyuttaki verileri dönüştürmek için kullanabileceğiniz veri dönüştürme mantığı grafiklerini oluşturun ve yönetin. Veri dönüştürme yordamlarından oluşan yeniden kullanılabilir bir kitaplık oluşturabilir ve bu işlemleri ADF işlem hatlarınızdan ölçeği genişletilmiş bir şekilde yürütebilirsiniz. Data Factory, mantığınızı ihtiyaç duyduğunuzda açılan ve açılan bir Spark kümesinde yürütür. Kümeleri yönetmeniz veya bakımını yapmak zorunda kalmazsınız.
Etkinlik
Etkinlikler bir işlem hattındaki işleme adımını temsil eder. Örneğin, bir veri deposundan başka bir veri deposuna veri kopyalamak için kopyalama etkinliğini kullanabilirsiniz. Benzer şekilde, verilerinizi dönüştürmek veya analiz etmek amacıyla Azure HDInsight kümesinde bir Hive sorgusu çalıştıran bir Hive etkinliği kullanabilirsiniz. Data Factory üç tür etkinliği destekler: veri taşıma etkinlikleri, veri dönüştürme etkinlikleri ve denetim etkinlikleri.
Veri Kümeleri
Veri kümeleri, veri depoları içinde etkinliklerinizde giriş veya çıkış olarak kullanmak istediğiniz verilere işaret eden veya başvuruda bulunan veri yapılarını temsil eder.
Bağlı hizmetler
Bağlı hizmetler, dış kaynaklara bağlanmak için Data Factory'ye gereken bağlantı bilgilerini tanımlayan bağlantı dizelerine çok benzer. Şöyle düşünün: bağlı bir hizmet, veri kaynağıyla bağlantıyı tanımlar ve veri kümesi verilerin yapısını temsil eder. Örneğin, Azure Depolama bağlı hizmeti Azure Depolama hesabına bağlanacak bağlantı dizesini belirtir. Ayrıca, bir Azure blob veri kümesi blob kapsayıcıyı ve verileri içeren klasörü belirtir.
Bağlı hizmetler Data Factory’de iki amaçla kullanılır:
SQL Server veritabanı, Oracle veritabanı, dosya paylaşımı veya Azure blob depolama hesabı içeren ancak bunlarla sınırlı olmayan bir veri depolarını temsil etmek için. Desteklenen veri depolarının listesi için kopyalama etkinliği makalesine bakın.
Etkinlik yürütülmesini barındırabilen işlem kaynağını temsil etmek için. Örneğin, HDInsightHive etkinliği bir HDInsight Hadoop kümesinde yürütülür. Dönüştürme etkinlikleri ve desteklenen işlem ortamlarının listesi için veri dönüştürme makalesine bakın.
Tümleştirme Çalışma Zamanı
Data Factory'de etkinlik, gerçekleştirilecek eylemi tanımlar. Bağlı hizmet, bir hedef veri deposunu veya işlem hizmetini tanımlar. Tümleştirme çalışma zamanı, etkinlik ile bağlı Hizmetler arasında köprü görevi görür. Bağlı hizmet veya etkinlik tarafından başvurulur ve etkinliğin üzerinde çalıştığı veya gönderildiği işlem ortamını sağlar. Bu şekilde etkinlik hedef veri deposuna veya işlem hizmetine en yakın bölgeden en yüksek performansla gerçekleştirilirken güvenlik ve uyum gereksinimleri korunmuş olur.
Tetikleyiciler
Tetikleyiciler, bir işlem hattı çalıştırmasının başlatılması gereken zamanı belirleyen işlem birimini temsil eder. Farklı etkinlik türleri için farklı tetikleyici türleri vardır.
İşlem hattı çalıştırmaları
İşlem hattı çalıştırması, işlem hattı yürütme örneğidir. İşlem hattı çalıştırmaları örneği genelde bağımsız değişkenlerin işlem hatlarında tanımlanan parametrelere iletilmesiyle oluşturulur. Bağımsız değişkenler el ile veya tetikleyici tanımı içinde geçirilebilir.
Parametreler
Parametreler salt okunur yapılandırmanın anahtar-değer çiftleridir. Parametreler işlem hattında tanımlanır. Tanımlı parametrelerin bağımsız değişkenleri, bir tetikleyici tarafından oluşturulan çalıştırma bağlamı veya el ile yürütülen işlem hattından yürütme sırasında geçirilir. İşlem hattındaki etkinlikler parametre değerlerini kullanır.
Veri kümesi, türü kesin olarak belirtilmiş bir parametre ve yeniden kullanılabilir/başvurulabilir bir varlıktır. Bir etkinlik, veri kümelerine başvurabilir ve veri kümesi tanımında belirtilen özellikleri kullanabilir.
Bağlı hizmet de türü kesin olarak belirtilmiş ve veri deposu ya da işlem ortamı ile bağlantı bilgilerini içeren bir parametredir. Bu da yeniden kullanılabilir/başvurulabilir bir varlıktır.
Denetim akışı
Denetim akışı, işlem hattı düzeyinde ve işlem hattı talep üzerine ya da bir tetikleyiciden çağrılırken geçirilen bağımsız değişkenlerde tanımlanabilen dizi, dallanma ve parametrelerdeki zincirleme etkinliklerini içeren işlem hattı etkinliklerinin düzenlenmesidir. Ayrıca özel durum geçirme ve döngü kapsayıcılarını, diğer bir deyişle For-each yineleyicilerini içerir.
Değişkenler
Değişkenler geçici değerleri depolamak için işlem hatlarının içinde kullanılabilir ve işlem hatları, veri akışları ve diğer etkinlikler arasında değer geçirmeyi etkinleştirmek için parametrelerle birlikte de kullanılabilir.
İlgili içerik
İşte keşfedilecek önemli sonraki adım belgeleri: