Azure Synapse işlem hatları ile veri tümleştirmeyi düzenleme

Tamamlandı

Azure Synapse Pipelines, büyük ölçekte veri taşıma ve dönüştürme işlemleri için veri odaklı iş akışları oluşturmanıza olanak tanıyan bulut tabanlı ETL ve veri tümleştirme hizmetidir. Azure Synapse Pipelines'ı kullanarak, farklı veri depolarından veri alabilen veri temelli iş akışları (işlem hatları olarak adlandırılır) oluşturabilir ve zamanlayabilirsiniz. Veri akışlarıyla veya Azure HDInsight, Azure Databricks ve Azure Synapse Analytics gibi işlem hizmetlerini kullanarak verileri görsel olarak dönüştüren karmaşık ETL veya ELT işlemleri oluşturabilirsiniz.

Azure Synapse Pipelines işlevlerinin çoğu Azure Data Factory özelliklerinden gelir ve genellikle İşlem Hatları olarak adlandırılır. Azure Synapse Pipelines, SQL Havuzları, Spark Havuzları ve SQL Sunucusuz arasında veri işlem hatlarını tümleştirmenize olanak sağlayarak tüm analiz gereksinimleriniz için tek bir durak noktası sağlar.

Azure Data Factory gibi Azure Synapse Pipelines da dört temel bileşenden oluşur. Bu bileşenler, üzerinde veri taşıma ve dönüştürme adımları ile veri odaklı iş akışları oluşturabileceğiniz platformu sağlamak üzere birlikte çalışır.

Data Factory, Bağlı Hizmet olarak bilinen bir nesne oluşturarak bağlanabileceğiniz çok çeşitli veri kaynaklarını destekler ve bu sayede verileri dönüştürme ve/veya analiz için hazırlamaya hazır durumdaki bir veri kaynağından veri alabilirsiniz. Ayrıca Bağlı Hizmetler, işlem hizmetlerini isteğe bağlı olarak çalıştırabilir. Örneğin, yalnızca bir Hive sorgusu aracılığıyla veri işleme amacıyla isteğe bağlı HDInsight kümesi başlatma gereksiniminiz olabilir. Bu nedenle Bağlı Hizmetler, veri almak ve hazırlamak için gereken veri kaynaklarını veya işlem kaynağını tanımlamanızı sağlar.

Bağlı hizmet tanımlandığında, Azure Data Factory bir Datasets nesnesi oluşturarak kullanması gereken veri kümelerini algılar . Veri kümeleri, Bağlı Hizmet nesnesi tarafından başvurulmakta olan veri deposu içindeki veri yapılarını temsil eder. Veri kümeleri, Etkinlik olarak bilinen bir ADF nesnesi tarafından da kullanılabilir.

Etkinlikler genellikle Azure Data Factory'nin çalışmasının dönüştürme mantığını veya analiz komutlarını içerir. Etkinlikler, çeşitli veri kaynaklarından veri almak için kullanılabilecek Kopyalama Etkinliğini içerir. Kodsuz veri dönüştürmeleri gerçekleştirmek için Eşleme Veri Akışı de içerebilir. Verileri dönüştürmek için saklı yordamın, Hive Sorgusunun veya Pig betiğinin yürütülmesini de içerebilir. Analiz gerçekleştirmek için bir Machine Learning modeline veri gönderebilirsiniz. SQL saklı yordamı kullanarak verileri dönüştürmeyi ve ardından Databricks ile analiz gerçekleştirmeyi içerebilecek birden çok etkinliğin gerçekleştirilmesi yaygın bir durum değildir. Bu durumda, birden çok etkinlik mantıksal olarak İşlem Hattı olarak adlandırılan bir nesneyle birlikte gruplandırılabilir ve bunlar yürütülmek üzere zamanlanabilir veya işlem hattı yürütmenin ne zaman başlatılacağına karar veren bir tetikleyici tanımlanabilir. Farklı etkinlik türleri için farklı tetikleyici türleri vardır.

Azure Synapse Pipeline components

Denetim akışı , işlem hattını isteğe bağlı olarak veya tetikleyiciden çağırırken sıralı zincirleme etkinlikleri, dallanma, işlem hattı düzeyinde parametre tanımlama ve bağımsız değişkenleri geçirme gibi işlem hattı etkinliklerinin düzenlemesidir. Ayrıca özel durum geçirme ve döngü kapsayıcıları ile Her yineleyici için içerir.

Parametreler , salt okunur yapılandırmanın anahtar-değer çiftleridir.  Parametreler işlem hattında tanımlanır. Tanımlı parametrelerin bağımsız değişkenleri, bir tetikleyici tarafından oluşturulan çalıştırma bağlamı veya el ile yürütülen işlem hattından yürütme sırasında geçirilir. İşlem hattındaki etkinlikler parametre değerlerini kullanır.

Azure Synapse Pipelines' ın etkinlik ve bağlı Hizmetler nesneleri arasında köprü oluşturmasını sağlayan bir tümleştirme çalışma zamanı vardır. Bağlı hizmet tarafından başvurulur ve etkinliğin üzerinde çalıştığı veya gönderildiği işlem ortamını sağlar. Bu şekilde etkinlik mümkün olan en yakın bölgede gerçekleştirilebilir. Azure data Factory ve Synapse işlem hatları tarafından Azure ve Şirket içinde barındırılan dahil olmak üzere veri tümleştirme özellikleri sağlamak için kullanılan işlem altyapısı olan üç tür Integration Runtime (IR) vardır. Azure Data Factory aynı tümleştirme çalışma zamanlarını destekler ve buna ek olarak Azure-SSIS tümleştirme çalışma zamanını da destekler.

Tüm çalışmalar tamamlandıktan sonra Data Factory'yi kullanarak son veri kümesini Power BI veya Machine Learning gibi teknolojiler tarafından kullanılabilecek başka bir bağlı hizmete yayımlayabilirsiniz.