Share via


Oracle geçişinin ötesinde Microsoft Azure'da modern bir veri ambarı uygulayın

Bu makale, Oracle'dan Azure Synapse Analytics'e geçiş konusunda rehberlik sağlayan yedi bölümden oluşan serinin yedinci bölümüdür. Bu makalenin odak noktası, modern veri ambarlarını uygulamaya yönelik en iyi yöntemlerdir.

Azure'a veri ambarı geçişinin ötesinde

Mevcut veri ambarınızı Azure Synapse Analytics'e geçirmenin temel nedenlerinden biri küresel olarak güvenli, ölçeklenebilir, düşük maliyetli, bulutta yerel, kullandıkça öde analiz veritabanını kullanmaktır. Azure Synapse ile, diğer Microsoft teknolojilerinden yararlanmak ve geçirilen veri ambarınızı modernleştirmek için geçirilen veri ambarınızı eksiksiz Microsoft Azure analiz ekosistemiyle tümleştirebilirsiniz. Bu teknolojiler şunlardır:

  • Uygun maliyetli veri alımı, hazırlama, temizleme ve dönüştürme için Azure Data Lake Storage. Data Lake Storage, hızla büyüyen hazırlama tablolarının kapladığı veri ambarı kapasitesini boşaltabilir.

  • Buluta ve şirket içi veri kaynaklarına bağlayıcılar ve akış verileri ile işbirliğine dayalı BT ve self servis veri tümleştirmesi için Azure Data Factory.

  • Aşağıdakiler dahil olmak üzere birden çok teknolojide tutarlı güvenilir verileri paylaşmak için Ortak Veri Modeli:

    • Azure Synapse
    • Spark'ı Azure Synapse
    • Azure HDInsight
    • Power BI
    • Adobe Müşteri Deneyimi Platformu
    • Azure IoT
    • Microsoft ISV iş ortakları
  • Aşağıdakiler dahil olmak üzere Microsoft veri bilimi teknolojileri:

    • Azure Machine Learning Studio
    • Azure Machine Learning
    • Azure Synapse Spark (Hizmet olarak Spark)
    • Jupyter Notebooks
    • RStudio
    • ML.NET
    • Apache Spark için .NET, veri bilimciler tarafından makine öğrenmesi modellerini büyük ölçekte eğitmek için Azure Synapse verileri kullanmasına olanak tanır.
  • Azure HDInsight, büyük miktarlardaki verileri işlemek ve PolyBase kullanarak mantıksal veri ambarı oluşturarak büyük verileri Azure Synapse verilerle birleştirmek için.

  • Azure Synapse canlı akış verilerini tümleştirmek için Azure Event Hubs, Azure Stream Analytics ve Apache Kafka.

Büyük verilerin büyümesi, özel olarak oluşturulmuş, eğitilmiş makine öğrenmesi modellerinin Azure Synapse'de kullanılmasını sağlamak için makine öğrenmesi talebine yol açmıştır. Makine öğrenmesi modelleri, veritabanı içi analizin olay odaklı ve isteğe bağlı olarak toplu olarak büyük ölçekte çalışmasını sağlar. Birden çok IŞ zekası aracı ve uygulamasından Azure Synapse veritabanı içi analizden yararlanma olanağı da tutarlı tahminler ve öneriler sağlar.

Ayrıca, değer süresini kısaltmak için Azure Synapse Azure'daki Microsoft iş ortağı araçlarıyla tümleştirebilirsiniz.

Şimdi Azure Synapse geçiş yaptıktan sonra veri ambarınızı modernleştirmek için Microsoft analiz ekosistemindeki teknolojilerden nasıl yararlanabileceğinizi daha yakından inceleyelim.

Veri hazırlama ve ETL işlemeyi Data Lake Storage ve Data Factory'ye boşaltma

Dijital dönüşüm, yakalama ve analiz için yeni verilerden oluşan bir torrent oluşturarak kuruluşlar için önemli bir zorluk yarattı. Çevrimiçi işlem işleme (OLTP) sistemlerini mobil cihazlardan hizmet erişimine açarak oluşturulan işlem verileri iyi bir örnektir. Bu verilerin büyük bir kısmını veri ambarlarına doğru bulur ve ana kaynak OLTP sistemleridir. Müşteriler artık çalışanlar yerine işlem hızını kullandığından, veri ambarı hazırlama tablolarındaki veri hacmi hızla artmaktadır.

Verilerin kuruluşa hızla akması ve Nesnelerin İnterneti (IoT) gibi yeni veri kaynaklarıyla birlikte, şirketlerin veri tümleştirmeSI ETL işlemenin ölçeğini artırmanın yollarını bulması gerekir. Yöntemlerden biri veri ambarı modernleştirme programının bir parçası olarak veri alımını, veri temizlemeyi, dönüştürmeyi ve tümleştirmeyi bir veri gölüne boşaltmak ve verileri büyük ölçekte işlemektir.

Veri ambarınızı Azure Synapse'a geçirdikten sonra Microsoft, Data Lake Storage'da verileri alıp hazırlayarak ETL işlemenizi modernleştirebilir. Ardından Verilerinizi PolyBase kullanarak paralel olarak Azure Synapse yüklemeden önce Data Factory'yi kullanarak uygun ölçekte temizleyebilir, dönüştürebilir ve tümleştirebilirsiniz.

ELT stratejileri için, veri hacminiz veya sıklığınız arttıkça kolayca ölçeklendirilebilmek için ELT işleme yükünü Data Lake Storage olarak boşaltmayı göz önünde bulundurun.

Microsoft Azure Data Factory

Azure Data Factory, yüksek oranda ölçeklenebilir ETL ve ELT işleme için kullanılan kullandıkça öde, karma veri tümleştirme hizmetidir. Data Factory, kod olmadan veri tümleştirme işlem hatları oluşturmak için web tabanlı bir kullanıcı arabirimi sağlar. Data Factory ile şunları yapabilirsiniz:

  • Kod içermeyen ölçeklenebilir veri tümleştirme işlem hatları oluşturun.

  • Büyük ölçekte kolayca veri alın.

  • Yalnızca kullandığınız kadar ödersiniz.

  • Şirket içi, bulut ve SaaS tabanlı veri kaynaklarına bağlanın.

  • Bulut ve şirket içi verileri büyük ölçekte alma, taşıma, temizleme, dönüştürme, tümleştirme ve analiz etme.

  • Hem şirket içi hem de buluttaki veri depolarını kapsayan işlem hatlarını sorunsuz bir şekilde yazın, izleyin ve yönetin.

  • Müşteri büyümesine uygun olarak kullandıkça öde ölçeğini genişletmeyi etkinleştirin.

Bu özellikleri kod yazmadan kullanabilir veya Data Factory işlem hatlarına özel kod ekleyebilirsiniz. Aşağıdaki ekran görüntüsünde örnek bir Data Factory işlem hattı gösterilmektedir.

Data Factory işlem hattı örneğinin ekran görüntüsü.

İpucu

Data Factory, kod olmadan ölçeklenebilir veri tümleştirme işlem hatları oluşturmanıza olanak tanır.

Data Factory işlem hattı geliştirmeyi aşağıdakiler de dahil olmak üzere çeşitli yerlerden uygulayın:

  • Microsoft Azure portal.

  • Microsoft Azure PowerShell.

  • Çok dilli bir SDK kullanarak .NET ve Python'dan program aracılığıyla.

  • Azure Resource Manager (ARM) şablonları.

  • REST API'leri.

İpucu

Data Factory şirket içi, bulut ve SaaS verilerine bağlanabilir.

Kod yazmayı tercih eden geliştiriciler ve veri bilimcileri, bu programlama dillerinde kullanılabilen yazılım geliştirme setlerini (SDK) kullanarak Java, Python ve .NET'te Data Factory işlem hatlarını kolayca yazabilir. Data Factory işlem hatları karma veri işlem hatları olabilir çünkü şirket içi veri merkezlerinde, Microsoft Azure'da, diğer bulutlarda ve SaaS tekliflerinde verileri bağlayabilir, alabilir, temizleyebilir, dönüştürebilir ve analiz edebilir.

Verileri tümleştirmek ve analiz etmek için Data Factory işlem hatları geliştirdikten sonra, bu işlem hatlarını genel olarak dağıtabilir ve toplu olarak çalışacak şekilde zamanlayabilir, isteğe bağlı olarak hizmet olarak çağırabilir veya olay odaklı olarak gerçek zamanlı olarak çalıştırabilirsiniz. Data Factory işlem hattı ayrıca bir veya daha fazla yürütme altyapısında çalışabilir ve performansı sağlamak ve hataları izlemek için yürütmeyi izleyebilir.

İpucu

Azure Data Factory işlem hatları, verilerin tümleştirmesini ve analizini denetler. Data Factory, BT uzmanlarına yönelik kurumsal sınıf veri tümleştirme yazılımıdır ve işletme kullanıcıları için veri hazırlama özelliğine sahiptir.

Uygulama alanları

Data Factory aşağıdakiler gibi birden çok kullanım örneğini destekler:

  • Microsoft Azure Synapse'da geçirilen veri ambarınızı ve veri reyonlarınızı doldurmak için bulut ve şirket içi veri kaynaklarından verileri hazırlayın, tümleştirin ve zenginleştirin.

  • Makine öğrenmesi modeli geliştirme ve analiz modellerini yeniden eğitme amacıyla eğitim verileri oluşturmak için bulut ve şirket içi veri kaynaklarından verileri hazırlayın, tümleştirin ve zenginleştirin.

  • Verileri toplu olarak işlemek ve analiz etmek için yaklaşım analizi gibi tahmine dayalı ve açıklayıcı analiz işlem hatları oluşturmak için veri hazırlama ve analiz düzenleme. Analizin sonuçlarına göre hareket edin veya veri ambarınızı sonuçlarla doldurun.

  • Azure Cosmos DB gibi operasyonel veri depolarının üzerinde Azure bulutu üzerinde çalışan veri odaklı iş uygulamaları için verileri hazırlayın, tümleştirin ve zenginleştirin.

İpucu

Makine öğrenmesi modelleri geliştirmek için veri biliminde eğitim veri kümeleri oluşturun.

Veri kaynakları

Data Factory, hem bulut hem de şirket içi veri kaynaklarından bağlayıcılar kullanmanıza olanak tanır. Şirket içinde barındırılan tümleştirme çalışma zamanı olarak bilinen aracı yazılımı, şirket içi veri kaynaklarına güvenli bir şekilde erişir ve güvenli, ölçeklenebilir veri aktarımını destekler.

Azure Data Factory kullanarak verileri dönüştürme

Data Factory işlem hattında, bu kaynaklardan her tür veriyi alabilir, temizleyebilir, dönüştürebilir, tümleştirebilir ve analiz edebilirsiniz. Veriler yapılandırılabilir, JSON veya Avro gibi yarı yapılandırılmış veya yapılandırılmamış olabilir.

Profesyonel ETL geliştiricileri herhangi bir kod yazmadan Data Factory eşleme veri akışlarını kullanarak verileri filtreleyebilir, bölebilir, çeşitli türleri birleştirebilir, arama yapabilir, özetleyebilir, özetleyebilir, özetleyebilir, toplayabilir ve toplayabilir. Ayrıca Data Factory vekil anahtarları, insert, upsert, update, table recreation ve table truncation gibi birden çok yazma işleme seçeneğini ve havuz olarak da bilinen çeşitli hedef veri depoları türlerini destekler. ETL geliştiricileri, veri sütunlarına pencere yerleştirilmesini gerektiren zaman serisi toplamaları da dahil olmak üzere toplamalar da oluşturabilir.

İpucu

Profesyonel ETL geliştiricileri, kod yazmaya gerek kalmadan verileri temizlemek, dönüştürmek ve tümleştirmek için Data Factory eşleme veri akışlarını kullanabilir.

Data Factory işlem hattında verileri etkinlik olarak dönüştüren eşleme veri akışlarını çalıştırabilir ve gerekirse tek bir işlem hattına birden çok eşleme veri akışı ekleyebilirsiniz. Bu şekilde, zorlu veri dönüştürme ve tümleştirme görevlerini birleştirilebilen daha küçük eşleme veri akışlarına ayırarak karmaşıklığı yönetebilirsiniz. Ayrıca, gerektiğinde özel kod ekleyebilirsiniz. Bu işlevselliğe ek olarak, Data Factory eşleme veri akışları şunları da içerir:

  • Verileri temizlemek ve dönüştürmek, toplamaları hesaplamak ve verileri zenginleştirmek için ifadeler tanımlayın. Örneğin, bu ifadeler bir tarih alanında özellik mühendisliği gerçekleştirerek makine öğrenmesi modeli geliştirme sırasında eğitim verileri oluşturmak üzere birden çok alana bölebilir. Matematiksel, zamana bağlı, bölme, birleştirme, dize birleştirme, koşullar, desen eşleştirme, değiştirme ve diğer birçok işlevi içeren zengin bir işlev kümesinden ifadeler oluşturabilirsiniz.

  • Veri dönüştürme işlem hatlarının veri kaynaklarındaki şema değişikliklerinden etkilenmemesi için şema kaymasını otomatik olarak işleyebilirsiniz. Bu özellik, cihazların yükseltilmesi veya IoT verilerini toplayan ağ geçidi cihazları tarafından okumaların kaçırılması durumunda şema değişikliklerinin önceden bildirimde bulunmadan gerçekleşebileceği IoT verilerinin akışı için özellikle önemlidir.

  • Dönüştürmelerin büyük ölçekte paralel olarak çalışmasını sağlamak için verileri bölümleme.

  • Dönüştürdüğünüz akışın meta verilerini görüntülemek için akış verilerini inceleyin.

İpucu

Data Factory, akış verileri gibi gelen verilerdeki şema değişikliklerini otomatik olarak algılama ve yönetme özelliğini destekler.

Aşağıdaki ekran görüntüsünde örnek bir Data Factory eşleme veri akışı gösterilmektedir.

Data Factory eşleme veri akışı örneğinin ekran görüntüsü.

Veri mühendisleri, geliştirme sırasında hata ayıklama özelliğini etkinleştirerek veri kalitesinin profilini oluşturabilir ve tek tek veri dönüşümlerinin sonuçlarını görüntüleyebilir.

İpucu

Data Factory ayrıca ETL işlemenin büyük ölçekte çalışmasını sağlamak için verileri bölümleyebilir.

Gerekirse, kodunuzu içeren bir bağlı hizmeti bir işlem hattına ekleyerek Data Factory dönüşümsel ve analitik işlevselliğini genişletebilirsiniz. Örneğin, bir Azure Synapse Spark havuzu not defteri, eşleme veri akışıyla tümleştirilmiş verileri puanlama amacıyla eğitilmiş bir model kullanan Python kodu içerebilir.

Tümleşik verileri ve bir Data Factory işlem hattındaki analiz sonuçlarını HDInsight'taki Data Lake Storage, Azure Synapse veya Hive tabloları gibi bir veya daha fazla veri deposunda depolayabilirsiniz. Data Factory analiz işlem hattı tarafından üretilen içgörüler üzerinde işlem yapmak için diğer etkinlikleri de çağırabilirsiniz.

İpucu

Data Factory kendi kodunuzu yazmanıza ve bir işlem hattının parçası olarak çalıştırmanıza olanak sağladığından Data Factory işlem hatları genişletilebilir.

Veri tümleştirmesini ölçeklendirmek için Spark'ı kullanma

Çalışma zamanında Data Factory, Azure bulutundaki verileri temizlemek ve tümleştirmek için Microsoft'un hizmet olarak Spark teklifi olan Azure Synapse Spark havuzlarını dahili olarak kullanır. Tıklama akışı verileri gibi yüksek hacimli, yüksek hızlı verileri büyük ölçekte temizleyebilir, tümleştirebilir ve analiz edebilirsiniz. Microsoft'un amacı, Data Factory işlem hatlarını diğer Spark dağıtımlarında da çalıştırmaktır. Data Factory, Spark'ta ETL işlerini çalıştırmaya ek olarak, HDInsight'ta depolanan verilere erişmek ve verileri dönüştürmek için Pig betiklerini ve Hive sorgularını çağırabilir.

Veri düzenleme, vatandaş veri tümleştiricileri ve veri mühendisleri olarak da bilinen iş kullanıcılarının kod yazmadan büyük ölçekte verileri görsel olarak keşfetmek, keşfetmek ve hazırlamak için platformu kullanmasına olanak tanır. Bu Data Factory özelliğinin kullanımı kolaydır ve Microsoft Excel Power Query veya Microsoft Power BI veri akışlarına benzer; burada self servis işletme kullanıcıları verileri hazırlamak ve tümleştirmek için açılan dönüşümlere sahip elektronik tablo stili bir kullanıcı arabirimi kullanır. Aşağıdaki ekran görüntüsünde veri akışı düzenlemeye yönelik örnek bir Data Factory gösterilmektedir.

Veri akışlarını düzenlemeye yönelik Data Factory örneğinin ekran görüntüsü.

Excel ve Power BI'ın aksine, Data Factory düzenleme veri akışları M kodu oluşturmak için Power Query kullanır ve bunu bulut ölçeğinde yürütme için yüksek düzeyde paralel bir bellek içi Spark işine çevirir. Data Factory'de veri akışlarını eşleme ve veri akışlarını düzenleme birleşimi, profesyonel ETL geliştiricilerinin ve iş kullanıcılarının ortak bir iş amacıyla verileri hazırlamak, tümleştirmek ve analiz etmek için işbirliği yapmasına olanak tanır. Önceki Data Factory eşleme veri akışları diyagramı hem Data Factory hem de Azure Synapse Spark havuzu not defterlerinin aynı Data Factory işlem hattında nasıl birleştirilebileceğini gösterir. Data Factory'de veri akışlarını eşleme ve düzenlemenin birleşimi, BT ve iş kullanıcılarının her birinin oluşturduğu veri akışlarının farkında kalmasına yardımcı olur ve yeniden keşfi en aza indirmek ve üretkenliği ve tutarlılığı en üst düzeye çıkarmak için veri akışının yeniden kullanılmasını destekler.

İpucu

Data Factory hem veri akışlarını düzenlemeyi hem de veri akışlarını eşlemeyi desteklediği için, iş kullanıcıları ve BT kullanıcıları ortak bir platformda verileri işbirliğine dayalı olarak tümleştirebilir.

Data Factory, verileri temizlemeye ve dönüştürmeye ek olarak, veri tümleştirmesini ve analizi aynı işlem hattında birleştirebilir. Data Factory'yi kullanarak hem veri tümleştirmesi hem de analiz işlem hatları oluşturabilirsiniz. Bu işlem, öncekinin uzantısıdır. Tahminler veya öneriler için temiz, tümleşik veriler oluşturan bir analiz işlem hattı oluşturmak için analiz modelini bir işlem hattına bırakabilirsiniz. Ardından, tahminler veya öneriler üzerinde hemen işlem yapabilir veya bunları veri ambarınızda depolayarak BI araçlarında görüntülenebilen yeni içgörüler ve öneriler sağlayabilirsiniz.

Verilerinizi toplu puan almak için Data Factory işlem hattı içinde hizmet olarak çağırdığınız bir analiz modeli geliştirebilirsiniz. analiz modellerini Azure Machine Learning stüdyosu veya Azure Machine Learning SDK'sı ile Azure Synapse Spark havuz not defterlerini veya RStudio'da R kullanarak kodsuz olarak geliştirebilirsiniz. spark havuzu not defterlerinde Spark makine öğrenmesi işlem hatlarını Azure Synapse çalıştırdığınızda, analiz büyük ölçekte gerçekleşir.

Tümleşik verileri ve tüm Data Factory analiz işlem hattı sonuçlarını HDInsight'taki Data Lake Storage, Azure Synapse veya Hive tabloları gibi bir veya daha fazla veri deposunda depolayabilirsiniz. Data Factory analiz işlem hattı tarafından üretilen içgörüler üzerinde işlem yapmak için diğer etkinlikleri de çağırabilirsiniz.

Tutarlı güvenilir verileri paylaşmak için göl veritabanı kullanma

Tüm veri tümleştirme kurulumunun temel hedeflerinden biri, verileri bir kez tümleştirip yalnızca veri ambarında değil her yerde yeniden kullanabilmektir. Örneğin, tümleşik verileri veri biliminde kullanmak isteyebilirsiniz. Yeniden kullanma, yeniden keşfetmeyi önler ve herkesin güvenebileceği tutarlı ve yaygın olarak anlaşılan veriler sağlar.

Ortak Veri Modeli , kuruluş genelinde paylaşılabilen ve yeniden kullanılabilen temel veri varlıklarını açıklar. Ortak Veri Modeli, yeniden kullanım elde etmek için mantıksal veri varlıklarını açıklayan bir dizi ortak veri adı ve tanımı oluşturur. Müşteri, Hesap, Ürün, Tedarikçi, Siparişler, Ödemeler ve İadeler yaygın veri adlarından bazılarıdır. BT ve iş uzmanları, ortak veri varlıklarını oluşturmak ve depolamak için veri tümleştirme yazılımını kullanarak her yerde yeniden kullanımlarını ve tutarlılıklarını en üst düzeye çıkarabilir.

Azure Synapse, göldeki verilerin standartlaştırılmasına yardımcı olmak için sektöre özgü veritabanı şablonları sağlar. Lake veritabanı şablonları önceden tanımlanmış iş alanları için şemalar sağlayarak verilerin yapılandırılmış bir şekilde bir göl veritabanına yüklenmesini sağlar. Bu güç, göl veritabanı ortak veri varlıkları oluşturmak için veri tümleştirme yazılımını kullandığınızda ortaya çıkar ve bu da uygulamalar ve analiz sistemleri tarafından kullanılabilecek güvenilir verilerin kendi kendine açıklanmasıyla sonuçlanır. Data Factory kullanarak Data Lake Storage'de ortak veri varlıkları oluşturabilirsiniz.

İpucu

Data Lake Storage; Microsoft Azure Synapse, Azure Machine Learning, Azure Synapse Spark ve HDInsight'ı destekleyen paylaşılan depolama alanıdır.

Power BI, Azure Synapse Spark, Azure Synapse ve Azure Machine Learning ortak veri varlıklarını kullanabilir. Aşağıdaki diyagramda bir göl veritabanının Azure Synapse'da nasıl kullanılabileceğini gösterilmektedir.

Azure Synapse'da göl veritabanının nasıl kullanılabileceğini gösteren ekran görüntüsü.

İpucu

Ortak veri varlıklarının yeniden kullanılmasını en üst düzeye çıkarmak için paylaşılan depolama alanında göl veritabanı mantıksal varlıkları oluşturmak için verileri tümleştirin.

Azure'da Microsoft veri bilimi teknolojileriyle tümleştirme

Veri ambarı modernleştirildiğinde bir diğer önemli amaç da rekabet avantajı için içgörüler üretmektir. Geçirilen veri ambarınızı Azure'daki Microsoft ve üçüncü taraf veri bilimi teknolojileriyle tümleştirerek içgörüler oluşturabilirsiniz. Aşağıdaki bölümlerde, modern bir veri ambarı ortamında Azure Synapse ile nasıl kullanılabileceğini görmek için Microsoft tarafından sunulan makine öğrenmesi ve veri bilimi teknolojileri açıklanmaktadır.

Azure'da veri bilimi için Microsoft teknolojileri

Microsoft, gelişmiş analizi destekleyen çeşitli teknolojiler sunar. Bu teknolojilerle makine öğrenmesini kullanarak tahmine dayalı analiz modelleri oluşturabilir veya derin öğrenmeyi kullanarak yapılandırılmamış verileri analiz edebilirsiniz. Teknolojiler şunlardır:

  • Azure Machine Learning Studio

  • Azure Machine Learning

  • Spark havuzu not defterlerini Azure Synapse

  • ML.NET (Visual Studio için API, CLI veya ML.NET Model Builder)

  • Apache Spark için .NET

Veri bilimcileri analiz modelleri geliştirmek için RStudio (R) ve Jupyter Notebooks 'u (Python) veya Keras veya TensorFlow gibi çerçeveleri kullanabilir.

İpucu

Python, R ve .NET gibi programlama dillerini kullanarak veya kod içermeyen bir yaklaşım kullanarak makine öğrenmesi modelleri geliştirin.

Azure Machine Learning Studio

Azure Machine Learning stüdyosu sürükleyip bırakma, web tabanlı bir kullanıcı arabirimi kullanarak tahmine dayalı analiz oluşturmanızı, dağıtmanızı ve paylaşmanızı sağlayan, tam olarak yönetilen bir bulut hizmetidir. Aşağıdaki ekran görüntüsünde Azure Machine Learning stüdyosu kullanıcı arabirimi gösterilmektedir.

Azure Machine Learning stüdyosu kullanıcı arabiriminde tahmine dayalı analizi gösteren ekran görüntüsü.

Azure Machine Learning

Azure Machine Learning, Python için verileri hızlı bir şekilde hazırlamanıza ve makine öğrenmesi modellerini eğitip dağıtmanıza yardımcı olabilecek bir SDK ve hizmetler sağlar. Jupyter Notebook kullanarak Azure not defterlerinde Azure Machine Learning'i, Spark için makine öğrenmesi kitaplığı olan PyTorch, TensorFlow, scikit-learn veya Spark MLlib gibi açık kaynak çerçevelerle kullanabilirsiniz. Azure Machine Learning, model geliştirmeyi hızlandırmak için en doğru algoritmaları belirlemek için birden çok algoritmayı otomatik olarak test eden bir AutoML özelliği sağlar.

İpucu

Azure Machine Learning, çeşitli açık kaynak çerçeveleri kullanarak makine öğrenmesi modelleri geliştirmeye yönelik bir SDK sağlar.

Ayrıca uçtan uca iş akışını yöneten, bulutta program aracılığıyla ölçeklendirilen ve modelleri hem buluta hem de uca dağıtan makine öğrenmesi işlem hatları oluşturmak için Azure Machine Learning'i kullanabilirsiniz. Azure Machine Learning, program aracılığıyla veya Azure portal el ile oluşturabileceğiniz mantıksal alanlar olan çalışma alanları içerir. Bu çalışma alanları, ekiplerin birlikte çalışmasını sağlamak için işlem hedeflerini, denemeleri, veri depolarını, eğitilmiş makine öğrenmesi modellerini, Docker görüntülerini ve dağıtılan hizmetleri tek bir yerde tutar. Visual Studio'da Azure Machine Learning'i yapay zeka için Visual Studio uzantısıyla kullanabilirsiniz.

İpucu

Çalışma alanlarında ilgili veri depolarını, denemeleri, eğitilmiş modelleri, Docker görüntülerini ve dağıtılan hizmetleri düzenleyin ve yönetin.

Spark havuzu not defterlerini Azure Synapse

Azure Synapse Spark havuzu not defteri, Azure için iyileştirilmiş bir Apache Spark hizmetidir. Azure Synapse Spark havuzu not defterleri ile:

  • Veri mühendisleri Data Factory kullanarak ölçeklenebilir veri hazırlama işleri oluşturabilir ve çalıştırabilir.

  • Veri bilimciler sonuçları görselleştirmek için Scala, R, Python, Java ve SQL gibi dillerde yazılmış not defterlerini kullanarak makine öğrenmesi modellerini uygun ölçekte derleyebilir ve çalıştırabilir.

İpucu

Azure Synapse Spark, Microsoft tarafından sunulan dinamik olarak ölçeklenebilir bir Hizmet olarak Spark teklifidir ve Spark veri hazırlama, model geliştirme ve dağıtılan model yürütme için ölçeklenebilir yürütme sunar.

Azure Synapse Spark havuzu not defterlerinde çalıştırılan işler Azure Blob Depolama, Data Lake Storage, Azure Synapse, HDInsight ve Apache Kafka gibi akış veri hizmetlerinden büyük ölçekte verileri alabilir, işleyebilir ve analiz edebilir.

İpucu

Azure Synapse Spark, Azure'daki çeşitli Microsoft analitik ekosistem veri depolarındaki verilere erişebilir.

Azure Synapse Spark havuzu not defterleri, toplam sahip olma maliyetini (TCO) azaltmak için otomatik ölçeklendirmeyi ve otomatik sonlandırmayı destekler. Veri bilimciler, makine öğrenmesi yaşam döngüsünü yönetmek için MLflow açık kaynak çerçevesini kullanabilir.

ML.NET

ML.NET, Windows, Linux, macOS için açık kaynaklı, platformlar arası bir makine öğrenmesi çerçevesidir. Microsoft, .NET geliştiricilerinin Visual Studio için ML.NET Model Builder gibi mevcut araçları kullanarak özel makine öğrenmesi modelleri geliştirebilmesi ve bunları .NET uygulamalarıyla tümleştirebilmesi için ML.NET oluşturmuştur.

İpucu

Microsoft, makine öğrenmesi özelliğini .NET geliştiricilerine genişletmiştir.

Apache Spark için .NET

Apache Spark için .NET, Spark desteğini R, Scala, Python ve Java'nın ötesine .NET'e genişletir ve Spark'ı tüm Spark API'lerinde .NET geliştiricilerinin erişimine açık hale getirmeyi amaçlar. Apache Spark için .NET şu anda yalnızca HDInsight'taki Apache Spark'ta kullanılabilse de, Microsoft Apache Spark için .NET'i Azure Synapse Spark havuz not defterlerinde kullanılabilir hale getirmek istemektedir.

Azure Synapse Analytics'i veri ambarınızla kullanma

Makine öğrenmesi modellerini Azure Synapse ile birleştirmek için şunları yapabilirsiniz:

  • Yeni içgörüler oluşturmak için makine öğrenmesi modellerini toplu olarak veya akış verilerinde gerçek zamanlı olarak kullanın ve bu içgörüleri Azure Synapse'de zaten bildiğiniz bilgilere ekleyin.

  • Azure Synapse'daki verileri kullanarak başka bir yerde, örneğin diğer uygulamalarda dağıtım için yeni tahmine dayalı modeller geliştirin ve eğitin.

  • Veri ambarınızdaki verileri analiz etmek ve yeni iş değeri sağlamak için Azure Synapse başka bir yerde eğitilen modeller de dahil olmak üzere makine öğrenmesi modellerini dağıtın.

İpucu

Azure Synapse'daki verileri kullanarak Azure Synapse Spark havuzu not defterlerinde makine öğrenmesi modellerini büyük ölçekte eğitin, test edin, değerlendirin ve çalıştırın.

Veri bilimcileri RStudio, Jupyter Notebooks ve Azure Synapse Spark havuz not defterlerini Azure Machine Learning ile birlikte kullanarak Azure Synapse'deki verileri kullanarak Azure Synapse Spark havuzu not defterlerinde büyük ölçekte çalışan makine öğrenmesi modelleri geliştirebilir. Örneğin veri bilimciler, müşterileri farklı pazarlama kampanyalarına yönlendirecek şekilde segmentlere ayırmak için denetimsiz bir model oluşturabilir. Denetimli makine öğrenmesini kullanarak modeli belirli bir sonucu tahmin edecek şekilde eğitin; örneğin müşterinin değişim sıklığı eğilimini tahmin edin veya müşterinin değerini artırmaya çalışması için bir sonraki en iyi teklifi önerin. Aşağıdaki diyagramda Azure Synapse Azure Machine Learning için nasıl kullanılabileceğini gösterilmektedir.

Modeli eğitmek ve tahmin etmek Azure Synapse ekran görüntüsü.

Başka bir senaryoda, sosyal ağ veya web sitesi verilerini Data Lake Storage alabilir, ardından ürünleriniz veya markanız hakkında müşteri yaklaşımını puanlama amacıyla doğal dil işlemeyi kullanarak Azure Synapse Spark havuzu not defterindeki verileri uygun ölçekte hazırlayıp analiz edebilirsiniz. Ardından bu puanları veri ambarınıza ekleyebilirsiniz. Negatif yaklaşımın ürün satışları üzerindeki etkisini anlamak için büyük veri analizini kullanarak, veri ambarınızda zaten bildiklerinizi eklersiniz.

İpucu

Azure'da makine öğrenmesini toplu olarak veya gerçek zamanlı olarak kullanarak yeni içgörüler üretin ve veri ambarınızdaki bildiklerinizi ekleyin.

Canlı akış verilerini Azure Synapse Analytics ile tümleştirme

Modern bir veri ambarında verileri analiz ederken akış verilerini gerçek zamanlı olarak analiz edebilmeniz ve veri ambarınızdaki geçmiş verilerle birleştirebilmeniz gerekir. IoT verilerini ürün veya varlık verileriyle birleştirme örneğidir.

İpucu

Veri ambarınızı IoT cihazlarından veya tıklama akışlarından gelen akış verileriyle tümleştirin.

Veri ambarınızı başarılı bir şekilde Azure Synapse geçirdikten sonra, Azure Synapse'daki ek işlevlerden yararlanarak veri ambarı modernleştirme alıştırmasının bir parçası olarak canlı akış veri tümleştirmesi sağlayabilirsiniz. Bunu yapmak için akış verilerini Event Hubs, Apache Kafka gibi diğer teknolojiler veya akış veri kaynaklarını destekliyorsa mevcut ETL aracınız aracılığıyla alın. Verileri Data Lake Storage'da depolayın. Ardından, PolyBase kullanarak Azure Synapse'de bir dış tablo oluşturun ve veri ambarınızın artık gerçek zamanlı akış verilerine erişim sağlayan yeni tablolar içermesi için bunu Data Lake Storage akışı yapılan verilere işaret edin. Azure Synapse erişimi olan herhangi bir BI aracından standart T-SQL kullanarak dış tabloyu veri ambarındaymış gibi sorgular. Ayrıca, iş kullanıcılarının verilere erişmesini kolaylaştırmak amacıyla canlı akış verilerini geçmiş verilere birleştiren görünümler oluşturmak için akış verilerini geçmiş verileriyle birlikte diğer tablolara da birleştirebilirsiniz.

İpucu

Akış verilerini Event Hubs veya Apache Kafka'dan Data Lake Storage alın ve PolyBase dış tablolarını kullanarak Azure Synapse verilere erişin.

Aşağıdaki diyagramda, Azure Synapse üzerinde gerçek zamanlı bir veri ambarı Data Lake Storage akış verileriyle tümleştirilmiştir.

Data Lake Storage akış verilerini içeren Azure Synapse ekran görüntüsü.

PolyBase kullanarak mantıksal veri ambarı oluşturma

PolyBase ile, birden çok analitik veri deposuna kullanıcı erişimini basitleştirmek için bir mantıksal veri ambarı oluşturabilirsiniz. Birçok şirket, son birkaç yılda veri ambarlarına ek olarak "iş yükü için iyileştirilmiş" analitik veri depolarını benimsemiştir. Azure'da analiz platformları şunları içerir:

  • Büyük veri analizi için Azure Synapse Spark havuz not defteriyle (hizmet olarak Spark) Data Lake Storage.

  • HdInsight (hizmet olarak Hadoop), büyük veri analizi için de kullanılır.

  • Graf analizi için Azure Cosmos DB'de yapılabilecek NoSQL Graph veritabanları.

  • Hareket halindeki verilerin gerçek zamanlı analizi için Event Hubs ve Stream Analytics.

Bu platformların Microsoft dışı eşdeğerleri veya müşteriler, tedarikçiler, ürünler, varlıklar ve daha fazlası için tutarlı güvenilir veriler için erişilmesi gereken bir ana veri yönetimi (MDM) sisteminiz olabilir.

İpucu

PolyBase, iş kullanıcılarının kolayca erişebilmesi için Azure'da temel alınan birden çok analitik veri deposuna erişimi basitleştirir.

Bu analiz platformları, kuruluş içindeki ve dışındaki yeni veri kaynaklarının patlaması ve işletme kullanıcılarının yeni verileri yakalayıp analiz etme talebi nedeniyle ortaya çıkmıştır. Yeni veri kaynakları şunlardır:

  • IoT algılayıcı verileri ve tıklama akışı verileri gibi makine tarafından oluşturulan veriler.

  • Sosyal ağ verileri gibi insan tarafından oluşturulan veriler, web sitesi verilerini, müşteri gelen e-postasını, görüntülerini ve videolarını gözden geçirin.

  • Açık kamu verileri ve hava durumu verileri gibi diğer dış veriler.

Bu yeni veriler, genellikle veri ambarlarını besleyen yapılandırılmış işlem verilerinin ve ana veri kaynaklarının ötesine geçer ve genellikle şunları içerir:

  • JSON, XML veya Avro gibi yarı yapılandırılmış veriler.
  • metin, ses, görüntü veya video gibi yapılandırılmamış veriler, işlenmek ve analiz etmek daha karmaşıktır.
  • Yüksek hacimli veriler, yüksek hızlı veriler veya her ikisi de.

Sonuç olarak doğal dil işleme, graf analizi, derin öğrenme, akış analizi veya büyük hacimli yapılandırılmış verilerin karmaşık analizi gibi daha karmaşık analiz türleri ortaya çıkmıştır. Bu tür analizler genellikle bir veri ambarında gerçekleşmez, bu nedenle aşağıdaki diyagramda gösterildiği gibi farklı analitik iş yükleri için farklı analitik platformlar görmek şaşırtıcı değildir.

Azure Synapse farklı analiz iş yükleri türleri için farklı analiz platformlarının ekran görüntüsü.

İpucu

Birden çok analitik veri deposundaki verilerin tek bir sistemde olduğu gibi görünmesini sağlama ve bunları Azure Synapse birleştirme özelliği, mantıksal veri ambarı mimarisi olarak bilinir.

Bu platformlar yeni içgörüler oluşturduğundan, PolyBase'in mümkün kıldığı yeni içgörüleri Azure Synapse'de zaten bildiğiniz bilgilerle birleştirme gereksinimini görmek normaldir.

Azure Synapse içinde PolyBase veri sanallaştırmasını kullanarak, Azure Synapse'daki verilerin HDInsight, Azure Cosmos DB gibi diğer Azure ve şirket içi analitik veri depolarındaki verilere katıldığı ya da Stream Analytics veya Event Hubs'tan Data Lake Storage akan akış verilerinin bulunduğu bir mantıksal veri ambarı uygulayabilirsiniz. Bu yaklaşım, Azure Synapse dış tablolara erişen ve eriştikleri verilerin birden çok temel analiz sisteminde depolandığını bilmesi gerekmeyen kullanıcılar için karmaşıklığı azaltır. Aşağıdaki diyagramda, nispeten daha basit ama yine de güçlü UI yöntemleriyle erişilen karmaşık bir veri ambarı yapısı gösterilmektedir.

Kullanıcı arabirimi yöntemleri aracılığıyla erişilen karmaşık bir veri ambarı yapısının örneğini gösteren ekran görüntüsü.

Diyagramda, Microsoft analitik ekosistemindeki diğer teknolojilerin Azure Synapse mantıksal veri ambarı mimarisinin özelliğiyle nasıl birleştirilebileceği gösterilmektedir. Örneğin, Microsoft Lake Veritabanı mantıksal veri varlıklarını temsil eden güvenilir veri ürünleri oluşturmak için Data Factory'yi kullanarak verileri Data Lake Storage alabilir ve seçki oluşturabilirsiniz. Bu güvenilir ve yaygın olarak anlaşılan veriler daha sonra Azure Synapse, Azure Synapse Spark havuz not defterleri veya Azure Cosmos DB gibi farklı analiz ortamlarında kullanılabilir ve yeniden kullanılabilir. Bu ortamlarda üretilen tüm içgörülere PolyBase tarafından mümkün kılınan mantıksal veri ambarı veri sanallaştırma katmanı aracılığıyla erişilebilir.

İpucu

Mantıksal veri ambarı mimarisi, iş kullanıcılarının verilere erişimini basitleştirir ve veri ambarınızda zaten bildiğiniz verilere yeni bir değer ekler.

Sonuçlar

Veri ambarınızı Azure Synapse geçirdikten sonra Microsoft analitik ekosistemindeki diğer teknolojilerden yararlanabilirsiniz. Bunu yaparak yalnızca veri ambarınızı modernleştirmekle kalmaz, aynı zamanda diğer Azure analiz veri depolarında üretilen içgörüleri tümleşik bir analiz mimarisine getirirsiniz.

Herhangi bir türdeki verileri Data Lake Storage almak için ETL işlemenizi genişletebilir ve sonra data Factory'yi kullanarak güvenilir, yaygın olarak anlaşılan veri varlıkları oluşturmak için verileri büyük ölçekte hazırlayıp tümleştirebilirsiniz. Bu varlıklar veri ambarınız tarafından kullanılabilir ve veri bilimciler ile diğer uygulamalar tarafından erişilebilir. Gerçek zamanlı ve toplu iş odaklı analiz işlem hatları oluşturabilir ve akış verileri üzerinde gerçek zamanlı olarak ve hizmet olarak isteğe bağlı olarak toplu olarak çalıştırılacak makine öğrenmesi modelleri oluşturabilirsiniz.

PolyBase'i kullanabilir veya COPY INTO Azure'da temel alınan birden çok analiz platformundan içgörülere erişimi basitleştirmek için veri ambarınızın ötesine geçebilirsiniz. Bunu yapmak için, bi araç ve uygulamalarından akışa, büyük verilere ve geleneksel veri ambarı içgörülerine erişimi destekleyen bir mantıksal veri ambarında bütünsel tümleşik görünümler oluşturun.

Veri ambarınızı Azure Synapse geçirerek, işletmenizde yeni değer sağlamak için Azure'da çalışan zengin Microsoft analiz ekosisteminin avantajlarından yararlanabilirsiniz.

Sonraki adımlar

Ayrılmış SQL havuzuna geçiş hakkında bilgi edinmek için bkz. Azure Synapse Analytics'te veri ambarlarını ayrılmış bir SQL havuzuna geçirme.