Veri analizi iş yüklerinde Azure Data Lake Storage 2. Nesil kullanma

Tamamlandı

Azure Data Lake Store 2. Nesil, birden çok veri analizi kullanım örneği için etkinleştiren bir teknolojidir. Şimdi birkaç yaygın analitik iş yükü türünü keşfedelim ve Azure Data Lake Storage 2. Nesil bunları desteklemek için diğer Azure hizmetleriyle nasıl çalıştığını belirleyelim.

Büyük veri işleme ve analiz

Diagram of Azure Data Lake Storage Gen2 being accessed from Azure Synapse Analytics, Azure Databricks, and Azure HDInsight.

Büyük veri senaryoları genellikle "üç v" olarak adlandırılan hızlı bir hızda işlenmesi gereken çeşitli biçimlerde çok büyük hacimlerde veri içeren analitik iş yüklerine başvurur. Azure Data Lake Depolama 2. Nesil, Azure Synapse Analytics, Azure Databricks ve Azure HDInsight gibi büyük veri hizmetlerinin Apache Spark, Hive ve Hadoop gibi veri işleme çerçeveleri uygulayabileceği ölçeklenebilir ve güvenli bir dağıtılmış veri deposu sağlar. Depolamanın ve işleme işleminin dağıtılmış yapısı, görevlerin paralel olarak gerçekleştirilerek çok büyük miktarda veri işlenirken bile yüksek performans ve ölçeklenebilirlik elde edilmesine olanak tanır.

Veri ambarlama

Diagram of Azure Data Lake Storage Gen2 being used to support a data warehousing solution in Azure Synapse Analytics.

Veri ambarı son yıllarda bir veri gölünde dosya olarak depolanan büyük hacimli verileri bir veri ambarında ilişkisel tablolarla tümleştirecek şekilde gelişti. Tipik bir veri ambarı çözümü örneğinde, veriler Azure SQL veritabanı veya Azure Cosmos DB gibi işletimsel veri depolarından ayıklanır ve analiz iş yükleri için daha uygun yapılara dönüştürülür. Genellikle veriler, ilişkisel bir veri ambarı içine yüklenmeden önce dağıtılmış işlemeyi kolaylaştırmak için bir veri gölünde hazırlanır. Bazı durumlarda veri ambarı, veri gölündeki dosyalar üzerinde ilişkisel meta veri katmanı tanımlamak ve karma bir "data lakehouse" veya "lake database" mimarisi oluşturmak için dış tabloları kullanır. Daha sonra veri ambarı raporlama ve görselleştirme için analiz sorgularını destekleyebilir.

Bu tür bir veri ambarı mimarisini uygulamanın birden çok yolu vardır. Diyagramda, Azure Synapse Analytics'in Azure Data Factory teknolojisini kullanarak ayıklama, dönüştürme ve yükleme (ETL) işlemleri gerçekleştirmek için işlem hatlarını barındırdığı bir çözüm gösterilmektedir. Bu işlemler, işletimsel veri kaynaklarından verileri ayıklar ve Azure Data Lake Storage 2. Nesil kapsayıcısında barındırılan bir veri gölüne yükler. Ardından veriler işlenir ve Microsoft Power BI kullanarak veri görselleştirmeyi ve raporlamayı destekleyebileceğiniz Azure Synapse Analytics ayrılmış SQL havuzundaki bir ilişkisel veri ambarı içine yüklenir.

Gerçek zamanlı veri analizi

Diagram of Azure Data Lake Storage Gen2 being used to store the results of real-time data processing in Azure Stream Analytics.

İşletmelerin ve diğer kuruluşların sürekli veri akışlarını yakalayıp analiz etme ve bunları gerçek zamanlı (veya mümkün olduğunca gerçek zamanlıya yakın) analiz etme ihtiyacı giderek artmaktadır. Bu veri akışları bağlı cihazlardan (genellikle nesnelerin İnterneti veya IoT cihazları olarak adlandırılır) veya sosyal medya platformlarında veya diğer uygulamalarda kullanıcılar tarafından oluşturulan verilerden oluşturulabilir. Geleneksel toplu işleme iş yüklerinden farklı olarak, akış verileri, veri olaylarının sınırsız akışını gerçekleştiğinde yakalayabilen ve işleyebilen bir çözüm gerektirir.

Akış olayları genellikle işlenmek üzere bir kuyrukta yakalanır. Görüntüde gösterildiği gibi Azure Event Hubs da dahil olmak üzere bu görevi gerçekleştirmek için kullanabileceğiniz birden çok teknoloji vardır. Buradan, veriler genellikle zamansal pencereler üzerinden veri toplamak (örneğin, belirli bir etikete sahip sosyal medya iletilerinin sayısını beş dakikada bir saymak veya İnternet'e bağlı bir algılayıcının dakikada ortalama okumasını hesaplamak için) işlenir. Azure Stream Analytics, olay verilerini geldikçe sorgulayan ve toplayan işler oluşturmanıza ve sonuçları bir çıkış havuzuna yazmanıza olanak tanır. Bu tür havuzlardan biri Azure Data Lake Storage 2. Nesil; yakalanan gerçek zamanlı verilerin analiz edilebildiği ve görselleştirilebildiği yerdir.

Veri bilimi ve makine öğrenmesi

Diagram of Azure Data Lake Storage Gen2 being used as a source for Azure Machine Learning.

Veri bilimi, genellikle Apache Spark gibi araçlar ve Python gibi betik oluşturma dilleri kullanılarak büyük hacimli verilerin istatistiksel analizini içerir. Azure Data Lake Depolama 2. Nesil, veri bilimi iş yüklerinde gereken veri hacimleri için yüksek oranda ölçeklenebilir bir bulut tabanlı veri deposu sağlar.

Makine öğrenmesi, tahmine dayalı modelleri eğitmekle ilgilenen bir veri bilimi alt alanıdır. Model eğitimi için çok miktarda veri ve bu verileri verimli bir şekilde işleme olanağı gerekir. Azure Machine Learning, veri bilimcilerinin dinamik olarak ayrılmış dağıtılmış işlem kaynaklarını kullanarak not defterlerinde Python kodu çalıştırabildiği bir bulut hizmetidir. İşlem, modelleri eğitmek için Azure Data Lake Storage 2. Nesil kapsayıcılardaki verileri işler ve bu veriler tahmine dayalı analiz iş yüklerini desteklemek için üretim web hizmetleri olarak dağıtılabilir.