Aracılığıyla paylaş


Synapse POC playbook: Data lake exploration with serverless SQL pool in Azure Synapse Analytics

This article presents a high-level methodology for preparing and running an effective Azure Synapse Analytics proof of concept (POC) project for serverless SQL pool.

Uyarı

Bu makale, Azure Synapse kavram kanıtı rehberi makale serisinin bir parçasıdır. Seriye genel bakış için bkz Azure Synapse kavram kanıtı rehberi.

POC için hazırlanma

A POC project can help you make an informed business decision about implementing a big data and advanced analytics environment on a cloud-based platform that leverages serverless SQL pool in Azure Synapse. If you need to explore or gain insights from data in the data lake, or optimize your existing data transformation pipeline, you can benefit from using the serverless SQL pool. Aşağıdaki senaryolar için uygundur:

  • Basic discovery and exploration: Quickly reason about data stored in various formats (Parquet, CSV, JSON) in your data lake, so you can plan how to unlock insights from it.
  • Logical data warehouse: Produce a relational abstraction on top of raw or disparate data without relocating or transforming it, providing an always up-to-date view of your data.
  • Data transformation: Run simple, scalable, and highly performant data lake queries by using T-SQL. You can feed query results to business intelligence (BI) tools, or load them into a relational database. Target systems can include Azure Synapse dedicated SQL pools or Azure SQL Database.

Sunucusuz SQL havuzundan farklı profesyonel roller yararlanabilir:

  • Data engineers can explore the data lake, transform and prepare data by using serverless SQL pool, and simplify their data transformation pipelines.
  • Data scientists can quickly reason about the contents and structure of the data stored in the data lake by using the OPENROWSET T-SQL function and its automatic schema inference.
  • Data analysts can write T-SQL queries in their preferred query tools, which can connect to serverless SQL pool. They can explore data in Spark external tables that were created by data scientists or data engineers.
  • BI professionals can quickly create Power BI reports that connect to data lake or Spark tables.

A serverless SQL pool POC project will identify your key goals and business drivers that serverless SQL pool is designed to support. It will also test key features and gather metrics to support your implementation decisions. POC, üretim ortamına dağıtılacak şekilde tasarlanmamıştır. Aslında, önemli sorulara odaklanan kısa vadeli bir projedir ve sonucu atılabilir.

Before you begin planning your serverless SQL Pool POC project:

  • Kuruluşunuzun verileri buluta taşımayla ilgili tüm kısıtlamalarını veya yönergelerini belirleyin.
  • Büyük veri ve gelişmiş analiz platformu projesi için yönetici veya iş sponsorlarını belirleme. Buluta geçiş için desteklerinin güvenliğini sağlayın.
  • POC yürütmesi sırasında sizi destekleyecek teknik uzmanların ve iş kullanıcılarının kullanılabilirliğini belirleyin.

Before you start preparing for the POC project, we recommend you first read the serverless SQL pool documentation.

Tavsiye

Sunucusuz SQL havuzlarında yeniyseniz Azure Synapse sunucusuz SQL havuzlarını kullanarak veri analizi çözümleri oluşturma öğrenme yolu üzerinden çalışmanızı öneririz.

Hedefleri belirleme

Başarılı bir POC projesi planlama gerektirir. Gerçek motivasyonları tam olarak anlamak için neden poc yaptığınızı belirleyerek başlayın. Motivasyonlar arasında modernleştirme, maliyet tasarrufu, performans geliştirme veya tümleşik deneyim sayılabilir. POC'nizin net hedeflerini ve başarısını tanımlayacak ölçütleri belgelemeye özen gösterin. Kendinize sorun:

  • POC'nizin çıktıları olarak ne istiyorsunuz?
  • What will you do with those outputs?
  • Çıkışları kimler kullanacak?
  • Başarılı bir POC'nin tanımlaması nedir?

PoC'nin sınırlı bir kavram ve yetenek kümesini hızla kanıtlamak için kısa ve odaklanmış bir çaba olması gerektiğini unutmayın. Bu kavramlar ve özellikler, genel iş yükünü temsil etmelidir. Kanıtlayacak uzun bir öğe listenize sahipseniz, birden fazla POC planlamak isteyebilirsiniz. Bu durumda, bir sonrakiyle devam etmeniz gerekip gerekmediğini belirlemek için POC'ler arasındaki geçitleri tanımlayın. Given the different professional roles that can use a serverless SQL pool (and the different scenarios that serverless SQL pool supports), you may choose to execute multiple POCs. For example, one POC could focus on requirements for the data scientist role, such as discovery and exploration of data in different formats. Another could focus on requirements for the data engineering role, such as data transformation and the creation of a logical data warehouse.

POC hedeflerinizi göz önünde bulundurarak hedefleri şekillendirmenize yardımcı olmak için kendinize aşağıdaki soruları sorun:

  • Mevcut büyük veri ve gelişmiş analiz platformundan (şirket içi veya bulut) geçiş mi gerçekleştiriyorsunuz?
  • Geçiş yapıyor ancak mevcut veri alımı ve veri işleme süreçlerinizde mümkün olan en az değişikliği yapmak mı istiyorsunuz?
  • Bir geçiş sürecindesiniz ama bu süreçte bazı kapsamlı iyileştirmeler yapmak mı istiyorsunuz?
  • Tamamen yeni bir büyük veri ve gelişmiş analiz platformu (greenfield projesi) mi oluşturuyorsunuz?
  • Şu anki ağrı noktalarınız nelerdir? Örneğin, ölçeklenebilirlik, performans veya esneklik.
  • Hangi yeni iş gereksinimlerini desteklemeniz gerekiyor?
  • Karşılamanız gereken SLA'lar nelerdir?
  • İş yükleri ne olacak? For example, data exploration over different data formats, basic exploration, a logical data warehouse, data preparation and/or transformation, T-SQL interactive analysis, T-SQL querying of Spark tables, or reporting queries over the data lake.
  • Projenin sahibi olacak kullanıcıların becerileri nelerdir (POC uygulanmalıdır)?

POC hedef ayarına bazı örnekler aşağıda verilmiştir:

  • Neden POC yapıyoruz?
    • We need to know if we can explore all of the raw file formats we store by using serverless SQL pool.
    • We need to know if our data engineers can quickly evaluate new data feeds.
    • We need to know if data lake query performance by using serverless SQL pool will meet our data exploration requirements.
    • We need to know if serverless SQL pool is a good choice for some of our visualizations and reporting requirements.
    • We need to know if serverless SQL pool is a good choice for some of our data ingestion and processing requirements.
    • We need to know if our move to Azure Synapse will meet our budget.
  • At the conclusion of this PoC:
    • We will have the data to identify the data transformations that are well suited to serverless SQL pool.
    • We will have the data to identify when serverless SQL pool can be best used during data visualization.
    • We will have the data to know the ease with which our data engineers and data scientists can adopt the new platform.
    • We will have gained insight to better estimate the effort required to complete the implementation or migration project.
    • Daha fazla teste ihtiyaç duyabilecek öğelerin bir listesi olacak.
    • Our POC will be successful if we have the data needed and have completed the testing identified to determine how serverless SQL pool will support our cloud-based big data and advance analytics platform.
    • We will have determined whether we can move to the next phase or whether more POC testing is needed to finalize our decision.
    • We will be able to make a sound business decision supported by specific data points.

Projeyi planlama

Belirli testleri tanımlamak ve tanımladığınız çıkışları sağlamak için hedeflerinizi kullanın. Her hedefi ve beklenen çıkışı desteklemek için en az bir teste sahip olduğunuzdan emin olmak önemlidir. Also, identify specific data exploration and analysis tasks, specific transformations, and specific existing processing you want to test. Identify a specific dataset and codebase that you can use.

Planlamada gereken ayrıntı düzeyine bir örnek aşağıda verilmiştir:

  • Goal: We need to know whether data engineers can achieve the equivalent processing of the existing ETL process named "Daily Batch Raw File Validation" within the required SLA.
  • Output: We will have the data to determine whether we can use T-SQL queries to execute the "Daily Batch Raw File Validation" ETL process within the required SLA.
  • Test: Validation queries A, B, and C are identified by data engineering, and they represent overall data processing needs. Compare the performance of these queries with the benchmark obtained from the existing system.

POC veri kümesini değerlendirme

Tanımladığınız belirli testleri kullanarak testleri desteklemek için bir veri kümesi seçin. Bu veri kümesini gözden geçirmek için zaman ayır. Veri kümesinin içerik, karmaşıklık ve ölçek açısından gelecekteki işlemlerinizi yeterince temsil ettiğini doğrulamanız gerekir. Don't use a dataset that's too small because it won't deliver representative performance. Aksine, POC'nin tam bir veri geçişine dönüşmemesi için çok büyük bir veri kümesi kullanmayın. Performans karşılaştırmaları için kullanabilmeniz için mevcut sistemlerden uygun karşılaştırmaları edindiğinizden emin olun.

Önemli

Verileri buluta taşımadan önce herhangi bir engel bulunmadığından emin olmak için işletme sahipleriyle görüşün. Verileri buluta taşımadan önce yapılması gereken güvenlik veya gizlilik endişelerini veya veri gizleme gereksinimlerini belirleyin.

Üst düzey mimari oluşturma

Based upon the high-level architecture of your proposed future state architecture, identify the components that will form part of your POC. Gelecekteki üst düzey durum mimariniz büyük olasılıkla birçok veri kaynağı, çok sayıda veri tüketicisi, büyük veri bileşeni ve makine öğrenmesi ile yapay zeka (AI) veri tüketicileri içerir. POC mimariniz özellikle POC'nin parçası olacak bileşenleri tanımlamalıdır. Daha da önemlisi, POC testinin bir parçası olmayacak bileşenleri tanımlamalıdır.

Zaten Azure kullanıyorsanız, POC sırasında kullanabileceğiniz tüm kaynakları (Microsoft Entra ID, ExpressRoute ve diğerleri) tanımlayın. Ayrıca kuruluşunuzun kullandığı Azure bölgelerini de belirleyin. Şimdi ExpressRoute bağlantınızın aktarım hızını belirlemek ve diğer iş kullanıcılarıyla POC'nizin üretim sistemlerini olumsuz etkilemeden bu aktarım hızının bir kısmını tüketebileceğini denetlemek için harika bir zamandır.

POC kaynaklarını tanımlama

POC'nizi desteklemek için gereken teknik kaynakları ve zaman taahhütlerini özel olarak belirleyin. Your POC will need:

  • Gereksinimleri ve sonuçları denetlemek için bir iş temsilcisi.
  • PoC verilerini kaynak olarak kullanan ve mevcut süreçler ve mantık hakkında bilgi sağlayan bir uygulama veri uzmanı.
  • A serverless SQL pool expert.
  • POC testlerini iyileştirmek için uzman bir danışman.
  • POC projenizin belirli bileşenleri için gerekli olan ancak POC süresi boyunca gerekli olması gerekmeyen kaynaklar. Bu kaynaklar arasında ağ yöneticileri, Azure yöneticileri, Active Directory yöneticileri, Azure portalı yöneticileri ve diğerleri yer alabilir.
  • Depolama hesaplarına erişim de dahil olmak üzere tüm gerekli Azure hizmetleri kaynaklarının sağlandığından ve gerekli erişim düzeyinin verildiğinden emin olun.
  • POC kapsamındaki tüm veri kaynaklarından veri almak için gerekli veri erişim izinlerine sahip bir hesabınız olduğundan emin olun.

Tavsiye

POC'nize yardımcı olması için bir uzman danışmanıyla etkileşime geçilmesi önerilir. Microsoft'un iş ortağı topluluğu , Azure Synapse'i değerlendirmenize, değerlendirmenize veya uygulamanıza yardımcı olabilecek uzman danışmanların küresel kullanılabilirliğine sahiptir.

Zaman çizelgesini ayarlama

POC'nizin zaman dilimini belirlemek için POC planlama ayrıntılarınızı ve iş gereksinimlerinizi gözden geçirin. POC hedeflerini tamamlamak için gereken süreyle ilgili gerçekçi tahminler yapın. POC'nizi tamamlama süresi POC veri kümenizin boyutundan, testlerin sayısı ve karmaşıklığından ve test edilecek arabirim sayısından etkilenir. POC'nizin dört haftadan uzun süre çalışacağını tahmin ediyorsanız, en yüksek öncelikli hedeflere odaklanmak için POC kapsamını azaltmayı göz önünde bulundurun. Devam etmeden önce tüm ana kaynaklardan ve sponsorlardan onay ve taahhüt almayı unutmayın.

POC'yi uygulamaya alma

POC projenizi herhangi bir üretim projesinin disiplini ve titizliğiyle yürütmenizi öneririz. POC kapsamının kontrolsüz büyümesini önlemek için projeyi planlayın ve bir değişiklik isteği süreci yönetin.

Üst düzey görevlere bazı örnekler aşağıda verilmiştir:

  1. Create a Synapse workspace, storage accounts, and the Azure resources identified in the POC plan.
  2. ve güvenliği gereksinimlerinize göre ayarlayın.
  3. POC ekip üyelerine uygun erişim izni verin. See this article about permissions for accessing files directly from Azure Storage.
  4. Load the POC dataset.
  5. Implement and configure the tests and/or migrate existing code to serverless SQL pool scripts and views.
  6. Execute the tests:
    • Many tests can be executed in parallel.
    • Sonuçlarınızı tüketilebilir ve kolayca anlaşılabilen bir biçimde kaydedin.
  7. Sorun giderme ve performans için izleyin.
  8. Evaluate your results and present findings.
  9. Work with technical stakeholders and the business to plan for the next stage of the project. The next stage could be a follow-up POC or a production implementation.

POC sonuçlarını yorumlama

Tüm POC testlerini tamamladığınızda sonuçları değerlendirirsiniz. POC hedeflerinin karşılanıp karşılanmadığını ve istenen çıktıların toplanıp toplanmadığını değerlendirerek başlayın. Daha fazla test gerekip gerekmediğini veya herhangi bir sorunun ele alınması gerekip gerekmediğini belirleyin.

Sonraki adımlar