Aracılığıyla paylaş


Synapse POC playbook'u: Azure Synapse Analytics'te sunucusuz SQL havuzuyla veri gölü keşfi

Bu makalede sunucusuz SQL havuzu için etkili bir Azure Synapse Analytics kavram kanıtı (POC) projesi hazırlamaya ve çalıştırmaya yönelik üst düzey bir metodoloji sunun.

Dekont

Bu makale, Azure Synapse kavram kanıtı playbook makale serisinin bir bölümünü oluşturur. Seriye genel bakış için bkz . Azure Synapse kavram kanıtı playbook'u.

POC için hazırlanma

POC projesi, Azure Synapse'te sunucusuz SQL havuzundan yararlanan bulut tabanlı bir platformda büyük veri ve gelişmiş analiz ortamı uygulama konusunda bilinçli bir iş kararı alma konusunda size yardımcı olabilir. Veri gölündeki verileri keşfetmeniz veya elde etmeniz ya da mevcut veri dönüştürme işlem hattınızı iyileştirmeniz gerekiyorsa sunucusuz SQL havuzunu kullanmaktan yararlanabilirsiniz. Aşağıdaki senaryolar için uygundur:

  • Temel bulma ve araştırma: Veri gölünüzde çeşitli biçimlerde (Parquet, CSV, JSON) depolanan veriler hakkında hızlı bir neden seçip bu verilerden elde edilen içgörülerin kilidini nasıl açabileceğinizi planlayabilirsiniz.
  • Mantıksal veri ambarı: Verilerinizi yeniden konumlandırmadan veya dönüştürmeden ham veya farklı verilerin üzerine ilişkisel bir soyutlama oluşturarak verilerinizin her zaman güncel bir görünümünü sağlayın.
  • Veri dönüştürme: T-SQL kullanarak basit, ölçeklenebilir ve yüksek performanslı veri gölü sorguları çalıştırın. Sorgu sonuçlarını iş zekası (BI) araçlarına besleyebilir veya ilişkisel veritabanına yükleyebilirsiniz. Hedef sistemler Azure Synapse ayrılmış SQL havuzlarını veya Azure SQL Veritabanı içerebilir.

Sunucusuz SQL havuzundan farklı profesyonel roller yararlanabilir:

  • Veri mühendisleri veri gölünü keşfedebilir, sunucusuz SQL havuzunu kullanarak verileri dönüştürebilir ve hazırlayabilir ve veri dönüştürme işlem hatlarını basitleştirebilir.
  • Veri bilimciler, OPENROWSET T-SQL işlevini ve otomatik şema çıkarımı kullanarak veri gölünde depolanan verilerin içeriği ve yapısı hakkında hızla neden olabilir.
  • Veri analistleri tercih ettikleri sorgu araçlarına T-SQL sorguları yazabilir ve bu sorgular sunucusuz SQL havuzuna bağlanabilir. Veri bilimciler veya veri mühendisleri tarafından oluşturulan Spark dış tablolarındaki verileri inceleyebilirler.
  • BI uzmanları data lake veya Spark tablolarına bağlanan Power BI raporlarını hızla oluşturabilir.

Sunucusuz SQL havuzu POC projesi, sunucusuz SQL havuzunun desteklemek üzere tasarlandığı temel hedeflerinizi ve iş sürücülerinizi belirler. Ayrıca uygulama kararlarınızı desteklemek için temel özellikleri test eder ve ölçümler toplar. POC, üretim ortamına dağıtılacak şekilde tasarlanmamıştır. Bunun yerine, önemli sorulara odaklanan kısa vadeli bir projedir ve sonucu atılabilir.

Sunucusuz SQL Havuzu POC projenizi planlamaya başlamadan önce:

  • Kuruluşunuzun verileri buluta taşımayla ilgili tüm kısıtlamalarını veya yönergelerini belirleyin.
  • Büyük veri ve gelişmiş analiz platformu projesi için yönetici veya iş sponsorlarını belirleme. Buluta geçiş için desteklerinin güvenliğini sağlayın.
  • POC yürütmesi sırasında sizi destekleyecek teknik uzmanların ve iş kullanıcılarının kullanılabilirliğini belirleyin.

POC projesine hazırlanmaya başlamadan önce sunucusuz SQL havuzu belgelerini okumanızı öneririz.

Bahşiş

Sunucusuz SQL havuzlarında yeniyseniz Azure Synapse sunucusuz SQL havuzlarını kullanarak veri analizi çözümleri oluşturma öğrenme yolu üzerinden çalışmanızı öneririz.

Hedefleri belirleme

Başarılı bir POC projesi planlama gerektirir. Gerçek motivasyonları tam olarak anlamak için neden poc yaptığınızı belirleyerek başlayın. Motivasyonlar arasında modernleştirme, maliyet tasarrufu, performans geliştirme veya tümleşik deneyim sayılabilir. POC'nizin net hedeflerini ve başarısını tanımlayacak ölçütleri belgelemeye özen gösterin. Kendinize sorun:

  • POC'nizin çıktıları olarak ne istiyorsunuz?
  • Bu çıkışlarla ne yapacaksınız?
  • Çıkışları kimler kullanacak?
  • Başarılı bir POC'nin tanımlaması nedir?

PoC'nin sınırlı bir kavram ve yetenek kümesini hızla kanıtlamak için kısa ve odaklanmış bir çaba olması gerektiğini unutmayın. Bu kavramlar ve özellikler, genel iş yükünü temsil etmelidir. Kanıtlayacak uzun bir öğe listenize sahipseniz, birden fazla POC planlamak isteyebilirsiniz. Bu durumda, bir sonrakiyle devam etmeniz gerekip gerekmediğini belirlemek için POC'ler arasındaki geçitleri tanımlayın. Sunucusuz SQL havuzu kullanabilen farklı profesyonel roller (ve sunucusuz SQL havuzunun desteklediği farklı senaryolar) göz önünde bulundurulduğunda, birden çok POC yürütmeyi seçebilirsiniz. Örneğin, bir POC veri bilimcisi rolü için farklı biçimlerde veri bulma ve araştırma gibi gereksinimlere odaklanabilir. Bir diğeri de veri dönüştürme ve mantıksal veri ambarı oluşturma gibi veri mühendisliği rolü gereksinimlerine odaklanabilir.

POC hedeflerinizi göz önünde bulundurarak hedefleri şekillendirmenize yardımcı olmak için kendinize aşağıdaki soruları sorun:

  • Mevcut büyük veri ve gelişmiş analiz platformundan (şirket içi veya bulut) geçiş mi gerçekleştiriyorsunuz?
  • Geçiş yapıyor ancak mevcut alım ve veri işlemede mümkün olduğunca az değişiklik yapmak mı istiyorsunuz?
  • Geçiş yapıyor ancak yol boyunca bazı kapsamlı geliştirmeler yapmak mı istiyorsunuz?
  • Tamamen yeni bir büyük veri ve gelişmiş analiz platformu (greenfield projesi) mi oluşturuyorsunuz?
  • Şu anki ağrı noktalarınız nelerdir? Örneğin, ölçeklenebilirlik, performans veya esneklik.
  • Hangi yeni iş gereksinimlerini desteklemeniz gerekiyor?
  • Karşılamanız gereken SLA'lar nelerdir?
  • İş yükleri ne olacak? Örneğin, farklı veri biçimleri üzerinde veri keşfi, temel keşif, mantıksal veri ambarı, veri hazırlama ve/veya dönüştürme, T-SQL etkileşimli analizi, Spark tablolarının T-SQL sorgulaması veya veri gölü üzerinden sorguları raporlama.
  • Projenin sahibi olacak kullanıcıların becerileri nelerdir (POC uygulanmalıdır)?

POC hedef ayarına bazı örnekler aşağıda verilmiştir:

  • Neden poc yapıyoruz?
    • Sunucusuz SQL havuzunu kullanarak depoladığımız tüm ham dosya biçimlerini keşfedip keşfedebileceğimizi bilmemiz gerekir.
    • Veri mühendislerimizin yeni veri akışlarını hızla değerlendirip değerlendiremediğini bilmemiz gerekir.
    • Sunucusuz SQL havuzu kullanarak Data Lake sorgu performansının veri keşfi gereksinimlerimizi karşılayabilecek olup olmadığını bilmemiz gerekir.
    • Sunucusuz SQL havuzunun bazı görselleştirmelerimiz ve raporlama gereksinimlerimiz için iyi bir seçim olup olmadığını bilmemiz gerekir.
    • Sunucusuz SQL havuzunun veri alımı ve işleme gereksinimlerimizden bazıları için iyi bir seçim olup olmadığını bilmemiz gerekir.
    • Azure Synapse'e geçişimizin bütçemize uygun olup olmadığını bilmemiz gerekiyor.
  • Bu PoC'nin sonunda:
    • Sunucusuz SQL havuzuna uygun veri dönüştürmelerini tanımlamak için verilerimiz olacak.
    • Veri görselleştirmesi sırasında sunucusuz SQL havuzunun en iyi şekilde ne zaman kullanılabileceğini belirleyecek verilere sahip olacağız.
    • Veri mühendislerimizin ve veri bilim adamlarımızın yeni platformu benimseme kolaylığı konusunda bilgi sahibi olacağız.
    • Uygulama veya geçiş projesini tamamlamak için gereken çabayı daha iyi tahmin etmeye yönelik içgörüler elde etmiş olacağız.
    • Daha fazla teste ihtiyaç duyabilecek öğelerin bir listesi olacak.
    • PoC'miz gerekli verilere sahipsek ve sunucusuz SQL havuzunun bulut tabanlı büyük veri ve gelişmiş analiz platformumuzu nasıl destekleneceğini belirlemek için belirlenen testi tamamladıysak başarılı olur.
    • Bir sonraki aşamaya geçebileceğimizi veya kararımızı sonlandırmak için daha fazla POC testi gerekip gerekmediğini belirleyeceğiz.
    • Belirli veri noktaları tarafından desteklenen sağlam bir iş kararı alacaktır.

Projeyi planlama

Belirli testleri tanımlamak ve tanımladığınız çıkışları sağlamak için hedeflerinizi kullanın. Her hedefi ve beklenen çıkışı desteklemek için en az bir teste sahip olduğunuzdan emin olmak önemlidir. Ayrıca, test etmek istediğiniz belirli veri araştırma ve analiz görevlerini, belirli dönüştürmeleri ve belirli mevcut işlemleri tanımlayın. Kullanabileceğiniz belirli bir veri kümesini ve kod tabanını belirleyin.

Planlamada gereken ayrıntı düzeyine bir örnek aşağıda verilmiştir:

  • Hedef: Veri mühendislerinin gerekli SLA içinde "Günlük Batch Ham Dosya Doğrulaması" adlı mevcut ETL işleminin eşdeğer işlemesine ulaşıp ulaşamayacağını bilmemiz gerekir.
  • Çıktı: Gerekli SLA içinde "Günlük Batch Ham Dosya Doğrulama" ETL işlemini yürütmek için T-SQL sorgularını kullanıp kullanamayacağımızı belirleyen verilere sahip olacağız.
  • Test: A, B ve C doğrulama sorguları veri mühendisliği tarafından tanımlanır ve genel veri işleme gereksinimlerini temsil ederler. Bu sorguların performansını mevcut sistemden elde edilen karşılaştırmayla karşılaştırın.

POC veri kümesini değerlendirme

Tanımladığınız belirli testleri kullanarak testleri desteklemek için bir veri kümesi seçin. Bu veri kümesini gözden geçirmek için zaman ayır. Veri kümesinin içerik, karmaşıklık ve ölçek açısından gelecekteki işlemlerinizi yeterince temsil ettiğini doğrulamanız gerekir. Temsili performans sunmayacağı için çok küçük bir veri kümesi kullanmayın. Buna karşılık poc tam veri geçişi olmamalıdır çünkü çok büyük bir veri kümesi kullanmayın. Performans karşılaştırmaları için kullanabilmeniz için mevcut sistemlerden uygun karşılaştırmaları edindiğinizden emin olun.

Önemli

Verileri buluta taşımadan önce işletme sahiplerine engelleyicileri denetlediğinizden emin olun. Verileri buluta taşımadan önce yapılması gereken güvenlik veya gizlilik endişelerini veya veri gizleme gereksinimlerini belirleyin.

Üst düzey mimari oluşturma

Önerilen gelecekteki durum mimarinizin üst düzey mimarisine bağlı olarak, POC'nizin bir parçasını oluşturacak bileşenleri belirleyin. Gelecekteki üst düzey durum mimariniz büyük olasılıkla birçok veri kaynağı, çok sayıda veri tüketicisi, büyük veri bileşeni ve makine öğrenmesi ile yapay zeka (AI) veri tüketicileri içerir. POC mimariniz özellikle POC'nin parçası olacak bileşenleri tanımlamalıdır. Daha da önemlisi, POC testinin bir parçası olmayacak bileşenleri tanımlamalıdır.

Zaten Azure kullanıyorsanız, POC sırasında kullanabileceğiniz tüm kaynakları (Microsoft Entra ID, ExpressRoute ve diğerleri) tanımlayın. Ayrıca kuruluşunuzun kullandığı Azure bölgelerini de belirleyin. Şimdi ExpressRoute bağlantınızın aktarım hızını belirlemek ve diğer iş kullanıcılarıyla POC'nizin üretim sistemlerini olumsuz etkilemeden bu aktarım hızının bir kısmını tüketebileceğini denetlemek için harika bir zamandır.

POC kaynaklarını tanımlama

POC'nizi desteklemek için gereken teknik kaynakları ve zaman taahhütlerini özel olarak belirleyin. POC'niz için gerekenler:

  • Gereksinimleri ve sonuçları denetlemek için bir iş temsilcisi.
  • PoC verilerini kaynak olarak kullanan ve mevcut süreçler ve mantık hakkında bilgi sağlayan bir uygulama veri uzmanı.
  • Sunucusuz bir SQL havuzu uzmanı.
  • POC testlerini iyileştirmek için uzman bir danışman.
  • POC projenizin belirli bileşenleri için gerekli olan ancak POC süresi boyunca gerekli olması gerekmeyen kaynaklar. Bu kaynaklar arasında ağ yöneticileri, Azure yöneticileri, Active Directory yöneticileri, Azure portalı yöneticileri ve diğerleri yer alabilir.
  • Depolama hesaplarına erişim de dahil olmak üzere tüm gerekli Azure hizmetleri kaynaklarının sağlandığından ve gerekli erişim düzeyinin verildiğinden emin olun.
  • POC kapsamındaki tüm veri kaynaklarından veri almak için gerekli veri erişim izinlerine sahip bir hesabınız olduğundan emin olun.

Bahşiş

POC'nize yardımcı olması için bir uzman danışmanıyla etkileşime geçilmesi önerilir. Microsoft'un iş ortağı topluluğu , Azure Synapse'i değerlendirmenize, değerlendirmenize veya uygulamanıza yardımcı olabilecek uzman danışmanların küresel kullanılabilirliğine sahiptir.

Zaman çizelgesini ayarlama

POC'nizin zaman dilimini belirlemek için POC planlama ayrıntılarınızı ve iş gereksinimlerinizi gözden geçirin. POC hedeflerini tamamlamak için gereken süreyle ilgili gerçekçi tahminler yapın. POC'nizi tamamlama süresi POC veri kümenizin boyutundan, testlerin sayısı ve karmaşıklığından ve test edilecek arabirim sayısından etkilenir. POC'nizin dört haftadan uzun süre çalışacağını tahmin ediyorsanız, en yüksek öncelikli hedeflere odaklanmak için POC kapsamını azaltmayı göz önünde bulundurun. Devam etmeden önce tüm müşteri aday kaynaklarından ve sponsorlardan onay ve taahhüt almayı unutmayın.

POC'yi uygulamaya alma

POC projenizi herhangi bir üretim projesinin disiplini ve titizliğiyle yürütmenizi öneririz. POC kapsamının kontrolsüz büyümesini önlemek için projeyi planlayın ve bir değişiklik isteği süreci yönetin.

Üst düzey görevlere bazı örnekler aşağıda verilmiştir:

  1. PoC planında tanımlanan bir Synapse çalışma alanı, depolama hesapları ve Azure kaynakları oluşturun.
  2. Ağ ve güvenliği gereksinimlerinize göre ayarlayın.
  3. POC ekip üyelerine uygun erişim izni verin. Dosyalara doğrudan Azure Depolama'dan erişme izinleri hakkında bu makaleye bakın.
  4. POC veri kümesini yükleyin.
  5. Testleri uygulayın ve yapılandırın ve/veya mevcut kodu sunucusuz SQL havuzu betiklerine ve görünümlerine geçirin.
  6. Testleri yürüt:
    • Birçok test paralel olarak yürütülebilir.
    • Sonuçlarınızı tüketilebilir ve kolayca anlaşılabilen bir biçimde kaydedin.
  7. Sorun giderme ve performans için izleyin.
  8. Sonuçlarınızı değerlendirin ve bulgularınızı sunun.
  9. Projenin bir sonraki aşamasını planlamak için teknik paydaşlarla ve işletmeyle birlikte çalışın. Sonraki aşama bir izleme POC'sı veya üretim uygulaması olabilir.

POC sonuçlarını yorumlama

Tüm POC testlerini tamamladığınızda sonuçları değerlendirirsiniz. POC hedeflerinin karşılanıp karşılanmadığını ve istenen çıkışların toplanıp toplanmadığını değerlendirerek başlayın. Daha fazla test gerekip gerekmediğini veya herhangi bir sorunun ele alınması gerekip gerekmediğini belirleyin.

Sonraki adımlar