Azure Synapse Analytics terminolojisi
Bu belge, Azure Synapse Analytics'in temel kavramlarında size yol gösterir.
Synapse çalışma alanı, Azure'da bulut tabanlı kurumsal analiz gerçekleştirmeye yönelik güvenli bir işbirliği sınırıdır. Çalışma alanı belirli bir bölgeye dağıtılır ve ilişkili bir ADLS 2. Nesil hesabına ve dosya sistemine sahiptir (geçici verileri depolamak için). Çalışma alanı bir kaynak grubu altındadır.
Çalışma alanı, SQL ve Apache Spark ile analiz gerçekleştirmenizi sağlar. SQL ve Spark analizi için kullanılabilen kaynaklar SQL ve Spark havuzları halinde düzenlenir.
Çalışma alanı, dış kaynaklara bağlanmak için gereken bağlantı bilgilerini tanımlayan herhangi bir sayıda Bağlı hizmet, temelde bağlantı dizeleri içerebilir.
Synapse SQL , Synapse çalışma alanında T-SQL tabanlı analiz gerçekleştirebilme özelliğidir. Synapse SQL iki tüketim modeline sahiptir: ayrılmış ve sunucusuz. Ayrılmış model için ayrılmış SQL havuzlarını kullanın. Bir çalışma alanında bu havuzların herhangi bir sayısı bulunabilir. Sunucusuz modeli kullanmak için sunucusuz SQL havuzlarını kullanın. Her çalışma alanında bu havuzlardan biri bulunur.
Synapse Studio içinde, SQL betiklerini çalıştırarak SQL havuzlarıyla çalışabilirsiniz.
Not
Azure Synapse'deki ayrılmış SQL havuzları, ayrılmış SQL havuzundan (eski adı SQL DW) farklıdır. Azure Synapse çalışma alanlarındaki ayrılmış SQL havuzunun tüm özellikleri ayrılmış SQL havuzuna (eski adıyla SQL DW) uygulanmaz ve tam tersi de geçerlidir. Mevcut ayrılmış SQL havuzu (eski adı SQL DW) için çalışma alanı özelliklerini etkinleştirmek için bkz. Ayrılmış SQL havuzunuz (eski adı SQL DW) için çalışma alanını etkinleştirme.
Spark analizini kullanmak için Synapse çalışma alanınızda sunucusuz Apache Spark havuzları oluşturun ve kullanın. Spark havuzu kullanmaya başladığınızda, çalışma alanları bu oturumla ilişkili kaynakları işlemek için bir Spark oturumu oluşturur.
Synapse içinde Spark'ı kullanmanın iki yolu vardır:
- Veri Bilimi ve Mühendisliği yapmak için Spark Not Defterleri Scala, PySpark, C# ve SparkSQL kullanır
- Jar dosyalarını kullanarak batch Spark işlerini çalıştırmak için Spark iş tanımları.
SynapseML (eski adıyla MMLSpark), yüksek düzeyde ölçeklenebilir makine öğrenmesi (ML) işlem hatlarının oluşturulmasını basitleştiren bir açık kaynak kitaplıktır. Apache Spark çerçevesini birkaç yeni yönde genişletmek için kullanılan bir araç ekosistemidir. SynapseML, mevcut çeşitli makine öğrenmesi çerçevelerini ve yeni Microsoft algoritmalarını Python, R, Scala, .NET ve Java'da kullanılabilen tek, ölçeklenebilir bir API'de birleştirir. Daha fazla bilgi edinmek için SynapseML'nin temel özelliklerine bakın.
İşlem hatları, Azure Synapse' nin Hizmetler arasında veri taşımanıza ve etkinlikleri düzenlemenize olanak sağlayan Veri Tümleştirmesi sağlama yöntemidir.
- İşlem hattı , bir görevi birlikte gerçekleştiren etkinliklerin mantıksal gruplandırmasıdır.
- Etkinlikler, veri kopyalama, Not Defteri veya SQL betiği çalıştırma gibi veriler üzerinde gerçekleştirilecek işlem hattı içindeki eylemleri tanımlar.
- Veri akışları , Synapse Spark'ı arka planda kullanan veri dönüştürme işlemi için kodsuz bir deneyim sağlayan belirli bir etkinlik türüdür.
- Tetikleyici - İşlem hattını yürütür. El ile veya otomatik olarak çalıştırılabilir (zamanlama, atlayan pencere veya olay tabanlı)
- Tümleştirme veri kümesi - Bir etkinlikte giriş ve çıkış olarak kullanılacak verileri işaret eden veya bunlara başvuran verilerin adlandırılmış görünümü. Bir Bağlı Hizmete aittir.
Azure Synapse Veri Gezgini, müşterilere günlük ve telemetri verilerinden içgörü elde etmek için etkileşimli bir sorgu deneyimi sağlar.
- Veri Gezgini havuzları, iyileştirilmiş sorgu performansı için yerel SSD depolama (sık erişimli önbellek) ve kalıcılık için birden çok blob depolama (soğuk önbellek) içeren iki veya daha fazla işlem düğümü içeren ayrılmış kümelerdir.
- Veri Gezgini veritabanları Veri Gezgini havuzlarda barındırılır ve tablo koleksiyonlarından ve diğer veritabanı nesnelerinden oluşan mantıksal varlıklardır. Havuz başına birden fazla veritabanınız olabilir.
- Tablolar , geleneksel ilişkisel veri modeli kullanılarak düzenlenmiş veriler içeren veritabanı nesneleridir. Veriler, Veri Gezgini iyi tanımlanmış tablo şemasına uygun olan ve her sütunun adı ve skaler veri türü olan sıralı sütun listesini tanımlayan kayıtlarda depolanır. Skaler veri türleri yapılandırılmış (int, real, datetime veya timespan), yarı yapılandırılmış (dinamik) veya serbest metin (dize) olabilir. Dinamik tür, tek bir skaler değer, dizi veya bu tür değerlerin sözlüğünü tutabildiği için JSON'a benzer.
- Dış Tablolar, Veri Gezgini veritabanının dışındaki bir depolama alanına veya SQL veri kaynağına başvuran tablolardır. Tablolara benzer şekilde, dış tablonun da iyi tanımlanmış bir şeması vardır (sütun adı ve veri türü çiftlerinin sıralı listesi). Verilerin Veri Gezgini havuzlara alındığı Veri Gezgini tablolarının aksine dış tablolar, havuzların dışında depolanan ve yönetilen veriler üzerinde çalışır. Dış tablolar hiçbir veriyi kalıcı hale getirir ve verileri sorgulamak veya dış veri deposuna aktarmak için kullanılır.