Azure Data Factory ve Azure Synapse Analytics'teki veri kümeleri

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede veri kümelerinin ne olduğu, JSON biçiminde nasıl tanımlandığı ve Azure Data Factory ve Synapse işlem hatlarında nasıl kullanıldığı açıklanmaktadır.

Data Factory'yi yeni kullanıyorsanız genel bakış için bkz . Azure Data Factory'ye giriş. Azure Synapse hakkında daha fazla bilgi için bkz. Azure Synapse nedir?

Genel Bakış

Azure Data Factory veya Synapse çalışma alanında bir veya daha fazla işlem hattı olabilir. İşlem hattı, bir görevi birlikte gerçekleştiren etkinliklerin mantıksal bir gruplandırmasıdır. İşlem hattındaki etkinlikler, verilerinizde gerçekleştirilecek eylemleri tanımlar. Artık veri kümesi, etkinliklerinizde kullanmak istediğiniz verileri giriş ve çıkış olarak işaret eden veya bunlara başvuran adlandırılmış bir veri görünümüdür. Veri kümeleri tablolar, dosyalar, klasörler ve belgeler gibi farklı veri depolarındaki verileri tanımlar. Örneğin Azure Blob veri kümesi, blob kapsayıcısını ve etkinliğin verileri okuması gereken Blob Depolama klasörünü belirtir.

Veri kümesi oluşturmadan önce, veri deponuzu hizmete bağlamak için bağlı bir hizmet oluşturmanız gerekir. Bağlı hizmetler, hizmetin dış kaynaklara bağlanması için gereken bağlantı bilgilerini tanımlayan bağlantı dizesi benzer. Bu şekilde düşünün; veri kümesi, bağlı veri depoları içindeki verilerin yapısını temsil eder ve bağlı hizmet veri kaynağına bağlantıyı tanımlar. Örneğin, Azure Depolama bağlı hizmeti bir depolama hesabını bağlar. Azure Blob veri kümesi, işlenecek giriş bloblarını içeren blob kapsayıcısını ve bu Azure Depolama hesabındaki klasörü temsil eder.

Örnek bir senaryo aşağıda verilmiştır. Blob depolamadan SQL Veritabanı veri kopyalamak için iki bağlı hizmet oluşturursunuz: Azure Blob Depolama ve Azure SQL Veritabanı. Ardından iki veri kümesi oluşturun: Sınırlandırılmış Metin veri kümesi (kaynak olarak metin dosyalarınız olduğu varsayılarak Azure Blob Depolama bağlı hizmete başvurur) ve Azure SQL Tablo veri kümesi (Azure SQL Veritabanı bağlı hizmete başvurur). Azure Blob Depolama ve Azure SQL Veritabanı bağlı hizmetler, hizmetin azure Depolama ve Azure SQL Veritabanı bağlanmak için çalışma zamanında kullandığı bağlantı dizesi içerir. Sınırlandırılmış Metin veri kümesi, Blob Depolama giriş bloblarını içeren blob kapsayıcısını ve blob klasörünü ve biçimle ilgili ayarları belirtir. Azure SQL Tablosu veri kümesi, SQL Veritabanı verilerin kopyalandığı SQL tablosunu belirtir.

Aşağıdaki diyagramda işlem hattı, etkinlik, veri kümesi ve bağlı hizmetler arasındaki ilişkiler gösterilmektedir:

Relationship between pipeline, activity, dataset, linked services

Kullanıcı arabirimiyle veri kümesi oluşturma

Azure Data Factory Studio ile veri kümesi oluşturmak için Yazar sekmesini (kalem simgesiyle) ve ardından artı işareti simgesini seçerek Veri Kümesi'ni seçin.

Shows the Author tab of the Azure Data Factory Studio with the new dataset button selected.

Mevcut veya yeni bir bağlı hizmeti ayarlamak için Azure Data Factory'de kullanılabilen bağlayıcılardan herhangi birini seçmek için yeni veri kümesi penceresini görürsünüz.

Shows the new dataset window where you can choose the type of linked service to any of the supported data factory connectors.

Ardından veri kümesi biçimini seçmeniz istenir.

Shows the dataset format window allowing you to choose a format for the new dataset.

Son olarak, veri kümesi için seçtiğiniz türde mevcut bir bağlı hizmeti seçebilir veya henüz tanımlanmamışsa yeni bir hizmet oluşturabilirsiniz.

Shows the set properties window where you can choose an existing dataset of the type selected previously, or create a new one.

Veri kümesini oluşturduktan sonra Azure Data Factory'deki tüm işlem hatlarında kullanabilirsiniz.

Veri kümesi JSON

Veri kümesi aşağıdaki JSON biçiminde tanımlanır:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Aşağıdaki tabloda yukarıdaki JSON'daki özellikler açıklanmaktadır:

Özellik Açıklama Gerekli
name Veri kümesinin adı. Bkz . Adlandırma kuralları. Evet
type Veri kümesinin türü. Data Factory tarafından desteklenen türlerden birini belirtin (örneğin: DelimitedText, AzureSqlTable).

Ayrıntılar için bkz . Veri kümesi türleri.
Evet
schema Veri kümesinin şeması, fiziksel veri türünü ve şeklini temsil eder. No
typeProperties Tür özellikleri her tür için farklıdır. Desteklenen türler ve özellikleri hakkında ayrıntılı bilgi için bkz . Veri kümesi türü. Evet

Veri kümesinin şemasını içeri aktardığınızda Şemayı İçeri Aktar düğmesini seçin ve kaynaktan veya yerel bir dosyadan içeri aktarmayı seçin. Çoğu durumda şemayı doğrudan kaynaktan içeri aktarırsınız. Ancak zaten bir yerel şema dosyanız (üst bilgi içeren bir Parquet dosyası veya CSV) varsa, hizmeti şemayı bu dosyaya dayandırmaya yönlendirebilirsiniz.

Kopyalama etkinliğinde veri kümeleri kaynak ve havuz içinde kullanılır. Veri kümesinde tanımlanan şema, başvuru olarak isteğe bağlıdır. Kaynak ve havuz arasında sütun/alan eşlemesi uygulamak istiyorsanız Şema ve tür eşlemesine bakın.

Veri Akışı'de veri kümeleri kaynak ve havuz dönüşümlerinde kullanılır. Veri kümeleri temel veri şemalarını tanımlar. Verilerinizde şema yoksa, kaynağınız ve havuzunuz için şema kayması kullanabilirsiniz. Veri kümelerinden alınan meta veriler, kaynak dönüştürmenizde kaynak projeksiyonu olarak görünür. Kaynak dönüştürmedeki projeksiyon, tanımlı adlara ve türlere sahip Veri Akışı verilerini temsil eder.

Veri kümesi türü

Hizmet, kullandığınız veri depolarına bağlı olarak birçok farklı veri kümesi türünü destekler. Desteklenen veri depolarının listesini Bağlan veya genel bakış makalesinden bulabilirsiniz. Bağlı hizmet ve veri kümesi oluşturmayı öğrenmek için bir veri deposu seçin.

Örneğin, Sınırlandırılmış Metin veri kümesi için veri kümesi türü, aşağıdaki JSON örneğinde gösterildiği gibi DelimitedText olarak ayarlanır:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Veri kümeleri oluşturma

Şu araçlardan veya SDK'lardan birini kullanarak veri kümeleri oluşturabilirsiniz: .NET API, PowerShell, REST API, Azure Resource Manager Şablonu ve Azure portalı

Geçerli sürüm ile sürüm 1 veri kümeleri karşılaştırması

Data Factory geçerli sürümündeki (ve Azure Synapse) veri kümeleri ile eski Data Factory sürüm 1 arasındaki bazı farklar şunlardır:

  • Dış özellik geçerli sürümde desteklenmiyor. Bir tetikleyici ile değiştirilir.
  • İlke ve kullanılabilirlik özellikleri geçerli sürümde desteklenmez. İşlem hattının başlangıç zamanı tetikleyicilere bağlıdır.
  • Kapsamı belirlenmiş veri kümeleri (işlem hattında tanımlanan veri kümeleri) geçerli sürümde desteklenmez.

Bu araçlardan veya SDK'lardan birini kullanarak işlem hatları ve veri kümeleri oluşturmaya yönelik adım adım yönergeler için aşağıdaki öğreticiye bakın.