Azure Data Factory veya Synapse Analytics kullanarak Web tablosundan veri kopyalama

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Bu makalede, Web tablosu veritabanından veri kopyalamak için Azure Data Factory veya Synapse Analytics işlem hattında Kopyalama Etkinliği'nin nasıl kullanılacağı özetlenmiştir. Kopyalama etkinliğine genel bir bakış sunan makale üzerine inşa eder.

Bu Web tablosu bağlayıcısı, REST bağlayıcısı ve HTTP bağlayıcısı arasındaki fark şunlardır:

  • Web tablosu bağlayıcısı, bir HTML web sayfasından tablo içeriğini ayıklar.
  • REST bağlayıcısı , RESTful API'lerinden veri kopyalamayı özellikle destekler.
  • HTTP bağlayıcısı , herhangi bir HTTP uç noktasından veri almak için geneldir; örneğin dosyayı indirmek için.

Desteklenen özellikler

Bu Web tablosu bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR
Kopyalama etkinliği (kaynak/-) (2)
Arama etkinliği (2)

(1) Azure tümleştirme çalışma zamanı (2) Yerel barındırılan tümleştirme çalışma zamanı

Kaynak/havuz olarak desteklenen veri depolarının listesi için Desteklenen veri depoları tablosuna bakın.

Özellikle, bu Web tablosu bağlayıcısı bir HTML sayfasından tablo içeriğini ayıklamayı destekler.

Önkoşullar

Bu Web tablosu bağlayıcısını kullanmak için Kendi kendine barındırılan bir Integration Runtime ayarlamanız gerekir. Ayrıntılar için Self tarafından barındırılan Integration Runtime makalesine bakın.

** Başlarken

Kopyalama etkinliğini bir işlem hattıyla gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Web Tablosuna bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde Web Tablosuna bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızdaki Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

     Azure Data Factory UI ile yeni bir bağlı hizmet oluşturun.

  2. Web'i arayın ve Web Tablosu bağlayıcısını seçin.

    Web Tablosu bağlayıcısını seçin.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Web Tablosu'na bağlı bir hizmet yapılandırın.

Bağlayıcı yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Web tablosu bağlayıcısına özgü Data Factory varlıklarını tanımlamak için kullanılan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

Web tablosu bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tip Tür özelliği şu şekilde ayarlanmalıdır: Web Yes
url Web kaynağının URL'si Yes
kimlik doğrulama türü İzin verilen değer: Anonim. Yes
connectVia Veri deposuna bağlanmak için kullanılacak Integration Runtime. Kendi kendine barındırılan Integration Runtime, Önkoşullar bölümünde belirtildiği gibi gereklidir. Yes

Örnek:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için veri kümeleri makalesine bakın. Bu bölümde, Web tablosu veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Web tablosundan veri kopyalamak için veri kümesinin tür özelliğini WebTable olarak ayarlayın. Aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tip Veri kümesinin tür özelliği şu şekilde ayarlanmalıdır: WebTable Yes
yol Tabloyu içeren kaynağın göreli URL'si. Hayır Yol belirtilmediğinde, yalnızca bağlı hizmet tanımında belirtilen URL kullanılır.
indeks Kaynaktaki tablonun dizini. HTML sayfasındaki bir tablonun dizinini alma adımları için bkz . HTML sayfasında tablonun dizinini alma bölümü. Yes

Örnek:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Kopyalama etkinliği özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Pipelines makalesine bakın. Bu bölüm, Web tablosu kaynağı tarafından desteklenen özelliklerin listesini sağlar.

Kaynak olarak web tablosu

Web tablosundan veri kopyalamak için kopyalama etkinliğindeki kaynak türünü WebSource olarak ayarlayın; ek özellik desteklenmez.

Örnek:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

HTML sayfasındaki bir tablonun dizinini alma

dataset properties içinde yapılandırmanız gereken tablonun dizinini almak için, örneğin Excel 2016 araç olarak aşağıdaki gibi kullanabilirsiniz:

  1. Excel 2016 başlatın ve Data sekmesine geçin.

  2. Araç çubuğunda Yeni Sorgu'ya tıklayın, Diğer Kaynaklardan'ın üzerine gelin ve Web'den'e tıklayın.

    Power Query menüsü

  3. Web'den iletişim kutusunda, bağlı hizmet JSON'unda kullanacağınız URL'yi URL (örneğin: https://en.wikipedia.org/wiki/) ile veri kümesi için belirteceğiniz yolu (örneğin: AFI%27s_100_Years...100_Movies) girin ve Tamam'a tıklayın.

    Web'den iletişim kutusu

    Bu örnekte kullanılan URL: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Access Web içeriği iletişim kutusunu görürseniz, doğru URL'yi, kimlik doğrulamayı seçin ve Bağlan'a tıklayın.

    Web içeriğine erişme iletişim kutusu

  5. Tablodaki içeriği görmek için ağaç görünümünde bir tablo öğesine tıklayın ve ardından alttaki Düzenle düğmesine tıklayın.

    Gezgin iletişim kutusu

  6. Sorgu Düzenleyicisi penceresinde, araç çubuğundaki Gelişmiş Düzenleyici düğmesine tıklayın.

    Gelişmiş Düzenleyici düğmesi

  7. Gelişmiş Düzenleyici iletişim kutusunda, "Kaynak" öğesinin yanındaki sayı dizindir.

    Gelişmiş Düzenleyici - Dizin

Excel 2013 kullanıyorsanız, ayrıntılar için Bir web sayfasına bağlan makalesini kullanın. Microsoft Power BI for Desktop kullanıyorsanız adımlar benzerdir.

Arama etkinliği özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için Arama etkinliği'ne bakın.

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz . desteklenen veri depoları.