使用 Azure Data Factory 或 Synapse Analytics 從 Web 資料表複製資料

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

本文概述如何使用 Azure Data Factory 或 Synapse Analytics 管線中的複製活動,從 Web 資料表複製資料。 本文是根據複製活動概觀一文,該文提供複製活動的一般概觀。

此 Web 資料表連接器、REST 連接器HTTP 連接器之間的差異如下:

  • Web 資料表連接器從 HTML 網頁擷取資料表內容。
  • REST 連接器專門支援從 RESTful API 複製資料。
  • HTTP 連接器一般用來從任何 HTTP 端點擷取資料,例如下載檔案。

支援的功能

此 Web 資料表連接器支援下列功能:

支援的功能 IR
複製活動 (來源/-)
查閱活動

① Azure 整合執行階段 ② 自我裝載整合執行階段

如需支援做為來源/接收器的資料存放區清單,請參閱支援的資料存放區表格。

具體而言,這個 Web 資料表連接器支援從 HTML 頁面擷取資料表內容

必要條件

若要使用此 Web 資料表連接器,您需要設定「自我裝載 Integration Runtime」。 如需詳細資料,請參閱自我裝載 Integration Runtime 一文。

開始使用

若要透過管線執行複製活動,您可以使用下列其中一個工具或 SDK:

使用 UI 建立連結至 Web 資料表的服務

使用下列步驟,在 Azure 入口網站 UI 中建立連結至 Web 資料表的服務。

  1. 前往 Azure Data Factory 或 Synapse 工作區的 [管理] 索引標籤,選取 [連結服務],然後按一下 [新增]:

  2. 搜尋 Web 並選取 [Web 資料表連接器]。

    Select the Web Table connector.

  3. 設定服務詳細資料,測試連線,然後建立新的連結服務。

    Configure a linked service to Web Table.

連接器設定詳細資料

下列各節提供屬性的相關詳細資料,這些屬性是用來定義 Web 資料表連接器專屬的 Data Factory 實體。

連結服務屬性

以下是針對 Web 資料表已連結服務支援的屬性:

屬性 描述 必要
type 類型屬性必須設為: Web Yes
URL Web 來源的 URL Yes
authenticationType 允許的值為:Anonymous (匿名)。 Yes
connectVia 用於連線到資料存放區的 Integration Runtime。 如必要條件所述,必須要有一個「自我裝載 Integration Runtime」。 Yes

範例:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

資料集屬性

如需可用來定義資料集的區段和屬性完整清單,請參閱資料集一文。 本節提供 Web 資料表資料集所支援的屬性清單。

若要從 Web 資料表複製資料,請將資料集的類型屬性設定為 WebTable。 以下是支援的屬性:

屬性 描述 必要
type 資料集的類型屬性必須設定為:WebTable Yes
path 包含資料表之資源的相對 URL。 否。 當路徑未指定時,則只會使用在連結服務定義中指定的 URL。
index 資源中資料表的索引。 如需如何取得 HTML 網頁中資料表索引的步驟,請參閱 取得 HTML 網頁中資料表的索引 一節。 Yes

範例:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

複製活動屬性

如需可用來定義活動的區段和屬性完整清單,請參閱管線一文。 本節提供 Web 資料表來源所支援的屬性清單。

Web 資料表作為來源

若要從 Web 資料表複製資料,請將複製活動中的來源類型設定為 WebSource,不支援任何其他屬性。

範例:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

取得 HTML 網頁中資料表的索引

若要取得您要在資料集屬性中設定的資料表索引,可以使用 Excel 2016 等軟體 (如下所示) 做為工具:

  1. 啟動 Excel 2016,然後切換到 [資料] 索引標籤。

  2. 按一下工具列上的 [開新查詢]、指向 [從其他來源],然後按一下 [從 Web]

    Power Query menu

  3. 在 [從 Web] 對話方塊中,輸入您要在連結服務 JSON 中使用的 URL (例如:https://en.wikipedia.org/wiki/),以及您為資料集指定的路徑 (例如:AFI%27s_100_Years...100_Movies),然後按一下 [確定]

    From Web dialog

    此範例使用的 URL:https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. 當您看到 [存取 Web 內容] 對話方塊時,選取右側的 URL驗證方式,然後按一下 [連線]

    Access Web content dialog box

  5. 按一下樹狀檢視中的某個資料表項目來查看資料表內容,然後按一下底部的 [編輯] 按鈕。

    Navigator dialog

  6. 在 [查詢編輯器] 視窗中,按一下工具列上的 [進階編輯器] 按鈕。

    Advanced Editor button

  7. 在 [進階編輯器] 對話方塊中,「Source」旁的數字就是索引。

    Advanced Editor - Index

如果您使用的是 Excel 2013,請使用 Microsoft Power Query for Excel 來取得索引。 如需詳細資訊,請參閱 連線至網頁 一文。 如果您使用 Microsoft Power BI for Desktop,步驟就很類似。

查閱活動屬性

若要了解屬性的詳細資料,請參閱查閱活動

如需複製活動支援作為來源和接收器的資料存放區清單,請參閱支援的資料存放區