Kopiera data från webbtabellen med hjälp av Azure Data Factory eller Synapse Analytics

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Den här artikeln beskriver hur du använder kopieringsaktiviteten i en Azure Data Factory- eller Synapse Analytics-pipeline för att kopiera data från en webbtabelldatabas. Den bygger på översiktsartikeln för kopieringsaktivitet som visar en allmän översikt över kopieringsaktiviteten.

Skillnaden mellan den här webbtabellanslutningen, REST-anslutningsappen och HTTP-anslutningsappen är:

  • Webbtabell-anslutningsprogram extraherar tabellinnehåll från en HTML-webbsida.
  • REST-anslutningsappen stöder specifikt kopiering av data från RESTful-API:er.
  • HTTP-anslutningsappen är allmän för att hämta data från en HTTP-slutpunkt, t.ex. för att ladda ned filen.

Funktioner som stöds

Den här webbtabellanslutningsappen stöds för följande funktioner:

Funktioner som stöds IR
aktiviteten Kopiera (källa/-)
Sökningsaktivitet

(1) Azure Integration Runtime (2) Lokalt installerad integrationskörning

En lista över datalager som stöds som källor/mottagare finns i tabellen Datalager som stöds.

Mer specifikt stöder den här webbtabellanslutningsappen extrahering av tabellinnehåll från en HTML-sida.

Förutsättningar

Om du vill använda den här webbtabellanslutningsappen måste du konfigurera en lokalt installerad integrationskörning. Mer information finns i artikeln Om lokalt installerad integrationskörning .

Komma igång

Om du vill utföra aktiviteten Kopiera med en pipeline kan du använda något av följande verktyg eller SDK:er:

Skapa en länkad tjänst till webbtabell med hjälp av användargränssnittet

Använd följande steg för att skapa en länkad tjänst till webbtabellen i Användargränssnittet för Azure-portalen.

  1. Bläddra till fliken Hantera i Din Azure Data Factory- eller Synapse-arbetsyta och välj Länkade tjänster och klicka sedan på Ny:

  2. Sök efter webben och välj anslutningsappen webbtabell.

    Select the Web Table connector.

  3. Konfigurera tjänstinformationen, testa anslutningen och skapa den nya länkade tjänsten.

    Configure a linked service to Web Table.

Anslut eller konfigurationsinformation

Följande avsnitt innehåller information om egenskaper som används för att definiera Data Factory-entiteter som är specifika för webbtabellanslutning.

Länkade tjänstegenskaper

Följande egenskaper stöds för länkad webbtabelltjänst:

Property Beskrivning Obligatoriskt
type Typegenskapen måste anges till: Webb Ja
URL URL till webbkällan Ja
authenticationType Tillåtet värde är: Anonym. Ja
connectVia Integration Runtime som ska användas för att ansluta till datalagret. En lokalt installerad integrationskörning krävs enligt vad som anges i Krav. Ja

Exempel:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Egenskaper för datauppsättning

En fullständig lista över avsnitt och egenskaper som är tillgängliga för att definiera datauppsättningar finns i artikeln datauppsättningar . Det här avsnittet innehåller en lista över egenskaper som stöds av webbtabelldatauppsättningen.

Om du vill kopiera data från webbtabellen anger du datauppsättningens typegenskap till WebTable. Följande egenskaper stöds:

Property Beskrivning Obligatoriskt
type Typegenskapen för datamängden måste anges till: WebTable Ja
path En relativ URL till resursen som innehåller tabellen. Nej. När sökvägen inte har angetts används endast den URL som anges i den länkade tjänstdefinitionen.
index Indexet för tabellen i resursen. Se Hämta index för en tabell i ett HTML-sidavsnitt för steg för att hämta index för en tabell på en HTML-sida. Ja

Exempel:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Kopiera egenskaper för aktivitet

En fullständig lista över avsnitt och egenskaper som är tillgängliga för att definiera aktiviteter finns i artikeln Pipelines . Det här avsnittet innehåller en lista över egenskaper som stöds av webbtabellkällan.

Webbtabell som källa

Om du vill kopiera data från webbtabellen anger du källtypen i kopieringsaktiviteten till WebSource. Inga ytterligare egenskaper stöds.

Exempel:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Hämta index för en tabell på en HTML-sida

Om du vill hämta indexet för en tabell som du behöver konfigurera i datauppsättningsegenskaper kan du använda t.ex. Excel 2016 som verktyg på följande sätt:

  1. Starta Excel 2016 och växla till fliken Data .

  2. Klicka på Ny fråga i verktygsfältet, peka på Från andra källor och klicka på Från webben.

    Power Query menu

  3. I dialogrutan Från webben anger du url som du skulle använda i den länkade tjänstenS JSON (till exempel: https://en.wikipedia.org/wiki/) tillsammans med sökvägen som du anger för datauppsättningen (till exempel: AFI%27s_100_Years... 100_Movies) och klicka på OK.

    From Web dialog

    URL som används i det här exemplet: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Om du ser dialogrutan Åtkomst till webbinnehåll väljer du rätt URL, autentisering och klickar på Anslut.

    Access Web content dialog box

  5. Klicka på ett tabellobjekt i trädvyn för att se innehåll från tabellen och klicka sedan på knappen Redigera längst ned.

    Navigator dialog

  6. I Power Query-redigeraren-fönstret klickar du på knappen Avancerad redigerare i verktygsfältet.

    Advanced Editor button

  7. I dialogrutan Avancerad redigerare är talet bredvid "Källa" indexet.

    Advanced Editor - Index

Om du använder Excel 2013 använder du Microsoft Power Query för Excel för att hämta indexet. Mer information finns i artikeln Anslut till en webbsida. Stegen är liknande om du använder Microsoft Power BI för Desktop.

Egenskaper för uppslagsaktivitet

Mer information om egenskaperna finns i Sökningsaktivitet.

En lista över datalager som stöds som källor och mottagare av kopieringsaktiviteten finns i datalager som stöds.