Gegevens kopiëren uit een webtabel met behulp van Azure Data Factory of Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel wordt beschreven hoe u de kopieeractiviteit in een Azure Data Factory- of Synapse Analytics-pijplijn gebruikt om gegevens uit een webtabeldatabase te kopiëren. Het is gebaseerd op het artikel over het overzicht van kopieeractiviteiten met een algemeen overzicht van de kopieeractiviteit.

Het verschil tussen deze webtabelconnector, de REST-connector en de HTTP-connector zijn:

  • Webtabelconnector extraheert tabelinhoud uit een HTML-webpagina.
  • REST-connector biedt specifiek ondersteuning voor het kopiëren van gegevens uit RESTful-API's.
  • HTTP-connector is algemeen voor het ophalen van gegevens van elk HTTP-eindpunt, bijvoorbeeld om het bestand te downloaden.

Ondersteunde mogelijkheden

Deze webtabelconnector wordt ondersteund voor de volgende mogelijkheden:

Ondersteunde mogelijkheden IR
Copy-activiteit (bron/-)
Activiteit Lookup

(1) Azure Integration Runtime (2) Zelf-hostende Integration Runtime

Zie de tabel Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen/sinks.

Deze webtabelconnector ondersteunt het extraheren van tabelinhoud van een HTML-pagina.

Vereisten

Als u deze webtabelconnector wilt gebruiken, moet u een zelf-hostende Integration Runtime instellen. Zie het artikel over zelf-hostende Integration Runtime voor meer informatie.

Aan de slag

Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:

Een gekoppelde service maken voor webtabel met behulp van de gebruikersinterface

Gebruik de volgende stappen om een gekoppelde service te maken voor webtabel in de gebruikersinterface van Azure Portal.

  1. Blader naar het tabblad Beheren in uw Azure Data Factory- of Synapse-werkruimte en selecteer Gekoppelde services en klik vervolgens op Nieuw:

  2. Zoek naar internet en selecteer de connector voor webtabellen.

    Select the Web Table connector.

  3. Configureer de servicedetails, test de verbinding en maak de nieuwe gekoppelde service.

    Configure a linked service to Web Table.

configuratiedetails Verbinding maken or

De volgende secties bevatten details over eigenschappen die worden gebruikt om Data Factory-entiteiten te definiëren die specifiek zijn voor de webtabelconnector.

Eigenschappen van gekoppelde service

De volgende eigenschappen worden ondersteund voor de gekoppelde webtabelservice:

Eigenschappen Beschrijving Vereist
type De eigenschap Type moet worden ingesteld op: Web Ja
URL URL naar de webbron Ja
authenticationType Toegestane waarde is: Anoniem. Ja
connectVia De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. Een zelf-hostende Integration Runtime is vereist, zoals vermeld in vereisten. Ja

Voorbeeld:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen van gegevensset

Zie het artikel gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets . Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de gegevensset van de webtabel.

Als u gegevens uit de webtabel wilt kopiëren, stelt u de typeeigenschap van de gegevensset in op WebTable. De volgende eigenschappen worden ondersteund:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de gegevensset moet zijn ingesteld op: WebTable Ja
path Een relatieve URL naar de resource die de tabel bevat. Nee Wanneer het pad niet is opgegeven, wordt alleen de URL gebruikt die is opgegeven in de definitie van de gekoppelde service.
index De index van de tabel in de resource. Zie Index ophalen van een tabel in een HTML-paginasectie voor stappen voor het ophalen van een index van een tabel op een HTML-pagina. Ja

Voorbeeld:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Eigenschappen van de kopieeractiviteit

Zie het artikel Pijplijnen voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten. Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de bron van de webtabel.

Webtabel als bron

Als u gegevens uit de webtabel wilt kopiëren, stelt u het brontype in de kopieeractiviteit in op WebSource. Er worden geen extra eigenschappen ondersteund.

Voorbeeld:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Index van een tabel op een HTML-pagina ophalen

Als u de index wilt ophalen van een tabel die u moet configureren in gegevensseteigenschappen, kunt u excel 2016 als volgt gebruiken:

  1. Start Excel 2016 en ga naar het tabblad Gegevens .

  2. Klik op Nieuwe query op de werkbalk, wijs vanuit andere bronnen aan en klik op Van internet.

    Power Query menu

  3. Voer in het dialoogvenster Van web de URL in die u zou gebruiken in de JSON van de gekoppelde service (bijvoorbeeld: https://en.wikipedia.org/wiki/) samen met het pad dat u voor de gegevensset opgeeft (bijvoorbeeld: AFI%27s_100_Years... 100_Movies) en klik op OK.

    From Web dialog

    URL die in dit voorbeeld wordt gebruikt: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Als u het dialoogvenster Webinhoud van Access ziet, selecteert u de juiste URL, verificatie en klikt u op Verbinding maken.

    Access Web content dialog box

  5. Klik op een tabelitem in de structuurweergave om inhoud uit de tabel weer te geven en klik vervolgens onderaan op de knop Bewerken .

    Navigator dialog

  6. Klik in het venster Power Query-editor op Geavanceerde editor knop op de werkbalk.

    Advanced Editor button

  7. In het dialoogvenster Geavanceerde editor is het nummer naast Bron de index.

    Advanced Editor - Index

Als u Excel 2013 gebruikt, gebruikt u Microsoft Power Query voor Excel om de index op te halen. Zie Verbinding maken naar een webpaginaartikel voor meer informatie. De stappen zijn vergelijkbaar als u Microsoft Power BI voor Desktop gebruikt.

Eigenschappen van opzoekactiviteit

Als u meer wilt weten over de eigenschappen, controleert u de lookup-activiteit.

Zie ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen en sinks door de kopieeractiviteit.