Copiare dati da una tabella Web usando Azure Data Factory o Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

Questo articolo illustra come usare l'attività di copia in una pipeline di Azure Data Factory o Synapse Analytics per copiare dati da un database di tabelle Web. Si basa sull'articolo di panoramica dell'attività di copia che presenta una panoramica generale sull'attività di copia.

La differenza tra questo connettore Tabella Web, il connettore REST e il connettore HTTP è la seguente:

  • Il connettore Tabella Web estrae il contenuto della tabella da una pagina Web HTML.
  • Il connettore REST supporta in modo specifico la copia dei dati dalle API RESTful.
  • Il connettore HTTP è un connettore generico per recuperare i dati da qualsiasi endpoint HTTP, ad esempio per scaricare file.

Funzionalità supportate

Questo connettore di tabelle Web è supportato per le funzionalità seguenti:

Funzionalità supportate IR
attività Copy (source/-)
Attività Lookup

(1) Runtime di integrazione di Azure (2) Runtime di integrazione self-hosted

Per un elenco degli archivi dati supportati come origini/sink, vedere la tabella Archivi dati supportati.

In particolare, il connettore Tabella Web supporta l'estrazione del contenuto di una tabella da una pagina HTML.

Prerequisiti

Per usare questo connettore di tabelle Web, è necessario impostare un runtime di integrazione self-hosted. Per i dettagli, vedere l'articolo Runtime di integrazione self-hosted.

Introduzione

Per eseguire l'attività di copia con una pipeline, è possibile usare uno degli strumenti o SDK seguenti:

Creare un servizio collegato a una tabella Web usando l'interfaccia utente

Usare la procedura seguente per creare un servizio collegato alla tabella Web nell'interfaccia utente di portale di Azure.

  1. Passare alla scheda Gestisci nell'area di lavoro di Azure Data Factory o Synapse e selezionare Servizi collegati, quindi fare clic su Nuovo:

  2. Cercare Web e selezionare il connettore Tabella Web.

    Select the Web Table connector.

  3. Configurare i dettagli del servizio, testare la connessione e creare il nuovo servizio collegato.

    Configure a linked service to Web Table.

Dettagli di configurazione di Connessione or

Le sezioni seguenti riportano informazioni dettagliate sulle proprietà che vengono usate per definire entità di Data Factory specifiche per il connettore Tabella Web.

Proprietà del servizio collegato

Per il servizio collegato di Tabella Web sono supportate le proprietà seguenti:

Proprietà Descrizione Richiesto
Tipo La proprietà type deve essere impostata su: Web
URL URL dell'origine Web
authenticationType Il valore consentito è: Anonima.
connectVia Il runtime di integrazione da usare per la connessione all'archivio dati. È necessario un runtime di integrazione self-hosted come indicato in Prerequisiti.

Esempio:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Proprietà del set di dati

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione di set di dati, vedere l'articolo sui set di dati. Questa sezione presenta un elenco delle proprietà supportate dal set di dati Tabella Web.

Per copiare dati da Tabella Web, impostare la proprietà type del set di dati su WebTable. Sono supportate le proprietà seguenti:

Proprietà Descrizione Richiesto
Tipo La proprietà type del set di dati deve essere impostata su: WebTable
path URL relativo della risorsa che contiene la tabella. Nr. Quando non è specificato alcun percorso, viene usato solo l'URL specificato nella definizione del servizio collegato.
index Indice della tabella nella risorsa. Per i passaggi per ottenere l'indice di una tabella in una pagina HTML, vedere la sezione Ottenere l'indice di una tabella in una pagina HTML .

Esempio:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Proprietà dell'attività di copia

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione delle attività, vedere l'articolo sulle pipeline. Questa sezione presenta un elenco delle proprietà supportate dall'origine Tabella Web.

Tabella Web come origine

Per copiare dati da Tabella Web, impostare il tipo di origine nell'attività di copia su WebSource. Non sono supportate altre proprietà.

Esempio:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Ottenere l'indice di una tabella in una pagina HTML

Per ottenere l'indice di una tabella che è necessario configurare nelle proprietà del set di dati, è possibile usare, ad esempio, Excel 2016 come strumento, come indicato di seguito:

  1. Avviare Excel 2016 e passare alla scheda Dati.

  2. Fare clic su Nuova query sulla barra degli strumenti, scegliere Da altre origini e fare clic su Da Web.

    Power Query menu

  3. Nella finestra di dialogo Da Web immettere l'URL che si userebbe in JSON del servizio collegato (ad esempio: https://en.wikipedia.org/wiki/) insieme al percorso specificato per il set di dati, ad esempio AFI%27s_100_Years... 100_Movies) e fare clic su OK.

    From Web dialog

    URL usato in questo esempio: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Se viene visualizzata la finestra di dialogo Accedi a contenuto Web, selezionare l'URL corretto, l'autenticazione e fare clic su Connetti.

    Access Web content dialog box

  5. Fare clic su un elemento della tabella nella visualizzazione ad albero per visualizzare il contenuto dalla tabella e quindi fare clic su Modifica nella parte inferiore.

    Navigator dialog

  6. Nella finestra Editor di query fare clic sul pulsante Editor avanzato sulla barra degli strumenti.

    Advanced Editor button

  7. Nella finestra di dialogo Editor avanzato il numero accanto a "Source" è l'indice.

    Advanced Editor - Index

Se si usa Excel 2013, per ottenere l'indice usare Microsoft Power Query per Excel . Per informazioni dettagliate, vedere l'articolo Connettersi a una pagina Web (Power Query) . I passaggi sono simili se si usa Microsoft Power BI Desktop.

Proprietà dell'attività Lookup

Per altre informazioni sulle proprietà, vedere Attività Lookup.

Per un elenco degli archivi dati supportati come origini e sink dall'attività di copia, vedere archivi dati supportati.