Kopiowanie danych z tabeli sieci Web przy użyciu Azure Data Factory lub usługi Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Wskazówka

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

W tym artykule opisano sposób użycia działania kopiowania w potoku Azure Data Factory lub Synapse Analytics w celu skopiowania danych z bazy danych tabel sieci Web. Opiera się na artykule omówienie działania kopiowania, który przedstawia ogólny przegląd tej aktywności.

Różnice między tym łącznikiem tabeli webowej, łącznikiem REST i łącznikiem HTTP są:

  • Łącznik tabeli sieci Web wyodrębnia zawartość tabeli ze strony internetowej HTML.
  • Ten łącznik REST specjalnie obsługuje kopiowanie danych z interfejsów API RESTful.
  • Łącznik HTTP jest ogólny w celu pobierania danych z dowolnego punktu końcowego HTTP, np. do pobierania pliku.

Obsługiwane możliwości

Ten łącznik tabeli sieci Web jest obsługiwany w następujących funkcjach:

Obsługiwane możliwości środowisko IR
Kopiuj działanie (źródło/-) (2)
Aktywność wyszukiwania (2)

(1) Środowisko uruchomieniowe Azure (2) Środowisko uruchomieniowe lokalnie hostowane

Aby uzyskać listę magazynów danych obsługiwanych jako źródła/ujścia, zobacz tabelę Obsługiwane magazyny danych.

W szczególności ten łącznik tabeli sieci Web obsługuje wyodrębnianie zawartości tabeli ze strony HTML.

Wymagania wstępne

Aby użyć tego łącznika tabel sieci Web, należy skonfigurować Self-hosted Integration Runtime. Aby uzyskać szczegółowe informacje, zobacz artykuł Self-hosted Integration Runtime .

Wprowadzenie

Aby wykonać działanie kopiowania za pomocą pipeline'u, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi z tabelą sieci Web przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę z tabelą sieci Web w interfejsie użytkownika portalu Azure.

  1. Przejdź do karty Zarządzanie w obszarze roboczym Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:

  2. Wyszukaj Web i wybierz łącznik tabeli webowej.

    Wybierz łącznik Web Table Connector.

  3. Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

    Skonfiguruj połączoną usługę z tabelą sieci Web.

Szczegóły konfiguracji łącznika

Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek usługi Data Factory specyficznych dla łącznika tabeli sieci Web.

Właściwości połączonej usługi

Następujące właściwości są obsługiwane w przypadku połączonej usługi tabel sieci Web:

Właściwości Opis Wymagany
typ Właściwość type musi być ustawiona na: Web Tak
Adres URL Adres URL do źródła sieci Web Tak
typUwierzytelnienia Dozwolona wartość to: Anonimowe. Tak
connectVia Integration Runtime używany do nawiązania połączenia z magazynem danych. Wymagana jest Integration Runtime hostowana samodzielnie, jak wspomniano w Prerequisites. Tak

Przykład:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości zestawu danych

Pełna lista sekcji i właściwości dostępnych do definiowania zestawów danych znajduje się w artykule dotyczącym zestawów danych. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych tabeli sieci Web.

Aby skopiować dane z tabeli internetowej, ustaw właściwość type zestawu danych na WebTable. Obsługiwane są następujące właściwości:

Właściwości Opis Wymagany
typ Właściwość type zestawu danych musi być ustawiona na: WebTable Tak
ścieżka Względny adres URL zasobu, który zawiera tabelę. Nr. Jeśli ścieżka nie jest określona, używany jest tylko adres URL określony w połączonej definicji usługi.
indeks Indeks tabeli w zasobie. Zobacz sekcję Indeksowanie tabeli na stronie HTML, aby poznać kroki uzyskiwania indeksu tabeli na stronie HTML. Tak

Przykład:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Właściwości aktywności kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło tabeli sieci Web.

Tabela sieci Web jako źródło

Aby skopiować dane z tabeli webowej, ustaw typ źródła w działaniu kopiowania na WebSource, dodatkowe właściwości nie są obsługiwane.

Przykład:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Pobieranie indeksu tabeli na stronie HTML

Aby uzyskać indeks tabeli, którą należy skonfigurować w właściwościach dataset można użyć np. Excel 2016 w następujący sposób:

  1. Uruchom Excel 2016 i przejdź do karty Data.

  2. Kliknij pozycję Nowe zapytanie na pasku narzędzi, wskaż polecenie From Other Sources (Z innych źródeł ), a następnie kliknij pozycję From Web (Z sieci Web).

    Power Query menu

  3. W oknie dialogowym Z sieci Web wprowadź adres URL używany w formacie JSON połączonej usługi (na przykład: https://en.wikipedia.org/wiki/) wraz ze ścieżką, którą należy określić dla zestawu danych (na przykład: AFI%27s_100_Years... 100_Movies) i kliknij przycisk OK.

    W oknie dialogowym Sieci Web

    Adres URL używany w tym przykładzie: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Jeśli zostanie wyświetlone okno dialogowe Uzyskiwanie dostępu do zawartości sieci Web, wybierz odpowiedni adres URL, uwierzytelnianie i kliknij przycisk Połącz.

    Okno dialogowe Uzyskiwanie dostępu do zawartości sieci Web

  5. Kliknij element tabeli w widoku drzewa, aby wyświetlić zawartość z tabeli, a następnie kliknij przycisk Edytuj u dołu.

    Okno dialogowe Nawigator

  6. W oknie Query Editor kliknij przycisk Advanced Editor na pasku narzędzi.

    przycisk Zaawansowany Edytor

  7. W oknie dialogowym Advanced Editor numer obok pozycji "Źródło" jest indeksem.

    Advanced Editor — Index

Jeśli używasz Excel 2013, użyj Połączenie ze stroną internetową aby uzyskać szczegółowe informacje. Kroki są podobne, jeśli używasz Microsoft Power BI dla programu Desktop.

Właściwości działania wyszukiwania

Aby dowiedzieć się szczegółów o właściwościach, sprawdź Aktywność wyszukiwania.

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz obsługiwane magazyny danych.