Kopiowanie danych z tabeli internetowej przy użyciu usługi Azure Data Factory lub Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób używania działania kopiowania w potoku usługi Azure Data Factory lub Synapse Analytics do kopiowania danych z bazy danych tabel sieci Web. Jest on oparty na artykule omówienie działania kopiowania, który przedstawia ogólne omówienie działania kopiowania.

Różnica między tym łącznikiem tabeli sieci Web, łącznikiem REST i łącznikiemHTTP są:

  • Łącznik tabeli sieci Web wyodrębnia zawartość tabeli ze strony internetowej HTML.
  • Łącznik REST obsługuje kopiowanie danych z interfejsów API RESTful.
  • Łącznik HTTP jest ogólny w celu pobierania danych z dowolnego punktu końcowego HTTP, np. do pobierania pliku.

Obsługiwane możliwości

Ten łącznik tabeli sieci Web jest obsługiwany w następujących funkcjach:

Obsługiwane możliwości IR
działanie Kopiuj (źródło/-)
Działanie Lookup

(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime

Aby uzyskać listę magazynów danych obsługiwanych jako źródła/ujścia, zobacz tabelę Obsługiwane magazyny danych.

W szczególności ten łącznik tabeli sieci Web obsługuje wyodrębnianie zawartości tabeli ze strony HTML.

Wymagania wstępne

Aby użyć tego łącznika tabel sieci Web, należy skonfigurować własne środowisko Integration Runtime. Aby uzyskać szczegółowe informacje, zobacz artykuł Self-hosted Integration Runtime (Self-hosted Integration Runtime ).

Wprowadzenie

Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi z tabelą sieci Web przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę z tabelą internetową w interfejsie użytkownika witryny Azure Portal.

  1. Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:

  2. Wyszukaj pozycję Sieć Web i wybierz łącznik Tabela sieci Web.

    Select the Web Table connector.

  3. Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

    Configure a linked service to Web Table.

szczegóły konfiguracji Połączenie or

Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek usługi Data Factory specyficznych dla łącznika tabeli sieci Web.

Właściwości połączonej usługi

Następujące właściwości są obsługiwane w przypadku połączonej usługi tabel sieci Web:

Właściwości Opis Wymagania
type Właściwość type musi być ustawiona na: Sieć Web Tak
Adres URL Adres URL do źródła sieci Web Tak
authenticationType Dozwolona wartość to: Anonimowe. Tak
connectVia Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Środowisko Integration Runtime (Self-hosted) jest wymagane zgodnie z wymaganiami wstępnymi. Tak

Przykład:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości zestawu danych

Pełna lista sekcji i właściwości dostępnych do definiowania zestawów danych znajduje się w artykule dotyczącym zestawów danych. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych tabeli sieci Web.

Aby skopiować dane z tabeli sieci Web, ustaw właściwość type zestawu danych na Wartość WebTable. Obsługiwane są następujące właściwości:

Właściwości Opis Wymagania
type Właściwość type zestawu danych musi być ustawiona na: WebTable Tak
path Względny adres URL zasobu, który zawiera tabelę. L.p. Jeśli ścieżka nie jest określona, używany jest tylko adres URL określony w połączonej definicji usługi.
index Indeks tabeli w zasobie. Zobacz Pobieranie indeksu tabeli w sekcji strony HTML, aby uzyskać instrukcje pobierania indeksu tabeli na stronie HTML. Tak

Przykład:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Właściwości działania kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło tabeli sieci Web.

Tabela sieci Web jako źródło

Aby skopiować dane z tabeli sieci Web, ustaw typ źródła w działaniu kopiowania na wartość WebSource, nie są obsługiwane żadne dodatkowe właściwości.

Przykład:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Pobieranie indeksu tabeli na stronie HTML

Aby uzyskać indeks tabeli, którą należy skonfigurować we właściwościach zestawu danych, możesz użyć np. programu Excel 2016 jako narzędzia w następujący sposób:

  1. Uruchom program Excel 2016 i przejdź do karty Dane .

  2. Kliknij pozycję Nowe zapytanie na pasku narzędzi, wskaż polecenie From Other Sources (Z innych źródeł ), a następnie kliknij pozycję From Web (Z sieci Web).

    Power Query menu

  3. W oknie dialogowym Z sieci Web wprowadź adres URL używany w formacie JSON połączonej usługi (na przykład: https://en.wikipedia.org/wiki/) wraz ze ścieżką, którą należy określić dla zestawu danych (na przykład: AFI%27s_100_Years... 100_Movies) i kliknij przycisk OK.

    From Web dialog

    Adres URL używany w tym przykładzie: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Jeśli zostanie wyświetlone okno dialogowe Uzyskiwanie dostępu do zawartości sieci Web, wybierz odpowiedni adres URL, uwierzytelnianie i kliknij przycisk Połączenie.

    Access Web content dialog box

  5. Kliknij element tabeli w widoku drzewa, aby wyświetlić zawartość z tabeli, a następnie kliknij przycisk Edytuj u dołu.

    Navigator dialog

  6. W oknie Edytor Power Query kliknij przycisk Edytor zaawansowany na pasku narzędzi.

    Advanced Editor button

  7. W oknie dialogowym Edytor zaawansowany numer obok pozycji "Źródło" jest indeksem.

    Advanced Editor - Index

Jeśli używasz programu Excel 2013, użyj dodatku Microsoft Power Query dla programu Excel , aby uzyskać indeks. Aby uzyskać szczegółowe informacje, zobacz artykuł Połączenie na stronie internetowej. Kroki są podobne, jeśli używasz programu Microsoft Power BI for Desktop.

Właściwości działania wyszukiwania

Aby dowiedzieć się więcej o właściwościach, sprawdź działanie Wyszukiwania.

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz obsługiwane magazyny danych.