Copiar dados da tabela da Web usando o Azure Data Factory ou o Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Este artigo descreve como usar a Atividade de Cópia em um pipeline do Azure Data Factory ou do Synapse Analytics para copiar dados de um banco de dados de tabela da Web. Ele se baseia no artigo de visão geral da atividade de cópia que apresenta uma visão geral da atividade de cópia.

A diferença entre este conector de tabela da Web, o conector REST e o conector HTTP são:

  • O conector da tabela Web extrai o conteúdo da tabela de uma página Web HTML.
  • O conector REST suporta especificamente a cópia de dados de APIs RESTful.
  • O conector HTTP é genérico para recuperar dados de qualquer ponto de extremidade HTTP, por exemplo, para baixar arquivos.

Capacidades suportadas

Este conector de tabela da Web é suportado para os seguintes recursos:

Capacidades suportadas IR
Atividade de cópia (fonte/-)
Atividade de Pesquisa

(1) Tempo de execução de integração do Azure (2) Tempo de execução de integração auto-hospedado

Para obter uma lista de armazenamentos de dados suportados como fontes/coletores, consulte a tabela Armazenamentos de dados suportados.

Especificamente, esse conector de tabela da Web oferece suporte à extração de conteúdo de tabela de uma página HTML.

Pré-requisitos

Para usar esse conector de tabela da Web, você precisa configurar um Self-hosted Integration Runtime. Consulte o artigo Self-hosted Integration Runtime para obter detalhes.

Introdução

Para executar a atividade Copiar com um pipeline, você pode usar uma das seguintes ferramentas ou SDKs:

Criar um serviço vinculado à tabela da Web usando a interface do usuário

Use as etapas a seguir para criar um serviço vinculado à Tabela da Web na interface do usuário do portal do Azure.

  1. Navegue até a guia Gerenciar em seu espaço de trabalho do Azure Data Factory ou Synapse e selecione Serviços Vinculados e clique em Novo:

  2. Procure Web e selecione o conector Web Table.

    Select the Web Table connector.

  3. Configure os detalhes do serviço, teste a conexão e crie o novo serviço vinculado.

    Configure a linked service to Web Table.

Detalhes de configuração do conector

As seções a seguir fornecem detalhes sobre as propriedades usadas para definir entidades do Data Factory específicas para o conector de tabela da Web.

Propriedades do serviço vinculado

As seguintes propriedades são suportadas para o serviço vinculado de tabela da Web:

Propriedade Descrição Necessário
tipo A propriedade type deve ser definida como: Web Sim
URL URL para a fonte da Web Sim
authenticationType O valor permitido é: Anônimo. Sim
ConecteVia O tempo de execução de integração a ser usado para se conectar ao armazenamento de dados. Um tempo de execução de integração auto-hospedado é necessário, conforme mencionado em Pré-requisitos. Sim

Exemplo:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriedades do conjunto de dados

Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo sobre conjuntos de dados. Esta seção fornece uma lista de propriedades suportadas pelo conjunto de dados de tabela da Web.

Para copiar dados da tabela da Web, defina a propriedade type do conjunto de dados como WebTable. As seguintes propriedades são suportadas:

Propriedade Descrição Necessário
tipo A propriedade type do conjunto de dados deve ser definida como: WebTable Sim
path Uma URL relativa ao recurso que contém a tabela. Não Quando o caminho não é especificado, somente a URL especificada na definição de serviço vinculado é usada.
index O índice da tabela no recurso. Consulte Obter índice de uma tabela em uma seção de página HTML para obter etapas para obter o índice de uma tabela em uma página HTML. Sim

Exemplo:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Propriedades da atividade Copy

Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte o artigo Pipelines . Esta seção fornece uma lista de propriedades suportadas pela fonte da tabela da Web.

Tabela da Web como fonte

Para copiar dados da tabela da Web, defina o tipo de fonte na atividade de cópia como WebSource, nenhuma propriedade adicional é suportada.

Exemplo:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Obter índice de uma tabela em uma página HTML

Para obter o índice de uma tabela que você precisa configurar nas propriedades do conjunto de dados, você pode usar, por exemplo, o Excel 2016 como a ferramenta da seguinte maneira:

  1. Inicie o Excel 2016 e alterne para a guia Dados .

  2. Clique em Nova Consulta na barra de ferramentas, aponte para De Outras Fontes e clique em Da Web.

    Power Query menu

  3. Na caixa de diálogo Da Web, digite a URL que você usaria no JSON do serviço vinculado (por exemplo: ) juntamente com o caminho especificado para o conjunto de dados (por exemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years... 100_Movies) e clique em OK.

    From Web dialog

    URL usado neste exemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Se você vir a caixa de diálogo Acessar conteúdo da Web, selecione a URL correta, a autenticação e clique em Conectar.

    Access Web content dialog box

  5. Clique num item de tabela na vista de árvore para ver o conteúdo da tabela e, em seguida, clique no botão Editar na parte inferior.

    Navigator dialog

  6. Na janela Editor de Consultas, clique no botão Editor Avançado na barra de ferramentas.

    Advanced Editor button

  7. Na caixa de diálogo Editor Avançado, o número ao lado de "Fonte" é o índice.

    Advanced Editor - Index

Se estiver a utilizar o Excel 2013, utilize o Microsoft Power Query para Excel para obter o índice. Consulte o artigo Conectar-se a uma página da Web para obter detalhes. As etapas são semelhantes se você estiver usando o Microsoft Power BI para Área de Trabalho.

Propriedades da atividade de pesquisa

Para saber detalhes sobre as propriedades, verifique Atividade de pesquisa.

Para obter uma lista de armazenamentos de dados suportados como fontes e coletores pela atividade de cópia, consulte Armazenamentos de dados suportados.