Compartir vía


Copia de datos de la tabla web mediante Azure Data Factory o Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Data Factory en Microsoft Fabric es la próxima generación de Azure Data Factory, con una arquitectura más sencilla, inteligencia artificial integrada y nuevas características. Si no está familiarizado con la integración de datos, comience con Fabric Data Factory. Las cargas de trabajo de ADF existentes pueden actualizarse a Fabric para acceder a nuevas funcionalidades en ciencia de datos, análisis en tiempo real e informes.

En este artículo se describe cómo usar la actividad de copia en una canalización de Azure Data Factory o Synapse Analytics para copiar datos de una base de datos de tabla web. El documento se basa en el artículo de introducción a la actividad de copia que describe información general de la actividad de copia.

Las diferencias entre este conector de tabla web, el conector REST y el conector HTTP son:

  • El conector de tabla web extrae contenido de la tabla de una página web HTML.
  • El conector REST admite específicamente la copia de datos desde API RESTful.
  • El conector HTTP es genérico y puede recuperar datos desde cualquier punto de conexión HTTP, por ejemplo, para descargar archivos.

Funcionalidades admitidas

Este conector de tabla web es compatible con las funcionalidades siguientes:

Funcionalidades admitidas IR
Actividad de copia (source/-)
Actividad de búsqueda

① Azure Integration Runtime ② Entorno de ejecución de integración autohospedado

Para obtener una lista de los almacenes de datos que se admiten como orígenes y receptores, consulte la tabla de almacenes de datos admitidos.

En concreto, este conector de tabla web permite extraer contenido de tablas de una página HTML.

Requisitos previos

Para usar este conector de tabla web, debe configurar un Integration Runtime autohospedado. Consulte el artículo sobre Integration Runtime autohospedado para más información.

Introducción

Para realizar la actividad de copia con una canalización, puede usar una de las siguientes herramientas o SDK:

Creación de un servicio vinculado a una Web Table mediante la interfaz de usuario

Siga estos pasos para crear un servicio vinculado a la tabla web en la interfaz de usuario del portal de Azure.

  1. Vaya a la pestaña Administrar del área de trabajo de Azure Data Factory o Synapse y seleccione Servicios vinculados y haga clic en Nuevo:

  2. Busque Web y seleccione el conector de Web Table.

    Seleccione el conector de Web Table.

  3. Configure los detalles del servicio, pruebe la conexión y cree el servicio vinculado.

    Configuración de un servicio vinculado en Web Table.

Detalles de configuración del conector

Las secciones siguientes proporcionan detalles sobre las propiedades que se usan para definir entidades de Data Factory específicas del conector de tabla web.

Propiedades del servicio vinculado

Las siguientes propiedades son compatibles con el servicio vinculado de tabla web:

Propiedad Descripción Obligatorio
type La propiedad type debe establecerse en: Web
url Dirección URL para el origen de Web
authenticationType El valor permitido es: Anónima.
connectVia El Integration Runtime que se utilizará para establecer conexión con el almacén de datos. Se requiere un Integration Runtime autohospedado, como se mencionó en Prerequisites.

Ejemplo:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades del conjunto de datos

Si desea ver una lista completa de las secciones y propiedades disponibles para definir conjuntos de datos, consulte el artículo sobre conjuntos de datos. En esta sección se proporciona una lista de las propiedades que admite el conjunto de datos de tabla web.

Para copiar datos desde una tabla web, establezca la propiedad type del conjunto de datos en WebTable. Se admiten las siguientes propiedades:

Propiedad Descripción Obligatorio
type La propiedad type del conjunto de datos debe establecerse en: WebTable
path Dirección URL relativa al recurso que contiene la tabla. No. Cuando no se especifica la ruta de acceso, se solo se usa la dirección URL especificada en la definición de servicio vinculado.
índice Índice de la tabla en el recurso. Consulte la sección Obtención de índice de una tabla en una página HTML para saber los pasos necesarios para obtener el índice de una tabla en una página HTML.

Ejemplo:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Las propiedades de la actividad de copia

Si desea ver una lista completa de las secciones y propiedades disponibles para definir actividades, consulte el artículo sobre canalizaciones. En esta sección se proporciona una lista de las propiedades que admite el origen de datos de tabla web.

Tabla web como origen

Para copiar datos desde una tabla web, establezca el tipo de origen de la actividad de copia en WebSource. No se admite ninguna otra propiedad.

Ejemplo:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Obtención de índice de una tabla en una página HTML

Para obtener el índice de una tabla que necesita configurar en dataset properties, puede usar, por ejemplo, Excel 2016 como se indica a continuación:

  1. Inicie Excel 2016 y cambie a la pestaña Data.

  2. Haga clic en Nueva consulta en la barra de herramientas, elija De otros orígenes y haga clic en Desde Web.

    Menú Power Query

  3. En el cuadro de diálogo Desde Web, escriba la dirección URL que usaría en el objeto JSON del servicio vinculado (por ejemplo: https://en.wikipedia.org/wiki/) junto con la ruta de acceso que especificaría para el conjunto de datos (por ejemplo: AFI%27s_100_Years...100_Movies) y haga clic en Aceptar.

    Cuadro de diálogo Desde Web

    Dirección URL que se usa en este ejemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Si ve el cuadro de diálogo Acceso a contenido web, seleccione la dirección URL correcta, la autenticación y haga clic en Conectar.

    Cuadro de diálogo Acceso a contenido web

  5. Haga clic en un elemento de tabla en la vista de árbol para ver el contenido de la tabla y después en el botón Editar ubicado en la parte inferior.

    Cuadro de diálogo Navegador

  6. En la ventana Editor de Power Query, haga clic en Editor avanzado botón de la barra de herramientas.

    Botón Editor Avanzado

  7. En el cuadro de diálogo Editor avanzado, el número situado junto a "Source" es el índice.

    Editor avanzado - Index

Si usa Excel 2013, consulte el artículo Conectar a una página web para obtener más información. Los pasos son similares si usa Microsoft Power BI para Desktop.

Propiedades de la actividad de búsqueda

Para obtener información detallada sobre las propiedades, consulte Actividad de búsqueda.

Para obtener una lista de los almacenes de datos que admite la actividad de copia como orígenes y receptores, consulte Almacenes de datos compatibles.