Ingesta de datos de Azure Cosmos DB en Azure Data Explorer

Artículo
01/09/2024

Azure Data Explorer admite la ingesta de datos de Azure Cosmos DB para NoSql mediante una fuente de cambios. La conexión de datos de alimentación de cambios de Cosmos DB es una canalización de ingestión que escucha su alimentación de cambios de Cosmos DB e ingiere los datos en su tabla de Data Explorer. La fuente de cambios escucha para ver si hay documentos nuevos y actualizados, pero no registra eliminaciones. Para obtener información general sobre la ingesta de datos en Azure Data Explorer, consulte Introducción a la ingesta de datos de Azure Data Explorer.

Cada conexión de datos escucha un contenedor específico de Cosmos DB e ingiere datos en una tabla especificada (más de una conexión puede ingerir en una sola tabla). El método de ingesta admite la ingesta de streaming (cuando está habilitada) y la ingesta en cola.

En este artículo, aprenderá a configurar una conexión de datos de fuente de cambios de Cosmos DB para ingerir datos en Azure Data Explorer con identidad administrada del sistema. Revise las consideraciones antes de empezar.

Siga estos pasos para configurar un conector:

Paso 1: Elección de una tabla de Azure Data Explorer y configuración de su asignación de tablas

Paso 2: Creación de una conexión de datos de Cosmos DB

Paso 3: Prueba de la conexión de datos

Requisitos previos

Suscripción a Azure. Cree una cuenta de Azure gratuita.
Un clúster y la base de datos de Azure Data Explorer. Cree un clúster y una base de datos.
Un contenedor de una cuenta de Cosmos DB para NoSQL.
Si la cuenta de Cosmos DB bloquea el acceso a la red, por ejemplo, mediante un punto de conexión privado, debe crear un punto de conexión privado administrado en la cuenta de Cosmos DB. Esto es necesario para que el clúster invoque la API de fuente de cambios.

Paso 1: Elección de una tabla de Azure Data Explorer y configuración de su asignación de tablas

Antes de crear una conexión de datos, cree una tabla donde almacenará los datos ingeridos y aplicará una asignación que coincida con el esquema en el contenedor de Cosmos DB de origen. Si el escenario requiere más de una asignación sencilla de campos, puede usar directivas de actualización para transformar y asignar datos ingeridos desde la fuente de cambios.

A continuación se muestra un esquema de ejemplo de un elemento en el contenedor de Cosmos DB:

{
    "id": "17313a67-362b-494f-b948-e2a8e95e237e",
    "name": "Cousteau",
    "_rid": "pL0MAJ0Plo0CAAAAAAAAAA==",
    "_self": "dbs/pL0MAA==/colls/pL0MAJ0Plo0=/docs/pL0MAJ0Plo0CAAAAAAAAAA==/",
    "_etag": "\"000037fc-0000-0700-0000-626a44110000\"",
    "_attachments": "attachments/",
    "_ts": 1651131409
}

Siga estos pasos para crear una tabla y aplicar una asignación de tabla:

En la interfaz de usuario web de Azure Data Explorer, en el menú de navegación izquierdo, seleccione Consulta y, a continuación, seleccione la base de datos donde desea crear la tabla.

Ejecute el siguiente comando para crear una tabla denominada TestTable.

.create table TestTable(Id:string, Name:string, _ts:long, _timestamp:datetime)

Ejecute el comando siguiente para crear la asignación de tablas.

El comando asigna propiedades personalizadas de un documento JSON de Cosmos DB a columnas de la tabla TestTable, como se indica a continuación:

Propiedad de Cosmos DB	Columna de tabla	Transformación
id	Identificador	None
name	Nombre	None
_ts	_ts	None
_ts	_timestamp	Usa `DateTimeFromUnixSeconds` para transformar _ts (segundos de UNIX) a _timestamp (`datetime`))

Nota:

Se recomienda usar las siguientes columnas de marca de tiempo:

_ts: use esta columna para conciliar los datos con Cosmos DB.
_timestamp: use esta columna para ejecutar filtros de tiempo eficaces en las consultas de Kusto. Para más información, consulte Procedimientos recomendados sobre las consultas.

.create table TestTable ingestion json mapping "DocumentMapping"
```
[
    {"column":"Id","path":"$.id"},
    {"column":"Name","path":"$.name"},
    {"column":"_ts","path":"$._ts"},
    {"column":"_timestamp","path":"$._ts", "transform":"DateTimeFromUnixSeconds"}
]
```

Transformación y asignación de datos con directivas de actualización

Si el escenario requiere más de una asignación sencilla de campos, puede usar directivas de actualización para transformar y asignar datos ingeridos desde la fuente de cambios.

Las directivas de actualización son una manera de transformar los datos a medida que se ingieren en la tabla. Se escriben en el lenguaje de consulta Kusto y se ejecutan en la canalización de ingesta. Se pueden usar para transformar datos de una ingesta de fuente de cambios de Cosmos DB, como en los escenarios siguientes:

Los documentos contienen matrices que serían más fáciles de consultar si se transforman en varias filas mediante el operador mv-expand.
Desea filtrar los documentos. Por ejemplo, puede filtrar documentos por tipo mediante el operador where.
Tiene lógica compleja que no se puede representar en una asignación de tabla.

Para obtener información sobre cómo crear y administrar directivas de actualización, consulte Introducción a la directiva de actualización.

Paso 2: Creación de una conexión de datos de Cosmos DB

Puede usar los métodos siguientes para crear el conector de datos:

Azure Portal
Plantilla ARM

En Azure Portal, vaya a la página de información general del clúster y seleccione la pestaña Introducción.
En el icono Ingesta de datos, seleccione Crear conexión de datos>Cosmos DB.

En el panel Crear conexión de datos de Cosmos DB, rellene el formulario con la información de la tabla:

Captura de pantalla del panel de conexión de datos, en la que se muestran los campos de formulario con valores.

Campo	Descripción
Nombre de la base de datos	Elija la base de datos de Azure Data Explorer en la que desea ingerir datos.
Nombre de la conexión de datos	Especifique un nombre para la conexión de datos.
Suscripción	Seleccione la suscripción que contiene la cuenta de Cosmos DB NoSQL.
Cuenta de Cosmos DB	Elija la cuenta de Cosmos DB desde la que desea ingerir datos.
SQL database	Elija la base de datos de Cosmos DB desde la que desea ingerir datos.
Contenedor de SQL	Elija el contenedor de Cosmos DB desde el que desea ingerir datos.
Nombre de la tabla	Especifique el nombre de la tabla de Azure Data Explorer en la que desea ingerir datos.
Nombre de asignación	Opcionalmente, especifique el nombre de asignación que se va a usar para la conexión de datos.

Opcionalmente, en la sección Configuración avanzada, haga lo siguiente:
1. Especifique la fecha de inicio de recuperación de eventos. Este es el momento desde el que el conector comenzará a ingerir datos. Si no especifica una hora, el conector comenzará a ingerir datos desde el momento en que cree la conexión de datos. El formato de fecha recomendado es el estándar UTC ISO 8601, especificado de la siguiente manera: yyyy-MM-ddTHH:mm:ss.fffffffZ.
2. Seleccione Asignado por el usuario y, a continuación, seleccione la identidad. De forma predeterminada, la conexión usa la identidad administrada asignada por el sistema. Si es necesario, puede usar una identidad asignada por el usuario.
Seleccione Crear para guardar la conexión de datos.

Use la siguiente plantilla de ARM de ejemplo como base para crear su propia plantilla de conexión de datos y, a continuación, implementarla en Azure Portal.

Para configurar la conexión de Cosmos DB:

Configure una identidad administrada del sistema para la autenticación de conexión de Cosmos DB.
1. En la interfaz de usuario web de Azure Data Explorer, seleccione Consulta en el menú de navegación izquierdo y, a continuación, seleccione el clúster o la base de datos para la conexión de datos.

Conceda el permiso de conexión de datos para acceder a la cuenta de Cosmos DB. Proporcionar el acceso a la conexión de datos a Cosmos DB le permite acceder a los datos de la base de datos y recuperarlos. Necesitará el identificador de entidad de seguridad del clúster, que puede encontrar en Azure Portal. Para más información, consulte Configuración de identidades administradas para el clúster.

Nota:

Los pasos siguientes asignan estos roles al identificador de entidad de seguridad:
- Lector de datos integrado de Cosmos DB
  - No se puede asignar el rol lector de datos integrado de Cosmos DB mediante la característica de asignación de roles de Azure Portal.
- Rol de lector de cuentas de Cosmos DB

Use una de las siguientes opciones para conceder acceso a la cuenta de Cosmos DB:

Concesión de acceso mediante la CLI de Azure: ejecute el comando de la CLI mediante la información de la tabla siguiente para reemplazar los marcadores de posición por los valores adecuados:

az cosmosdb sql role assignment create --account-name <CosmosDbAccountName> --resource-group <CosmosDbResourceGroup> --role-definition-id 00000000-0000-0000-0000-000000000001 --principal-id <ClusterPrincipalId> --scope "/"

az role assignment create --role fbdf93bf-df7d-467e-a4d2-9458aa1360c8 --assignee <ClusterPrincipalId> --scope <CosmosDBAccountResourceId>

Marcador de posición	Descripción
<CosmosDBAccountName>	Nombre de la cuenta de Cosmos DB.
<CosmosDBResourceGroup>	Nombre del grupo de recursos que contiene la cuenta de Cosmos DB.
<CosmosDBAccountResourceId>	Identificador de recurso de Azure (a partir de `subscriptions/`) de la cuenta de Cosmos DB.
<ClusterPrincipalId>	Identificador de entidad de seguridad de la identidad administrada asignada al clúster. Puede encontrar el identificador principal del clúster en Azure Portal. Para más información, consulte Configuración de identidades administradas para el clúster.

Concesión de acceso mediante una plantilla de ARM: implemente la plantilla siguiente en el grupo de recursos de la cuenta de Cosmos DB:

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "clusterPrincipalId": {
            "type": "string",
            "metadata": { "description": "The principle ID of your cluster." }
        },
        "cosmosDbAccount": {
            "type": "string",
            "metadata": { "description": "The name of your Cosmos DB account." }
        },
        "cosmosDbAccountResourceId": {
            "type": "string",
            "metadata": { "description": "The resource ID of your Cosmos DB account." }
        }
    },
    "variables": {
        "cosmosDataReader": "00000000-0000-0000-0000-000000000001",
        "dataRoleDefinitionId": "[format('/subscriptions/{0}/resourceGroups/{1}/providers/Microsoft.DocumentDB/databaseAccounts/{2}/sqlRoleDefinitions/{3}', subscription().subscriptionId, resourceGroup().name, parameters('cosmosDbAccount'), variables('cosmosDataReader'))]",
        "roleAssignmentId": "[guid(parameters('cosmosDbAccountResourceId'), parameters('clusterPrincipalId'))]",
        "rbacRoleDefinitionId": "[format('/subscriptions/{0}/providers/Microsoft.Authorization/roleDefinitions/{1}', subscription().subscriptionId, 'fbdf93bf-df7d-467e-a4d2-9458aa1360c8')]"
    },
    "resources": [
        {
            "type": "Microsoft.DocumentDB/databaseAccounts/sqlRoleAssignments",
            "apiVersion": "2022-08-15",
            "name": "[concat(parameters('cosmosDbAccount'), '/', guid(parameters('clusterPrincipalId'), parameters('cosmosDbAccount')))]",
            "properties": {
                "principalId": "[parameters('clusterPrincipalId')]",
                "roleDefinitionId": "[variables('dataRoleDefinitionId')]",
                "scope": "[resourceId('Microsoft.DocumentDB/databaseAccounts', parameters('cosmosDbAccount'))]"
            }
        },
        {
            "type": "Microsoft.Authorization/roleAssignments",
            "apiVersion": "2022-04-01",
            "name": "[variables('roleAssignmentId')]",
            "scope": "[format('Microsoft.DocumentDb/databaseAccounts/{0}', parameters('cosmosDbAccount'))]",
            "properties": {
                "description": "Giving RBAC reader on Cosmos DB",
                "principalId": "[parameters('clusterPrincipalId')]",
                "principalType": "ServicePrincipal",
                "roleDefinitionId": "[variables('rbacRoleDefinitionId')]"
            }
        }
    ]
}

Implemente la siguiente plantilla de ARM para crear una conexión de datos de Cosmos DB. Reemplace los marcadores de posición por los valores adecuados.

{
  "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
  "contentVersion": "1.0.0.0",
  "parameters": {
    "kustoClusterName": {
      "type": "string",
      "metadata": { "description": "Kusto Cluster name" }
    },
    "kustoDbName": {
      "type": "string",
      "metadata": { "description": "Kusto Database name" }
    },
    "kustoConnectionName": {
      "type": "string",
      "metadata": { "description": "Kusto Database connection name" }
    },
    "kustoLocation": {
      "type": "string",
      "metadata": { "description": "Location (Azure Region) of the Kusto cluster" }
    },
    "kustoTable": {
      "type": "string",
      "metadata": { "description": "Kusto Table name where to ingest data" }
    },
    "kustoMappingRuleName": {
      "type": "string",
      "defaultValue": "",
      "metadata": { "description": "Mapping name of the Kusto Table (if omitted, default mapping is applied)" }
    },
    "managedIdentityResourceId": {
      "type": "string",
      "metadata": { "description": "ARM resource ID of the managed identity (cluster resource ID for system or user identity)" }
    },
    "cosmosDbAccountResourceId": {
      "type": "string",
      "metadata": { "description": "ARM resource ID of Cosoms DB account" }
    },
    "cosmosDbDatabase": {
      "type": "string",
      "metadata": { "description": "Cosmos DB Database name" }
    },
    "cosmosDbContainer": {
      "type": "string",
      "metadata": { "description": "Cosmos DB container name" }
    },
    "retrievalStartDate": {
      "type": "string",
      "defaultValue": "",
      "metadata": { "description": "Date-time at which to start the data retrieval; default: 'now' if not provided. Recommended format: yyyy-MM-ddTHH:mm:ss.fffffffZ" }
    }
  },
  "variables": { },
  "resources": [{
    "type": "Microsoft.Kusto/Clusters/Databases/DataConnections",
    "apiVersion": "2022-11-11",
    "name": "[concat(parameters('kustoClusterName'), '/', parameters('kustoDbName'), '/', parameters('kustoConnectionName'))]",
    "location": "[parameters('kustoLocation')]",
    "kind": "CosmosDb",
    "properties": {
      "tableName": "[parameters('kustoTable')]",
      "mappingRuleName": "[parameters('kustoMappingRuleName')]",
      "managedIdentityResourceId": "[parameters('managedIdentityResourceId')]",
      "cosmosDbAccountResourceId": "[parameters('cosmosDbAccountResourceId')]",
      "cosmosDbDatabase": "[parameters('cosmosDbDatabase')]",
      "cosmosDbContainer": "[parameters('cosmosDbContainer')]",
      "retrievalStartDate": "[parameters('retrievalStartDate')]"
    }
  }]
}

Paso 3: Prueba de la conexión de datos

En el contenedor de Cosmos DB, inserte el siguiente documento:
```
{
    "name":"Cousteau"
}
```
En la interfaz de usuario web de Azure Data Explorer, ejecute la consulta siguiente:
```
TestTable
```
El conjunto de resultados debe tener un aspecto similar al de la siguiente imagen:

Nota:

Azure Data Explorer tiene una directiva de agregación (procesamiento por lotes) para la ingesta de datos en cola diseñada para optimizar dicho proceso. La directiva de procesamiento por lotes predeterminada está configurada para sellar un lote tan pronto como se cumpla una de las siguientes condiciones en el lote: un tiempo de retraso máximo de 5 minutos, un tamaño total de un GB o 1000 blobs. Por lo tanto, puede experimentar una latencia. Para obtener más información, consulte la directiva de procesamiento por lotes. Para reducir la latencia, configure la tabla para admitir el streaming. Consulte la directiva de streaming.

Consideraciones

Las consideraciones siguientes se aplican a la fuente de cambios de Cosmos DB:

La fuente de cambios no expone eventos de eliminación.

La fuente de cambios de Cosmos DB solo incluye documentos nuevos y actualizados. Si necesita conocer los documentos eliminados, puede configurar su feed utilizando un marcador suave para marcar un documento de Cosmos DB como eliminado. Se agrega una propiedad para actualizar eventos que indican si se ha eliminado un documento. Después, puede usar el operador where en las consultas para filtrarlos.

Por ejemplo, si asigna la propiedad eliminada a una columna de tabla denominada IsDeleted, puede filtrar los documentos eliminados con la consulta siguiente:
```
TestTable
| where not(IsDeleted)
```

La fuente de cambios solo muestra la última actualización de un documento.

Para comprender la ramificación de la segunda consideración, examine el siguiente escenario:

Un contenedor de Cosmos DB contiene documentos A y B. Los cambios realizados en una propiedad denominada foo se muestran en la tabla siguiente:

Id. de documento	Propiedad foo	Evento	Marca de tiempo del documento (_ts)
A	Rojo	Creación	10
B	Azul	Creación	20
A	Naranja	Actualizar	30
A	Rosa	Actualizar	40
B	Violet	Actualizar	50
A	Carmine	Actualizar	50
B	NeonBlue	Actualizar	70

El conector de datos sondea la API de fuente de cambios a intervalos regulares, normalmente cada pocos segundos. Cada sondeo contiene cambios que se produjeron en el contenedor entre llamadas, pero solo la versión más reciente del cambio por documento.

Para ilustrar el problema, considere una secuencia de llamadas API con marcas de tiempo 15, 35, 55y 75 como se muestra en la tabla siguiente:

Marca de tiempo de llamada API	Id. de documento	Propiedad foo	Marca de tiempo del documento (_ts)
15	A	Rojo	10
35	B	Azul	20
35	A	Naranja	30
55	B	Violet	50
55	A	Carmine	60
75	B	NeonBlue	70

Al comparar los resultados de la API con la lista de cambios realizados en el documento de Cosmos DB, observará que no coinciden. El evento de actualización para documentar A, resaltado en la tabla de cambios en la marca de tiempo 40, no aparece en los resultados de la llamada API.

Para comprender por qué el evento no aparece, examinaremos los cambios en el documento A entre las llamadas API en las marcas de tiempo 35 y 55. Entre estas dos llamadas, el documento A cambió dos veces, como se indica a continuación:

Id. de documento	Propiedad foo	Evento	Marca de tiempo del documento (_ts)
A	Rosa	Actualizar	40
A	Carmine	Actualizar	50

Cuando se realiza la llamada API a la marca de tiempo 55, la API de fuente de cambios devuelve la versión más reciente del documento. En este caso, la versión más reciente del documento A es la actualización en la marca de tiempo 50, que es la actualización de la propiedad foo de Pink a Carmine.

Debido a este escenario, el conector de datos puede perder algunos cambios intermedios en los documentos. Por ejemplo, es posible que se pierdan algunos eventos si el servicio de conexión de datos está inactivo durante unos minutos o si la frecuencia de cambios en el documento es mayor que la frecuencia de sondeo de la API. Sin embargo, se captura el estado más reciente de cada documento.

No es posible eliminar y volver a crear un contenedor de Cosmos DB

Azure Data Explorer realiza un seguimiento de la fuente de cambios comprobando la "posición" en la que se encuentra en la fuente. Esto se hace utilizando token de continuación en cada partición física del contenedor. Cuando se elimina/recrea un contenedor, esos token de continuación no son válidos y no se restablecen: debe eliminar y volver a crear la conexión de datos.

Estimación del costo

¿Cuánto afecta el uso de la conexión de datos de Cosmos DB al uso de unidades de solicitud (RU) del contenedor de Cosmos DB?

El conector invoca la API de fuente de cambios de Cosmos DB en cada partición física del contenedor, hasta una vez por segundo. Los siguientes costos están asociados a estas invocaciones:

Costos	Descripción
Costos fijos	Los costos fijos son aproximadamente 2 RU por partición física cada segundo.
Costos variables	Los costos variables son aproximadamente el 2 % de las RU que se usan para escribir documentos, aunque esto puede variar en función de su escenario. Por ejemplo, si escribe 100 documentos en un contenedor de Cosmos DB, el costo de escribir esos documentos es de 1000 RU. El costo correspondiente para usar el conector para leer ese documento es aproximadamente el 2 % el costo de escribirlos, aproximadamente 20 RU.

Costos

Descripción

Costos fijos

Los costos fijos son aproximadamente 2 RU por partición física cada segundo.

Costos variables

Los costos variables son aproximadamente el 2 % de las RU que se usan para escribir documentos, aunque esto puede variar en función de su escenario. Por ejemplo, si escribe 100 documentos en un contenedor de Cosmos DB, el costo de escribir esos documentos es de 1000 RU. El costo correspondiente para usar el conector para leer ese documento es aproximadamente el 2 % el costo de escribirlos, aproximadamente 20 RU.

Compartir a través de

Ingesta de datos de Azure Cosmos DB en Azure Data Explorer

Requisitos previos

Paso 1: Elección de una tabla de Azure Data Explorer y configuración de su asignación de tablas

Transformación y asignación de datos con directivas de actualización

Paso 2: Creación de una conexión de datos de Cosmos DB

Paso 3: Prueba de la conexión de datos

Consideraciones

Estimación del costo

Comentarios

Recursos adicionales

Compartir a través de

Ingesta de datos de Azure Cosmos DB en Azure Data Explorer

Requisitos previos

Paso 1: Elección de una tabla de Azure Data Explorer y configuración de su asignación de tablas

Transformación y asignación de datos con directivas de actualización

Paso 2: Creación de una conexión de datos de Cosmos DB

Paso 3: Prueba de la conexión de datos

Consideraciones

Estimación del costo

Contenido relacionado

Comentarios

Recursos adicionales