Limpieza de datos mediante datos de referencia de conocimientos (externos): Data Quality Services (DQS)
Se aplica a: SQL Server
En este tema se describe cómo limpiar los datos utilizando el conocimiento de los proveedores de datos de referencia. Aunque los pasos que se siguen para limpiar los datos mediante los conocimientos de los proveedores de datos de referencia son los mismos que los que se usan en la ejecución de una actividad de limpieza, tal como se explica en Limpiar datos mediante el conocimiento de DQS (interno), en este tema se proporciona información específica para la limpieza de datos mediante el servicio de datos de referencia de Data Quality Services (DQS).
Importante
En este artículo se mencionan algunos servicios de datos de referencia de terceros que anteriormente no estaban disponibles desde Azure DataMarket. DataMarket y Data Services (incluidos los datos de dirección de Melissa, por ejemplo), se suspendieron después del 31/12/2016. Como resultado, ya no se pueden ejecutar los ejemplos de este artículo con los servicios especificados de DataMarket. Sin embargo, se pueden usar los servicios de datos de referencia que están disponibles directamente en línea de los proveedores de datos de referencia de terceros.
Cuando se utiliza la característica de servicio de datos de referencia en DQS para limpiar los datos, el proceso de limpieza de DQS envía los valores de dominio asignados al proveedor del servicio de datos de referencia en forma de solicitud de procesamiento por lotes. El servicio de datos de referencia responde con la información siguiente:
Corrección sugerida
Confianza
Información adicional sobre el dominio asignado. Los datos de referencia también pueden normalizar, analizar o enriquecer el origen con datos adicionales. Esta información se proporciona en campos adicionales de la respuesta.
Después de obtener la respuesta del servicio de datos de referencia, en DQS ocurre lo siguiente durante la actividad de limpieza:
Dependiendo de los valores especificados para Umbral de corrección automática y Confianza mínima durante la asignación de los dominios con el servicio de datos de referencia, los valores de dominio se corrigen o se sugieren automáticamente en función del nivel de confianza.
Nota:
Los valores de umbral que se aplican durante la limpieza de datos utilizando el conocimiento del servicio de datos de referencia son los especificados durante la asignación de un dominio a un servicio de datos de referencia, no los especificados en la pestaña Configuración general de la sección Configuración . Para obtener información sobre cómo especificar los valores de umbral para la limpieza de los datos de referencia, vea el paso 9 de Adjuntar un dominio o un dominio compuesto a datos de referencia.
Los valores de dominio se clasifican en las categorías siguientes: Sugerido, Nuevo, No válido, Corregidoy Correcto.
Los datos adicionales se anexan al origen, y la información, junto con los datos limpios, está disponible para su exportación.
Antes de empezar
Requisitos previos
Debe haber asignado los dominios requeridos de una base de conocimiento de DQS al servicio de datos de referencia apropiado. Además, la base de conocimiento debe contener conocimiento sobre el tipo de datos que desea limpiar. Por ejemplo, si quiere limpiar los datos de origen que contienen direcciones de EE. UU., debe asignar los dominios a un proveedor de servicios de datos de referencia que proporcione datos de alta calidad para esas direcciones. Para más información, vea Adjuntar un dominio o un dominio compuesto a datos de referencia.
Seguridad
Permisos
Debe disponer del rol dqs_kb_editor o dqs_kb_operator en la base de datos DQS_MAIN para realizar la limpieza de datos.
Limpiar los datos mediante el conocimiento de los datos de referencia
Continuaremos con el mismo ejemplo y usaremos los dominios que asignamos en el tema anterior, Adjuntar un dominio o un dominio compuesto a datos de referencia, con el servicio Melissa Data de Azure Marketplace. Ahora, utilizaremos los mismos dominios para limpiar algunas direcciones de EE. UU. de ejemplo. Los pasos necesarios para limpiar los datos son los mismos que los que se describen en Limpiar datos mediante el conocimiento de DQS (interno). Sin embargo, requeriremos su atención siempre que sea necesario durante el proceso.
Cree un proyecto de calidad de datos y seleccione la actividad Limpieza . Consulte Create a Data Quality Project.
En la página Asignación , asigne los 4 dominios siguientes a las columnas apropiadas de los datos de origen: Address Line, City, Statey Zip. Haga clic en Next.
Nota:
Como ha asignado los cuatro dominios dentro del dominio compuesto Address Verification , la limpieza de datos ahora se realizará en el nivel de dominio compuesto, y no en el nivel de dominio individual.
En la página Limpieza , ejecute el proceso de limpieza asistido por PC haciendo clic en Iniciar. Una vez finalizado el proceso de limpieza, haga clic en Siguiente.
Nota:
En la página Limpieza , DQS muestra información sobre los dominios adjuntados al servicio de datos de referencia de estas dos formas:
- Se muestra un mensaje debajo del botón Inicio: "Los dominios <Dominio1>, <Dominio2>,... <DominioN> se limpian mediante el proveedor de servicios de datos de referencia". En este ejemplo, se mostrará el mensaje siguiente: "La verificación de direcciones de dominio se limpian mediante el proveedor de servicios de datos de referencia".
- Se mostrará el icono en el área Generador de perfiles para los dominios adjuntados al proveedor de servicios de datos de referencia. En este ejemplo, el icono se mostrará en el dominio compuesto Address Verification .
En la página Administrar y ver resultados , revise los valores de dominio. El servicio de datos de referencia puede mostrar varias sugerencias, si están disponibles, para un valor dependiendo del número máximo de sugerencias especificadas en el cuadro Candidatos sugeridos durante la asignación del dominio al servicio de datos de referencia. Por ejemplo, se muestran dos sugerencias para la dirección de EE. UU. siguiente:
Valor original:
Línea de dirección Ciudad Valor Zip 1 msft way Redmond 98052 Valores sugeridos:
Línea de dirección Ciudad Valor Zip 1 Microsoft Way Sevilla WA 98052 PO BOX 1 Sevilla WA 98073 Nota:
En los dominios compuestos, DQS también resalta en otro color los dominios individuales que se corrigieron durante el proceso de limpieza asistido por PC. Por ejemplo, en este caso, los dominios Address line y State se corrigieron y, por consiguiente, se han resaltado en cian.
Después de que finalice la revisión de todos los valores de dominio, haga clic en Siguiente para exportar los datos.
En la página Exportar , observará que además de la información habitual acerca de la actividad de limpieza para cada dominio (Origen, Motivo, Confianza y Estado), existe información adicional proporcionada por el servicio de datos de referencia Melissa Data sobre los datos de la dirección, como la latitud y la longitud de esta, el nombre del condado, el tipo de dirección (edificio, calle, etc.), y otros.
Exporte los datos al destino requerido (SQL Server, CSV o Excel) y haga clic en Finalizar para cerrar el proyecto.
Importante
Si utiliza la versión de 64 bits de Excel, no puede exportar los datos limpiados en un archivo de Excel; puede exportar únicamente a una base de datos de SQL Server o un archivo .csv.