Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La combinación aproximada es una característica de preparación de datos inteligente que puede usar para aplicar algoritmos de coincidencia aproximada al comparar columnas. Estos algoritmos intentan buscar coincidencias entre las tablas que se combinan.
Puede habilitar la coincidencia aproximada en la parte inferior del cuadro de diálogo Combinar seleccionando el botón Usar coincidencia aproximada para realizar el botón de opción de combinación . Más información: Introducción a las operaciones de combinación
Nota:
La coincidencia aproximada solo se admite en las operaciones de combinación a través de columnas de texto. Power Query usa el algoritmo de similitud jaccard para medir la similitud entre pares de instancias.
Escenario de ejemplo
Un caso de uso común para la coincidencia aproximada es con campos de texto libre, como en una encuesta. Para este artículo, la tabla de ejemplo se tomó directamente desde una encuesta en línea enviada a un grupo con una sola pregunta: ¿Cuál es su fruta favorita?
Los resultados de esa encuesta se muestran en la siguiente imagen.
Captura de pantalla de la tabla de salida de la encuesta de ejemplo que contiene el gráfico de distribución de columnas que muestra nueve respuestas distintas con todas las respuestas únicas y las respuestas a la encuesta con todos los errores tipográficos, plurales o singulares, y problemas de casos.
Los nueve registros reflejan los envíos de la encuesta. El problema con los envíos de encuestas es que algunos tienen errores tipográficos, algunos son plurales, algunos son singulares, algunos son mayúsculas y algunos son minúsculas.
Para ayudar a estandarizar estos valores, en este ejemplo tiene una tabla de referencia Frutas .
Captura de pantalla de la tabla de referencia Frutas que contiene el gráfico de distribución de columnas que muestra cuatro frutas distintas con todas las frutas únicas, y la lista de frutas: manzana, piña, sandía y plátano.
Nota:
Por motivos de simplicidad, esta tabla de referencia Frutas solo incluye el nombre de las frutas que serán necesarias para este escenario. La tabla de referencia puede tener tantas filas como necesite.
El objetivo es crear una tabla como la siguiente, donde ha estandarizado todos estos valores para que pueda realizar más análisis.
Captura de pantalla de la tabla de resultados de la encuesta de ejemplo con la columna Pregunta que contiene el gráfico de distribución de columnas. El gráfico muestra nueve respuestas distintas con todas las respuestas únicas. Las respuestas a la encuesta contienen todos los errores tipográficos, plurales o singulares y problemas de casos. La tabla de salida también contiene la columna Fruit. Esta columna contiene el gráfico de distribución de columnas que muestra cuatro respuestas distintas con una respuesta única. También se enumeran todas las frutas con ortografía correcta, en forma singular y con mayúsculas y minúsculas adecuadas.
Operación de combinación aproximada
Para llevar a cabo la fusión aproximada, comience por realizar una fusión. En este caso, se usa una unión externa izquierda, donde la tabla izquierda es la correspondiente a la encuesta y la tabla derecha es la tabla de referencia de Frutas. En la parte inferior del cuadro de diálogo, active la casilla Usar coincidencia aproximada para realizar la combinación .
Después de seleccionar Aceptar, puede ver una nueva columna en la tabla debido a esta operación de combinación. Si lo expande, hay una fila que no tiene ningún valor en ella. Eso es exactamente lo que el mensaje del cuadro de diálogo de la imagen anterior indicó cuando dijo "La selección coincide con 8 de 9 filas de la primera tabla".
Captura de pantalla de la columna de fruta agregada a la tabla de la encuesta. Todas las filas de la columna Pregunta se expanden, excepto la fila 9, que no se pudo expandir y la columna Fruit contiene null.
Opciones de coincidencia difusa
Puede modificar las opciones de coincidencia aproximadas para ajustar cómo se debe realizar la coincidencia aproximada. En primer lugar, seleccione el comando Combinar consultas y, después, en el cuadro de diálogo Combinar , expanda Opciones de coincidencia aproximada.
Las opciones disponibles son:
- Umbral de similitud (opcional): un valor entre 0,00 y 1,00 que proporciona la capacidad de hacer coincidir los registros por encima de una puntuación de similitud determinada. Un umbral de 1,00 es el mismo que especificar un criterio de coincidencia exacto. Por ejemplo, Uvas coincide con Graes (falta la letra p) solo si el umbral se establece en menor que 0,90. De forma predeterminada, este valor se establece en 0,80.
- Ignorar mayúsculas y minúsculas: permite coincidencias en los registros independientemente del caso del texto.
- Coincidencia mediante la combinación de elementos de texto: permite combinar elementos de texto para buscar coincidencias. Por ejemplo, Micro soft coincide con Microsoft si esta opción está habilitada.
- Mostrar puntuaciones de similitud: muestra puntuaciones de similitud entre la entrada y los valores coincidentes después de la coincidencia aproximada.
- Número de coincidencias (opcional): especifica el número máximo de filas coincidentes que se pueden devolver para cada fila de entrada.
- Tabla de transformación (opcional): permite la coincidencia de registros en función de las asignaciones de valores personalizadas. Por ejemplo, Uvas coincide con Raisins si se proporciona una tabla de transformación donde la columna From contiene Uvas y la columna To contiene Raisins.
Tabla de transformación
En el ejemplo de este artículo, puede usar una tabla de transformación para asignar el valor que tiene un par que falta. Ese valor es apls, que debe asignarse a Apple. La tabla de transformación tiene dos columnas:
- Desde contiene los valores a encontrar.
- To contiene los valores que se utilizan para reemplazar los valores encontrados usando la columna From.
Para este artículo, la tabla de transformación tiene el siguiente aspecto:
| De | Para |
|---|---|
| apls | Manzana |
Puede volver al cuadro de diálogo Combinar y, en Opciones de coincidencia aproximadas en Número de coincidencias, escriba 1. Habilite la opción Mostrar puntuaciones de similitud y, a continuación, en Tabla de transformación, seleccione Transformar tabla en el menú desplegable.
Después de seleccionar Aceptar, puede ir al paso de combinación. Al expandir la columna con valores de tabla, además del campo Fruit también verá el campo Puntuación de similitud. Seleccione ambos y expándalos sin agregar un prefijo.
Después de expandir estos dos campos, se agregan a la tabla. Tenga en cuenta los valores que obtiene para las puntuaciones de similitud de cada valor. Estas puntuaciones pueden ayudarle con transformaciones adicionales si es necesario para determinar si debe reducir o aumentar el umbral de similitud.
En este ejemplo, la puntuación de similitud solo sirve como información adicional y no es necesaria en la salida de esta consulta, por lo que puede quitarla. Observe cómo el ejemplo comenzó con nueve valores distintos, pero después de la combinación aproximada, solo hay cuatro valores distintos.
Captura de pantalla de la tabla de resultados de la encuesta de combinación aproximada con la columna Pregunta que contiene el gráfico de distribución de columnas que muestra nueve respuestas distintas con todas las respuestas únicas y las respuestas a la encuesta con todos los errores tipográficos, plurales o singulares y problemas de casos. También contiene la columna Fruta con el gráfico de distribución de columnas que muestra cuatro respuestas distintas, incluyendo una única respuesta, y enumera todas las frutas correctamente escritas en singular y con el formato de mayúsculas adecuado.
Para obtener más información sobre cómo funcionan las tablas de transformación, vaya a Prescripciones de tabla de transformación.