Cursos
Módulo
Introducción a los modelos de agrupación en clústeres mediante R y tidymodels - Training
Introducción a los modelos de agrupación en clústeres mediante R y tidymodels.
Este explorador ya no se admite.
Actualice a Microsoft Edge para aprovechar las características y actualizaciones de seguridad más recientes, y disponer de soporte técnico.
Los valores del clúster crean automáticamente grupos con valores similares mediante un algoritmo de coincidencia aproximada y, a continuación, asignan el valor de cada columna al grupo que mejor coincide. Esta transformación resulta útil cuando trabaja con datos que tienen muchas variaciones diferentes del mismo valor y tiene que combinar valores en grupos consistentes.
Considere una tabla de muestra con una columna de identificación que contiene un conjunto de identificación y una columna de Persona que contiene un conjunto de versiones escritas y en mayúscula de los nombres Miguel, Mike, William y Bill.
En este ejemplo, el resultado que está buscando es una tabla con una nueva columna que muestra los grupos correctos de valores de la columna de Persona y no todas las diferentes variaciones de las mismas palabras.
Nota
La función de Valores del clúster solo está disponible para Power Query Online.
Para agrupar valores, primero seleccione la columna de Persona, vaya a la columna Añadir en la cinta de opciones y, a continuación, seleccione la pestaña de la opción de Valores de clúster.
En el cuadro de diálogo de los Valores de clúster, confirme la columna desde la que desea crear los clústeres e ingrese el nuevo nombre de la columna. Para este caso, asígnele un nombre a esta nueva columna Clúster.
El resultado de esta operación se muestra en la siguiente imagen.
Nota
Para cada clúster de valores, Power Query selecciona la instancia más frecuente de la columna seleccionada como instancia "canónica". Si se producen varias instancias con la misma frecuencia, Power Query seleccione la primera.
Las siguientes opciones están disponibles para agrupar los valores en una nueva columna:
Para este ejemplo, una nueva tabla de transformación con el nombre Mi tabla de transformación se utiliza para demostrar cómo se pueden mapear los valores. Esta tabla de transformación tiene dos columnas:
Importante
Es importante que la tabla de transformación tenga las mismas columnas y nombres de la columna que se muestran en la imagen anterior (deben llamarse "Desde" y Para"), de lo contrario, Power Query no reconocerá esta tabla como una tabla de transformación y no se realizará ninguna transformación.
Con la consulta creada anteriormente, haga doble clic en el paso de Valores agrupados, luego en el cuadro de diálogo de los Valores del clúster, expandir Opciones del clúster difuso. Bajo Opciones de clúster difuso, habilite la opción de Mostrar puntuaciones de similitud. Para la Tabla de transformación (opcional), seleccione la consulta que tiene la tabla de transformación.
Después de seleccionar la tabla de transformación y habilitar la opción de Mostrar puntuaciones de similitud, seleccionar OK. El resultado de esa operación le da una tabla que contiene las mismas columnas de identificación y de Persona que en la tabla original, pero también incluye dos columnas nuevas llamadas Clúster y Person_Cluster_Similarity. La columna del Clúster contiene las versiones correctamente escritas y en mayúscula de los nombres Miguel para las versiones de Miguel y Mike, y William para las versiones de Bill, Billy y William. La columna de Person_cluster_similarity contiene las puntuaciones de similitud para cada uno de los nombres.
Es posible que observe que la tabla de transformación de la sección anterior parecía indicar que las instancias de Mike se cambiaron a Miguel y las instancias de William se cambiaron a Bill. Sin embargo, en la tabla resultante, las instancias de Bill y "billy" se cambiaron a William. En la tabla de transformación, en lugar de ser una ruta de acceso directa de De a A, la tabla de transformación es simétrica durante la agrupación en clústeres, lo que significa que "mike" es equivalente a "Miguel" y viceversa. El resultado de los equivalentes proporcionados en la tabla de transformación depende de las reglas siguientes:
Por ejemplo, en la tabla original usada en este artículo, las versiones de Miguel (tanto "miguel" como Miguel) en la columna Persona constituyen la mayoría de las instancias del nombre Miguel y Mike. Además, el nombre Miguel con mayúsculas iniciales constituye la mayoría del nombre Miguel. Por lo tanto, la asociación de Miguel y sus derivados y Mike y sus derivados en la tabla de transformación da como resultado que se use el nombre Miguel en la columna Clúster.
Sin embargo, para los nombres William, Bill y "billy", no hay mayoría de valores, ya que los tres son únicos. Como William aparece primero, William se usa en la columna Clúster. Si "billy" hubiera aparecido primero en la tabla, se usaría "billy" en la columna Clúster. Además, dado que no hay mayoría de valores, se usa el caso usado por los nombres individuales. Es decir, si William va primero, se usa William con una mayúscula "W" como valor de resultado; si "billy" va primero, se usa "billy" con una "b" minúscula.
Cursos
Módulo
Introducción a los modelos de agrupación en clústeres mediante R y tidymodels - Training
Introducción a los modelos de agrupación en clústeres mediante R y tidymodels.