Compartir a través de


Combinación de datos

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Combina dos conjuntos de datos

Categoría: Transformación y manipulación de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Combinar datos en Machine Learning Studio (clásico) para combinar dos conjuntos de datos mediante una operación de combinación de estilo de base de datos.

Para realizar una combinación en dos conjuntos de datos, deben estar relacionados con una sola columna de clave. No se admiten claves compuestas.

Configuración de Combinación de datos

  1. En Machine Learning Studio (clásico), agregue los conjuntos de datos que desea combinar y arrastre el módulo Combinar datos al experimento.

    Puede encontrar el módulo en la categoría Transformación de datos, en Manipulación.

  2. Conecte los conjuntos de datos al módulo Combinación de datos.

    El módulo Unir datos no admite una combinación externa derecha, por lo que si desea asegurarse de que las filas de un conjunto de datos determinado se incluyen en la salida, ese conjunto de datos debe estar en la entrada izquierda.

  3. Haga clic en Iniciar selector de columnas para elegir una sola columna de clave para el conjunto de datos en la entrada izquierda.

  4. Haga clic en Iniciar selector de columnas para elegir una sola columna de clave para el conjunto de datos en la entrada derecha.

  5. Seleccione la opción Coincidir mayúsculas y minúsculas si va a combinar en una columna de texto y desea asegurarse de que la combinación conserva la confidencialidad de mayúsculas y minúsculas.

    Por ejemplo, si selecciona esta opción, A1000 se consideraría un valor de clave diferente que a1000.

    Si anula la selección de esta opción, no se aplica la confidencialidad de mayúsculas y minúsculas y A1000 se consideraría igual que a1000.

  6. Use la lista desplegable Tipo de combinación para especificar cómo se deben combinar los conjuntos de datos. Tipos:

    • Combinación interna: una combinación interna es la operación de combinación típica. Devuelve las filas combinadas solo cuando coinciden los valores de las columnas de clave.

    • Combinación externa izquierda: una combinación externa izquierda devuelve filas combinadas para todas las filas de la tabla izquierda. Cuando una fila de la tabla izquierda no tiene filas coincidentes en la tabla derecha, la fila devuelta contiene los valores que faltan de todas las columnas procedentes de la tabla derecha, a menos que especifique un valor de reemplazo para los valores que faltan.

    • Combinación externa completa: una combinación externa completa devuelve todas las filas de la tabla izquierda (table1) y de la tabla derecha (table2).

      Para cada una de las filas de la tabla izquierda que no tienen filas coincidentes en la tabla derecha, los resultados de la combinación incluyen una fila que contiene los valores que faltan de la tabla derecha.

      Para cada una de las filas de la tabla derecha que no tienen filas coincidentes en la tabla izquierda, los resultados de la combinación incluyen una fila que contiene valores que faltan para todas las columnas de la tabla izquierda.

    • Semicombinación izquierda: una semicombinación izquierda solo devuelve los valores de la tabla izquierda cuando coinciden los valores de las columnas de clave.

  7. Para la opción , mantenga las enumeraciones de clave correctas en la tabla unida:

    • Anule la selección de la opción para obtener una sola columna de clave en los resultados.
    • Deje la opción seleccionada para ver las claves de ambas tablas de entrada.
  8. Ejecute el experimento o seleccione el módulo Unir datos y seleccione Ejecutar seleccionado para realizar la combinación.

  9. Para ver los resultados, haga clic con el botón derecho en el módulo Unir datos, seleccione Conjunto de datos de resultados y haga clic en Visualizar.

Ejemplos

Puede ver ejemplos de cómo se usa este módulo en el Azure AI Gallery:

  • Detección de cáncer de seno: los datos de combinación se usan para combinar los casos de entrenamiento positivos con los casos de entrenamiento negativos una vez que se ha ajustado la proporción de casos.

  • Predicción de retraso de vuelos: en este ejemplo, join data se usa para reunir características útiles de conjuntos de datos externos.

  • Recomendación de película: se unen dos conjuntos de datos para que podamos presentar los títulos de películas recomendados en lugar de un identificador de película.

  • Predicción del rendimiento de los alumnos: en este ejemplo, los datos de combinación se usan para incorporar nuevas características.

Notas técnicas

En esta sección se describen los detalles de implementación y las respuestas a algunas preguntas más frecuentes.

Restricciones

  • El conjunto de datos combinado no puede tener dos columnas con el mismo nombre. Si los conjuntos de datos izquierdo y derecho tienen nombres de columna duplicados, se anexa un sufijo numérico a los nombres de columna del conjunto de datos derecho para que sea único.

    Por ejemplo, si ambos conjuntos de datos tuvieran una columna denominada Mes, la columna del conjunto de datos izquierdo permanecería tal como está y la columna del conjunto de datos derecho cambiaría de nombre Mes (1).

  • El algoritmo que se usa para comparar los valores de clave se fuerza mediante hash.

  • Cada columna del conjunto de datos combinado conserva el tipo de categoría, siempre que la columna correspondiente del conjunto de datos de entrada tenga una categoría.

  • En las combinaciones externas izquierdas, si falta algún valor, se creará un nivel de categoría para los valores que falten en el conjunto de datos izquierdo, aunque no falte ningún valor en el conjunto de datos combinado (el derecho).

¿Cómo puedo unir una tabla en una clave compuesta?

Si necesita unir una tabla que usa claves compuestas (es decir, la clave principal se basa en dos columnas independientes), use un módulo como el siguiente para concatenar el contenido de las dos columnas de clave:

  • Ejecución script de R

    Por ejemplo, use código como el siguiente dentro del script de R para concatenar la primera y la segunda columna de la trama de datos de entrada mediante un guion como separador. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Aplicación de transformaciones de SQL

    El operador de concatenación de SQLite es ||.

¿Cómo puedo unir tablas que no tienen una clave?

Si el conjunto de datos no tiene ninguna columna de clave, todavía puede combinarla con otro conjunto de datos, ya sea generando una clave o mediante el módulo Agregar columnas.

El módulo Agregar columnas se comporta como R y puede combinar dos conjuntos de datos fila a fila, si los conjuntos de datos tienen el mismo número de filas. Se produce un error si los conjuntos de datos tienen un tamaño diferente.

Entradas esperadas

Nombre Tipo Descripción
DataSet1 Tabla de datos Primer conjunto de datos para combinar
Dataset2 Tabla de datos Segundo conjunto de datos para combinar

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Combinar columnas de clave para L Any ColumnSelection Seleccione las columnas de clave de combinación del primer conjunto de datos.
Combinar columnas de clave para R Any ColumnSelection Seleccione las columnas de clave de combinación del segundo conjunto de datos.
Coincidir mayúsculas y minúsculas Any Boolean True Indique si se permite una comparación que distinga mayúsculas de minúsculas en las columnas de clave.
Tipo de combinación Lista Tipo Combinación interna Elija un tipo de combinación.
Mantener las columnas de clave derechas en la tabla combinada Any Boolean True Indique si quiere mantener las columnas de clave del segundo conjunto de datos en el conjunto de datos combinado.

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Resultado de la operación de combinación

Excepciones

Excepción Descripción
Error 0001 Se produce una excepción si no se encuentran una o varias de las columnas especificadas del conjunto de datos.
Error 0003 Se produce una excepción si una o varias de las entradas son nulas o están vacías.
Error 0006 Se produce una excepción si el parámetro es mayor o igual que el valor especificado.
Error 0016 Se produce una excepción si los conjuntos de datos de entrada que se pasan al módulo deben tener tipos de columna compatibles, pero es así.
Error 0017 Se produce una excepción si una o varias columnas especificadas tienen tipos no compatibles con el módulo actual.
Error 0020 Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0028 Se produce una excepción cuando el conjunto de columnas contiene nombres de columna duplicados y no está permitido.
Error 0011 Se produce una excepción si el argumento del conjunto de columnas pasado no se aplica a ninguna columna del conjunto de datos.
Error 0027 Se produce una excepción cuando dos objetos tienen que ser del mismo tamaño pero no lo son.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Manipulación
Transformación de datos
Lista de módulos A-Z