Split Data (Dividir datos)

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Particiones de filas de un conjunto de datos en dos conjuntos distintos de particiones

Categoría: Transformación de datos/ Muestra y división

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este tema se describe cómo usar el módulo Dividir datos en Machine Learning Studio (clásico) para dividir un conjunto de datos en dos conjuntos distintos.

Este módulo es especialmente útil cuando necesita separar los datos en conjuntos de entrenamiento y de prueba. Además, puede personalizar la forma en que los datos se dividen. Algunas opciones admiten la selección aleatoria de datos; otras están adaptadas a un determinado tipo de datos o tipo de modelo.

Configuración de la división de datos

Sugerencia

Antes de elegir el modo de división, lea todas las opciones para determinar el tipo de división que necesita. Si cambia el modo de división, se podrían restablecer todas las demás opciones.

  1. Agregue el módulo Split Data (Dividir datos) al experimento en Studio. Puede encontrar este módulo en Transformación de datos, en la categoría Sample and Split (Muestrear y dividir).

  2. Modo de división: elija uno de los siguientes modos, en función del tipo de datos que tenga y de cómo quiera dividirlos. Cada modo de división tiene distintas opciones. Haga clic en los temas siguientes para obtener instrucciones detalladas y ejemplos.

    • Split Rows (Dividir filas): Use esta opción si quiere dividir los datos en dos partes. Puede especificar el porcentaje de datos que se colocará en cada división, pero de forma predeterminada, los datos se dividen 50 y 50.

      También puede hacer la selección de filas de cada grupo de forma aleatoria y usar muestreo estratificado. En el muestreo estratificado, debe seleccionar una sola columna de datos para la que quiera que los valores se distribuyan por igual entre los dos conjuntos de datos de resultados.

    • División del recomendador: elija siempre esta opción si está preparando los datos para su uso en un sistema de recomendación. Le ayuda a dividir conjuntos de datos en grupos de entrenamiento y pruebas, al tiempo que garantiza que los valores importantes, como los pares usuario-elemento o las clasificaciones, se dividen uniformemente entre los grupos.

    • Regular Expression Split (División de expresión regular): elija esta opción cuando quiera dividir el conjunto de datos probando una sola columna para un valor.

      Por ejemplo, si va a analizar las opiniones, podría comprobar la presencia de un nombre de producto en particular en un campo de texto y, luego, dividir el conjunto de datos en filas que contienen el nombre de producto de destino y otras que no lo contienen.

    • Relative Expression Split (División de expresión relativa): Use esta opción siempre que quiera aplicar una condición a una columna de números. El número podría ser un campo de fecha y hora, una columna que contiene edades o importes monetarios, incluso un porcentaje. Por ejemplo, es posible que quiera dividir el conjunto de datos según el costo de los artículos, agrupar personas por intervalos de edad, o separar datos por una fecha del calendario.

Requisitos

  • Dividir datos puede crear un máximo de dos conjuntos de conjuntos de datos a la vez, y esos conjuntos deben ser exclusivos.

    Por lo tanto, si tiene una división compleja con varias condiciones y salidas, es posible que tenga que encadenar varios módulos split data .

    Como alternativa, puede usar una instrucción CASE y el módulo Aplicar SQL transformación.

  • Este módulo no elimina datos ni los quita del conjunto de datos. simplemente divide los datos tal y como se especifica entre la primera y la segunda salida del módulo.

  • La división de datos para un sistema de recomendación conlleva algunos requisitos adicionales. En general, el conjunto de datos solo puede constar de pares usuario-elemento o triples de clasificación de elementos de usuario. Por lo tanto, el módulo Dividir datos no puede funcionar en conjuntos de datos que tengan más de tres columnas, para evitar confusiones con los datos de tipo de característica. Si el conjunto de datos contiene demasiadas columnas, es posible que reciba este error:

    Error 0022: El número de columnas seleccionadas en el conjunto de datos de entrada no es igual a x

    Como solución alternativa, puede usar Seleccionar columnas en el conjunto de datos para quitar algunas columnas y, a continuación, agregar las columnas más adelante mediante Agregar columnas. Como alternativa, si el conjunto de datos tiene muchas características que desea usar en el modelo, divida el conjunto de datos con una opción diferente y entrena el modelo con Train Model (Entrenar modelo) en lugar de Train Matchbox Recommender (Entrenar recomendador de Matchbox).

Ejemplos

Para obtener ejemplos de cómo se usa el módulo Dividir datos, consulte el Azure AI Gallery:

  • Validación cruzada para clasificación binaria: conjunto de datos para adultos: se aplica una frecuencia de muestreo del 20 % para crear un conjunto de datos más pequeño muestreado aleatoriamente. (El conjunto de datos del censo original tenía más de 30.000 filas; el conjunto de datos de entrenamiento tiene unas 6.500). El conjunto de datos se limpia de valores que faltan y, a continuación, se pasa a cinco modelos diferentes para el entrenamiento y la validación cruzada.

Notas técnicas

Los siguientes requisitos se aplican a todos los usos de Dividir datos:

  • El conjunto de datos de entrada debe incluir al menos dos filas o se produce un error.
  • Si usa la opción de especificar el número de filas que quiere, el número especificado debe ser un entero positivo y el número debe ser menor que el número total de filas del conjunto de datos.
  • Si especifica un número como un porcentaje o si usa una cadena que contiene el carácter “%”, el valor se interpretará como un porcentaje. Todos los valores de porcentaje deben estar dentro del rango (0, 100), sin incluir los valores 0 y 100.
  • Si especifica un número o un porcentaje que es un número de punto flotante menor que uno y no usa el símbolo de porcentaje “%”, el número se interpretará como un valor proporcional.
  • Si usa la opción para una división estratificada, los conjuntos de datos de salida se pueden dividir aún más entre subgrupos, seleccionando una columna de capa.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos para dividir

Parámetros del módulo

Nombre Tipo Intervalo Opcional Descripción Valor predeterminado
Modo de división Modo de división Dividir filas, división del recomendador, expresión regular o expresión relativa Obligatorio Dividir filas Elegir el método para dividir el conjunto de datos

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados 1 Tabla de datos Conjunto de datos que contiene las filas seleccionadas
Conjunto de datos de resultados 2 Tabla de datos Conjunto de datos que contiene todas las demás filas

Consulte también

Muestrear y dividir
Partición y ejemplo
Lista de módulos A-Z