Convertir conjunto de datos
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
Convierte la entrada de datos al formato de conjunto de datos interno que usa Microsoft Machine Learning
Categoría: Conversiones de formato de datos
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Información general sobre el módulo
En este artículo se describe cómo usar el módulo Convertir en conjunto de datos en Machine Learning Studio (clásico) para convertir los datos que necesite para un experimento al formato interno que usa Studio (clásico).
La conversión no es necesaria en la mayoría de los casos, Machine Learning convierte implícitamente los datos a su formato de conjunto de datos nativo cuando se realiza cualquier operación en los datos.
Sin embargo, se recomienda guardar los datos en el formato del conjunto de datos si ha realizado algún tipo de normalización o limpieza en un conjunto de datos y desea asegurarse de que los cambios se utilizan en otros experimentos.
Nota:
Convertir en conjunto de datos solamente cambia el formato de los datos y no guarda una nueva copia de dichos datos en el área de trabajo. Para guardar el conjunto de datos, haga doble clic en el puerto de salida, seleccione Guardar como conjunto de datos y escriba un nuevo nombre.
Cómo usar Convertir conjunto de datos
Le recomendamos usar el módulo de Edición de metadatos para preparar el conjunto de datos antes de usar Convertir conjunto de datos. Puede agregar o cambiar los nombres de columna, ajustar los tipos de datos, etc.
Agregue el módulo Convertir en conjunto de datos al experimento. Puede encontrar este módulo en la categoría Conversiones de formato de datos en Machine Learning Studio (clásico).
Conéctelo a cualquier módulo que genere un conjunto de datos.
Siempre y cuando los datos sean tabulares, puede convertirlos en un conjunto de datos. Esto incluye los datos cargados mediante Importar datos, los datos creados mediante Escribir datos manualmente, los datos generados por código en módulos personalizados, los conjuntos de datos transformados mediante la transformación Aplicar o los conjuntos de datos que se generaron o modificaron mediante Aplicar SQL Transformation.
En la lista desplegable Acción, indique si desea realizar alguna limpieza en los datos antes de guardar el conjunto de datos:
Ninguna: Use los datos tal como están.
SetMissingValue: especifique un marcador de posición que se inserte en el conjunto de datos siempre que falte un valor. El marcador de posición predeterminado es el carácter de signo de interrogación (?), pero puede usar la opción Valor que falta personalizado para escribir un valor diferente.
ReplaceValues: Use esta opción para especificar valor único exacto que se va a reemplazar por cualquier otro valor exacto. Por ejemplo, suponiendo que los
obs
datos contengan la cadena usada como marcador de posición para los valores que faltan, podría especificar una operación de reemplazo personalizada con estas opciones:Establezca Reemplazar enPersonalizado
En Valor personalizado, escriba el valor que desea buscar. En este caso, escribiría
obs
.EnNuevo valor, escriba el nuevo valor con el que va a reemplazar la cadena original. En este caso, podría escribir
?
Tenga en cuenta que la operación ReplaceValues solo se aplica a las coincidencias exactas. Por ejemplo, estas cadenas no se verían afectadas:
obs.
,obsolete
.- SparseOutput: indica que el conjunto de datos es disperso. Al crear un vector de datos disperso, puede asegurarse de que los valores que faltan no afectan a una distribución de datos dispersa. Después de elegir esta opción, debe indicar cómo se deben controlar los valores que faltan y los valores cero.
Para quitar cualquier valor distinto de cero, haga clic en la opción Quitar y escriba un valor único para quitar. Puede quitar los valores que faltan o establecer un valor personalizado para eliminar del vector. Solo se quitarán las coincidencias exactas. Por ejemplo, si escribe en el
x
cuadro de texto Quitar valor, la filaxx
no se verá afectada.De forma predeterminada, la opción Quitar ceros se establece en
True
, lo que significa que todos los valores cero se quitan cuando se crea la columna dispersa.Ejecute el experimento o haga clic con el botón derecho en el módulo Convertir en conjunto de datos y seleccione Ejecutar seleccionado.
Results
- Para guardar el conjunto de resultados con un nuevo nombre, haga clic con el botón derecho en la salida de Convertir conjunto de datos y seleccione Guardar como conjunto de resultados.
Ejemplos
Puede ver ejemplos de cómo se usa el módulo Convertir en conjunto de datos en el Azure AI Gallery:
Ejemplo de CRM: lee de un conjunto de datos compartido y guarda una copia del conjunto de datos en el área de trabajo local.
Ejemplo de retraso de vuelo: guarda un conjunto de datos que se ha limpiado reemplazando los valores que faltan para que pueda usarlo en experimentos futuros.
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Cualquier módulo que toma un conjunto de datos como entrada también puede tomar los datos en los formatos CSV, TSV o ARFF. Antes de ejecutar cualquier código del módulo, se realiza el preprocesamiento de las entradas, que equivale a ejecutar el módulo Convertir en conjunto de datos en la entrada.
No se puede convertir del formato SVMLight al conjunto de datos.
Al especificar una operación de reemplazo personalizada, la operación de búsqueda y reemplazo se aplica a los valores completos; no se permiten coincidencias parciales. Por ejemplo, puede reemplazar un 3 por un-1 o por 33, pero no puede reemplazar un 3 por un número de dos dígitos, como 35.
En el caso de las operaciones de reemplazo personalizadas, el reemplazo producirá un error en modo silencioso si usa como reemplazo cualquier carácter que no cumpla el tipo de datos actual de la columna.
Si necesita guardar datos que usan datos numéricos dispersos y que faltan valores, internamente, Studio (clásico) admite matrices dispersas mediante un SparseVector, que es una clase de la biblioteca numérica Math.NET. Prepare los datos que usan ceros y que faltan valores y, a continuación, use Convertir en conjunto de datos con los argumentos SparseOutput y Remove Zeros = TRUE.
Entradas esperadas
Nombre | Tipo | Descripción |
---|---|---|
Dataset | Tabla de datos | Conjunto de datos de entrada |
Parámetros del módulo
Nombre | Intervalo | Tipo | Valor predeterminado | Descripción |
---|---|---|---|---|
Acción | Lista | Método de acción | Ninguno | Acción para aplicar al conjunto de datos de entrada |
Output
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | Conjunto de datos de salida |