Seleccionar columnas de conjunto de datos

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Selecciona las columnas para incluirlas o excluirlas del conjunto de datos en una operación

Categoría: Transformación y manipulación de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Seleccionar columnas en conjunto de datos de Machine Learning Studio (clásico) para elegir un subconjunto de columnas que se usará en las operaciones de bajada. El módulo no elimina físicamente las columnas del conjunto de datos de origen; en su lugar, crea un subconjunto de columnas, muy similar a una vista o proyección de una base de datos.

Este módulo es especialmente útil cuando necesita limitar las columnas disponibles para una operación de bajada, o si desea reducir el tamaño del conjunto de datos mediante la eliminación de columnas innecesarios.

Las columnas del conjunto de datos mantienen el mismo orden que en los datos originales, incluso si las especifica en un orden diferente.

Cómo usar Seleccionar columnas en el conjunto de datos

Este módulo no tiene parámetros. Utiliza el selector de columnas para elegir las columnas que desea incluir o excluir.

Elegir columnas por nombre

El módulo cuenta con varias opciones para elegir columnas por nombre:

  • Filtrar y buscar

    Haga clic en la opción POR NOMBRE.

    Si ha conectado un conjunto de datos que ya está propagado, se mostrará una lista de columnas disponibles. Si no aparece ninguna columna, es posible que deba ejecutar módulos ascendentes para ver la lista de columnas.

    Para filtrar la lista, escriba en el cuadro de búsqueda. Por ejemplo, si escribe la letra w en el cuadro de búsqueda, la lista se filtrará para mostrar los nombres de columna que contengan la letra w.

    Seleccione las columnas y haga clic en el botón de flecha derecha para mover las columnas seleccionadas a la lista del panel derecho.

    • Para seleccionar un intervalo continuo de nombres de columna, presione Mayús + clic.
    • Para agregar columnas individuales a la selección, presione Ctrl + clic.

    Haga clic en el botón de marca de verificación para guardar y cerrar.

  • Usar nombres en combinación con otras reglas

    Haga clic en la opción CON REGLAS.

    Elija una regla, por ejemplo, que se muestren las columnas de un tipo de datos específico.

    A continuación, haga clic en las columnas individuales de ese tipo por nombre para agregarlas a la lista de la selección.

  • Escribir o pegar una lista de nombres de columna separados por comas

    Si el conjunto de datos es muy amplio, puede ser más fácil usar índices o listas de nombres generadas, en lugar de seleccionar columnas individualmente. Suponiendo que ha preparado la lista de antemano:

    1. Haga clic en la opción CON REGLAS.
    2. Seleccione Ninguna columna, seleccione Incluir y, a continuación, haga clic en el cuadro de texto con el signo de exclamación rojo.
    3. Pegue o escriba una lista de nombres de columna validados previamente separados por comas. No puede guardar el módulo si alguna columna tiene un nombre no válido, por lo que deberá comprobar los nombres de antemano.

    También puede usar este método para especificar una lista de columnas utilizando sus valores de índice. Consulte la sección Ejemplos para obtener sugerencias sobre cómo trabajar con índices de columna.

Elegir por tipo

Si usa la opción CON REGLAS, puede aplicar varias condiciones a las selecciones de columnas. Por ejemplo, es posible que necesite obtener solo las columnas de característica de un tipo de datos numérico.

La opción BEGIN WITH determina el punto de partida y es muy importante para comprender los resultados.

  • Si selecciona la opción TODAS LAS COLUMNAS, se agregarán todas las columnas a la lista. A continuación, debe usar la opción Excluir para eliminar las columnas que cumplan ciertas condiciones.

    Por ejemplo, puede comenzar con todas las columnas y, a continuación, eliminar columnas por nombre o por tipo.

  • Si selecciona la opción NINGUNA COLUMNA, la lista de columnas empieza vacía. A continuación, deberá especificar las condiciones para agregar columnas a la lista.

    Si aplica varias reglas, cada condición es aditiva. Por ejemplo, supongamos que comienza sin ninguna columna y, a continuación, agrega una regla para obtener todas las columnas numéricas. En el conjunto de datos de precios de automóviles, que obtiene como resultado 16 columnas. A continuación, haga clic en + el signo para agregar una nueva condición y seleccione Incluir todas las características. El conjunto de datos resultante incluye todas las columnas numéricas, además de todas las columnas de característica, incluidas algunas columnas de característica de cadena.

Elegir por índice de columna

El índice de columna hace referencia al orden de la columna dentro del conjunto de datos original.

  • Las columnas se numeran secuencialmente, comenzando en el 1.
  • Para obtener un intervalo de columnas, use un guion.
  • No se permiten especificaciones abiertas como 1- o -3.
  • No se permiten valores de índice (o nombres de columna) duplicados, que podrían producir un error.

Por ejemplo, suponiendo que el conjunto de datos tiene al menos ocho columnas, puede pegar cualquiera de los ejemplos siguientes para devolver varias columnas no contiguas:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

el último ejemplo no produce un error; sin embargo, devuelve una única instancia de la columna 4.

Para obtener sugerencias adicionales sobre cómo trabajar con índices de columna, consulte la sección Ejemplos.

Cambiar el orden de las columnas

La opción Permitir duplicados y conservar el orden de las columnas en la selección comienza con una lista vacía y agrega las columnas que especifica por nombre o por índice. A diferencia de otras opciones, que siempre devuelven las columnas en su "orden natural", esta opción muestra las columnas en el orden en que las nombre o enumere.

Por ejemplo, en un conjunto de datos con las columnas Col1, Col2, Col3 y Col4, podría invertir el orden de las columnas y omitir la columna 2 especificando las listas siguientes:

  • Col4, Col3, Col1
  • 4,3,1

Ejemplos

Para obtener ejemplos de cómo usar Seleccionar columnas en el conjunto de datos, consulte estos experimentos de ejemplo en la Galería de modelos:

Escenarios comunes para la selección de columnas

En los ejemplos siguientes se describen algunas formas habituales en que los usuarios aplican Seleccionar columnas en el conjunto de datos en el aprendizaje automático y se proporcionan algunas sugerencias sobre cómo seleccionar las columnas:

  • Quiero quitar columnas de texto del conjunto de datos para poder aplicar una operación matemática a todas las columnas numéricas.

    Muchas operaciones requieren que solo las columnas numéricas están presentes en el conjunto de datos. Puede quitar temporalmente las columnas que provocarían un error si excluye texto y excluye columnas de categorías (números que representan categorías discretas).

    1. Haga clic en Launch column selector (Iniciar selector de columnas).

    2. En Comenzar por, seleccione Todas las columnas.

    3. Seleccione la opción Excluir , seleccione tipo de columna y, a continuación, seleccione Cadena.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción Excluir , seleccione tipo de columna y, a continuación, seleccione Categoría.

  • Tengo que aplicar la selección de características solo a las columnas de características categóricas.

    Si necesita separar columnas de un tipo similar, puede aplicar varias condiciones. Por ejemplo, las características pueden ser categóricas o numéricas, pero algunos módulos de selección de características no permiten campos no numéricos, por lo que primero debe obtener características y, a continuación, agregar una condición para obtener solo las características numéricas.

    1. Haga clic en Launch column selector (Iniciar selector de columnas).

    2. En Comenzar por, seleccione Sin columnas.

    3. Seleccione la opción Incluir y todas las características.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción Incluir , seleccione tipo de columna y, a continuación, seleccione Categoría.

  • Tengo que aplicar una operación de normalización diferente a columnas numéricas diferentes.

    Antes de aplicar operaciones matemáticas, es posible que tenga que separar enteros de números de punto flotante, etc. Para ello, use los tipos de datos y aplique varias condiciones.

    1. Haga clic en Iniciar selector de columnas.

    2. En Comenzar por, seleccione Sin columnas.

    3. Seleccione la opción Incluir , seleccione tipo de columna y, a continuación, seleccione Numérico.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción Incluir , seleccione el tipo de columna y, a continuación, seleccione el tipo numérico que no es compatible con la operación de bajada.

  • Hay demasiadas columnas para elegir mediante el selector.

    A menudo, después de importar un conjunto de datos, se da cuenta de que tiene una gran cantidad de columnas que no son necesarias para el modelado. Sin embargo, desea conservarlos para su salida más adelante o para identificar casos. Para ello, divida el conjunto de datos en dos partes (metadatos y columnas usadas para el modelado) y, posteriormente, vuelva a combinar las columnas según sea necesario, mediante Agregar columnas.

    1. Haga clic en Iniciar selector de columnas.

    2. En Comenzar por, seleccione Sin columnas.

    3. Seleccione la opción Incluir , seleccione tipo de columna y, a continuación, seleccione Característica.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción Incluir , seleccione tipo de columna y, a continuación, seleccione Etiqueta.

    6. Repita estos pasos, pero comience con todas las columnas y, a continuación, excluya las columnas de características y etiquetas para crear un conjunto de datos de solo los metadatos.

  • No sé los valores de índice de las columnas que necesito.

    Si solo hay algunas columnas en el conjunto de datos, puede usar la opción Visualizar para ver las primeras 100 filas y, a continuación, averiguar qué columna es el índice 1, 2, etc.

    • Los índices de Machine Learning empiezan en 1, por lo que la primera columna siempre es 1.

    • Para obtener el índice de la última columna, vea las dos listas de columnas del selector de columnas: COLUMNAS DISPONIBLES y COLUMNAS SELECCIONADAS. La barra gris debajo de la lista de columnas muestra el recuento de columnas de cada lista. Por lo tanto, si hay 24 columnas disponibles y se seleccionan dos columnas, hay un total de 26 columnas y el índice de la columna final es 26.

    Otra opción para extraer el esquema del conjunto de datos es usar el módulo Ejecutar script R para obtener los nombres de columna con números de índice.

    1. Conectar el conjunto de datos al módulo Ejecutar script R.

    2. En el módulo, escriba un script como el siguiente para generar los nombres de columna. La línea que empieza por myindex genera una secuencia que representa los índices en orden.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Resultados del conjunto de datos de precios de automóviles

    myindex mycolnames
    1 symboling
    2 normalized-losses
    3 make

Notas técnicas

Si está familiarizado con las bases de datos relacionales, este módulo crea una proyección de los datos. por lo tanto, el nombre original, Project Columnas. En términos de base de datos, una proyección es una función, como una instrucción Transact-SQL o LINQ, que toma datos en formato tabular como entrada y genera una salida relacionada.

En el álgebra relacional, una proyección es una operación unaria, que se escribe como un conjunto de nombres de atributo. El resultado de una proyección es el conjunto de dichos atributos, con otros atributos que se descartan.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Select columns cualquiera ColumnSelection Selecciona las columnas que se van a mantener en el conjunto de datos proyectado.

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de salida

Excepciones

Excepción Descripción
Error 0001 Se produce una excepción si no se encuentran una o varias de las columnas especificadas del conjunto de datos.
Error 0003 Se produce una excepción si uno o varios de los conjuntos de datos de entrada son nulos o están vacíos.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Manipulación