Importación de datos en el diseñador de Azure Machine Learning
En este artículo, aprenderá a importar sus propios datos en el diseñador para crear soluciones personalizadas. Hay dos formas de importar datos en el diseñador:
- Conjuntos de datos de Azure Machine Learning: registre conjuntos de datos en Azure Machine Learning para habilitar características avanzadas que le ayuden a administrar sus datos.
- Componente Importar datos: use el componente Importar datos para acceder directamente a datos de orígenes de datos en línea.
Importante
Si no ve los elementos gráficos que se mencionan en este documento, como los botones en Studio o en el diseñador, es posible que no tenga el nivel de permisos adecuado para el área de trabajo. Póngase en contacto con el administrador de suscripciones de Azure para verificar que se le ha concedido el nivel de acceso correcto. Para obtener más información, consulte Administración de usuarios y roles.
Uso de conjuntos de datos de Azure Machine Learning
Se recomienda usar conjuntos de datos para importar datos en el diseñador. Al registrar un conjunto de datos, puede aprovechar al máximo las características de datos avanzadas como el control de versiones y el seguimiento, y la supervisión de datos.
Registro de un conjunto de datos
Puede registrar los conjuntos de datos existentes mediante programación con el SDK o visualmente en Azure Machine Learning Studio.
También puede registrar la salida de cualquier componente del diseñador como un conjunto de datos.
Seleccione el componente que genera los datos que quiere registrar.
En el panel de propiedades, seleccione Outputs + logs (Salidas y registros)>Register dataset (Registrar conjunto de datos).
Si los datos de salida del componente están en formato de tabla, debe optar por registrar la salida como un conjunto de datos de archivo o un conjunto de datos tabular.
El conjunto de datos de archivo registra la carpeta de salida del componente como un conjunto de datos de archivo. La carpeta de salida contiene un archivo de datos y metarchivos que el diseñador usa internamente. Seleccione esta opción si quiere seguir usando el conjunto de los conjuntos registrado en el diseñador.
El conjunto de datos tabular solo registra el archivo de datos de salida del componente como un conjunto de datos tabular. Este formato se usa fácilmente en otras herramientas, como las de aprendizaje automático automatizado o el SDK de Python. Seleccione esta opción si tiene previsto utilizar el conjunto de datos registrado fuera del diseñador.
Uso de un conjunto de datos
Los conjuntos de datos registrados se pueden encontrar en la paleta del componente, en Conjuntos de datos. Para usar un conjunto de datos, arrástrelo y suéltelo en el lienzo de la canalización. Luego conecte el puerto de salida del conjunto de datos a otros componentes del lienzo.
Si registra un conjunto de datos de archivo, el tipo de puerto de salida del conjunto de datos es AnyDirectory. Si registra un conjunto de datos tabulares, el tipo de puerto de salida del conjunto de datos es DataFrameDirectory. Tenga en cuenta que si conecta el puerto de salida del conjunto de datos a otros componentes del diseñador, debe alinear el tipo de puerto de los conjuntos de datos y los componentes.
Nota
El diseñador admite el control de versiones del conjunto de datos. Especifique la versión del conjunto de datos en el panel de propiedades del componente del conjunto de datos.
Limitaciones
- Actualmente solo se puede visualizar el conjunto de datos tabular en el diseñador. Si registra un conjunto de datos de archivo fuera del diseñador, no podrá visualizarlo en el lienzo del diseñador.
- Actualmente, el diseñador solo admite salidas en vista previa que se almacenan en Azure Blob Storage. Puede comprobar y cambiar el almacén de datos de salida en Configuración de salida, en la pestaña Parámetros del panel derecho del componente.
- Si los datos se almacenan en una red virtual (VNet) y quiere obtener una vista previa, tendrá que habilitar la identidad administrada del área de trabajo del almacén de datos.
- Vaya al almacén de datos relacionado y haga clic en Actualizar autenticación.
- Seleccione Sí para habilitar la identidad administrada del área de trabajo.
Importación de datos mediante el componente Importar datos
Aunque se recomienda usar conjuntos de datos para importar datos, también se puede usar el componente Importar datos. El componente Importar datos omite el registro del conjunto de datos en Azure Machine Learning e importa los datos directamente de un almacén de datos o una dirección URL HTTP.
Para obtener información detallada sobre cómo usar el componente Importar datos, vea la página de referencia de Importar datos.
Nota
Si el conjunto de datos tiene demasiadas columnas, puede encontrar el siguiente error: "Validation failed due to size limitation" (Error de validación debido a un límite de tamaño). Para evitar esto, registre el conjunto de datos en la interfaz de conjuntos de datos.
Orígenes compatibles
En esta sección se enumeran los orígenes de datos que admite el diseñador. Los datos llegan al diseñador desde un almacén de datos o un conjunto de datos tabular.
Orígenes del almacén de datos
Para ver una lista de los orígenes del almacén de datos compatibles, consulte Acceso a los datos en los servicios de almacenamiento de Azure.
Orígenes de conjuntos de datos tabulares
El diseñador admite los conjuntos de datos tabulares creados en los siguientes orígenes:
- Archivos delimitados
- Archivos JSON
- Archivos de Parquet
- Consultas SQL
Tipos de datos
Internamente, el diseñador reconoce los siguientes tipos de datos:
- String
- Entero
- Decimal
- Boolean
- Date
El diseñador usa un tipo de datos interno para pasar datos entre componentes. Puede convertir explícitamente los datos en formato de tabla de datos con el componente Convertir en conjunto de datos. Todos los componentes que aceptan formatos distintos al interno convierten los datos de manera silenciosa antes de pasarlos al componente siguiente.
Restricciones de datos
Los módulos del diseñador están limitados por el tamaño del destino de proceso. Para conjuntos de datos mayores, debe usar un recurso de proceso de Azure Machine Learning mayor. Para más información sobre el proceso de Azure Machine Learning, consulte ¿Qué son los destinos de proceso en Azure Machine Learning?
Acceso a los datos de una red virtual
Si el área de trabajo está en una red virtual, debe realizar pasos de configuración adicionales para visualizar los datos en el diseñador. Para más información sobre cómo usar los almacenes de datos y los conjuntos de datos en una red virtual, consulte Uso de Azure Machine Learning Studio en una instancia de Azure Virtual Network.
Pasos siguientes
Conozca los aspectos básicos del diseñador con el Tutorial: Predecir el precio del automóvil con el diseñador.