Uso de los conjuntos de datos de ejemplo en Machine Learning Studio (clásico)

SE APLICA A: Se aplica a. Machine Learning Studio (clásico) No se aplica a. Azure Machine Learning

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información acerca de Azure Machine Learning

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Cuando se crea un área de trabajo en Machine Learning Studio (clásico), de manera predeterminada se incluyen diversos conjuntos de datos y experimentos de ejemplo. Los modelos de ejemplo de la Galería de Azure AI utilizan muchos de estos conjuntos de datos de ejemplo. Otros se incluyen como ejemplos de distintos tipos de datos que se usan normalmente en el aprendizaje automático.

Algunos de estos conjuntos de datos están disponibles en Azure Blob Storage. Para dichos conjuntos de datos, la tabla siguiente proporciona un vínculo directo. Puede usar estos conjuntos de datos en sus experimentos mediante el módulo Import Data (Importar datos).

El resto de estos conjuntos de datos de ejemplo están disponibles en el área de trabajo en Conjuntos de datos guardados. Puede encontrar esta opción en la paleta del módulo a la izquierda del lienzo del experimento en Machine Learning Studio (clásico). Para usar cualquiera de estos conjuntos de datos en su propio experimento, arrástrelo a su lienzo de experimentos.

Conjuntos de datos

Nombre del conjunto de datos	Descripción del conjunto de datos
Conjunto de datos de clasificación binaria de ingresos en el censo de adultos	Subconjunto de la base de datos del censo de 1994 en el que se utilizan adultos trabajadores a partir de 16 años con un índice de ingresos ajustado de > 100. Uso Clasificar personas utilizando valores demográficos para predecir si una persona gana más de 50 000 al año. Investigación relacionada: Kohavi, R., Becker, B., (1996). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Conjunto de datos de códigos de aeropuerto	Códigos para aeropuertos de EE. UU. Este conjunto de datos contiene una fila para cada aeropuerto de EE. UU., donde se indica el identificador y el nombre del aeropuerto, además de la ciudad y el estado en que se encuentra.
Información sobre los precios de los automóviles (datos sin procesar)	Información acerca de automóviles por marca y modelo, incluido el precio, características como el número de cilindros y el consumo en relación a la distancia recorrida, así como una puntuación de riesgo para aseguradoras. La puntuación de riesgo está asociada inicialmente a un precio automático. Después, se ajusta a un riesgo real en un proceso que los actuarios conocen como simbología. Un valor de +3 indica que es arriesgado, y un valor de -3 indica que probablemente es seguro. Uso Predecir la puntuación de riesgo por características utilizando una clasificación de regresión o de múltiples variantes. Investigación relacionada: Schlimmer, J.C (1987). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Conjunto de datos UCI de alquiler de bicicletas	Conjunto de datos UCI Bike Rental basados en datos reales tomados de la empresa Capital Bikeshare, que mantiene una red de alquiler de bicicletas en Washington DC. El conjunto de datos tiene una fila para cada hora de cada día en 2011 y 2012, totalizando 17.379 filas. El rango de alquileres de bicicletas por horas va de 1 a 977.
Imagen RGB de Bill Gates	Archivo de imagen disponible públicamente convertido a datos CSV. El código para convertir la imagen se proporciona en la página de detalles de modelos sobre la cuantificación de color mediante la agrupación en clústeres K-Means.
Datos sobre donación de sangre	Subconjunto de datos de la base de datos de donantes de sangre del Centro de servicios de transfusiones de sangre de Hsin-Chu City (Taiwán). Los datos de los donantes incluyen los meses transcurridos desde la última donación y la frecuencia, o el número total de donaciones, el tiempo transcurrido desde la última donación y la cantidad de sangre donada. Uso: el objetivo es predecir mediante la clasificación si el donante donó sangre en marzo de 2007, donde 1 hace referencia a un donante durante el período objetivo y 0 a un no donante. Investigación relacionada: Yeh, I.C., (2008). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang y Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence" (Detección de conocimiento en el modelo de RFM mediante la secuencia de Bernoulli) Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Datos sobre cáncer de mama	Uno de los tres conjuntos de datos relacionados con el cáncer facilitados por el Instituto de oncología que aparece frecuentemente en la literatura sobre aprendizaje automático. Combina información de diagnóstico con características de análisis de laboratorio de unas 300 muestras de tejido. Uso: clasificar el tipo de cáncer basándose en nueve atributos, algunos de los cuales son lineales y otros categóricos. Investigación relacionada: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Características del cáncer de mama	El conjunto de datos contiene información de 102.000 regiones sospechosas (candidatas) de imágenes de rayos X, cada una de las cuales está descrita por 117 características. Las características son privadas y los creadores del conjunto de datos no revelan su significado (Siemens Healthcare).
Información sobre cáncer de mama	El conjunto de datos contiene información adicional para cada región sospechosa de imagen de rayos X. Cada ejemplo proporciona información (por ejemplo, etiqueta, identificador de paciente, coordenadas del parche en relación con toda la imagen) sobre el número de fila correspondiente en el conjunto de datos Características del cáncer de mama. Cada paciente tiene una serie de ejemplos. Para los pacientes con cáncer, algunos ejemplos son positivos y otros son negativos. Para los pacientes que no tienen cáncer, todos los ejemplos son negativos. El conjunto de datos tiene 102 000 ejemplos. El conjunto de datos está sesgado, el 0,6% de los puntos es positivo y el resto es negativo. Siemens Healthcare proporcionó el conjunto de datos.
Etiquetas compartidas de preferencias CRM	Etiquetas del reto de predicción de relaciones con clientes de KDD Cup 2009 (orange_small_train_appetency.labels).
Etiquetas compartidas de deserción de clientes de CRM	Etiquetas del desafío de predicción de relaciones con clientes de KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de datos CRM compartido	Estos datos están relacionados con el concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train.data.zip). El conjunto de datos contiene 50.000 clientes de la empresa de telecomunicaciones francesa Orange. Cada cliente tiene 230 características anónimas, 190 de las cuales son numéricas y 40, categóricas. Las características están muy dispersas.
Etiquetas de mejora de ventas de CRM compartidas	Etiquetas del concurso KDD Cup 2009 sobre la predicción de relaciones con los clientes (orange_large_train_upselling.labels).
Datos de regresión de eficiencia energética	Colección de perfiles energéticos simulados, con base en 12 formas de edificios diferentes. Los edificios se diferencian por ocho características. Se incluyen la superficie vidriada, la distribución de la superficie vidriada y la orientación. Uso: usar la regresión o la clasificación para predecir la clasificación de eficiencia energética en función de una de las dos respuestas con valores reales. En el caso de una clasificación de varias clases, la variable de respuesta se redondea al entero más cercano. Investigación relacionada: Xifara, A. & Tsanas, A. (2012). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Datos de retrasos de vuelos	Datos de rendimiento sobre puntualidad en vuelos de pasajeros recopilados en TranStats por el Departamento de Transporte de EE.UU. (On-Time). El conjunto de datos abarca el periodo comprendido entre abril y octubre de 2013. Antes de cargar en Machine Learning Studio (clásico), el conjunto de datos se procesó de la siguiente manera: Se filtró el conjunto de datos para centrarse en los 70 aeropuertos con más tráfico del territorio continental de EE. UU. Los vuelos cancelados se etiquetaron como retrasados más de 15 minutos. Los vuelos desviados se eliminaron de la muestra. Se seleccionaron las siguientes columnas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelado
Rendimiento de puntualidad de vuelos (datos sin procesar)	Registros de llegadas y salidas de aviones dentro de Estados Unidos desde octubre de 2011. Uso: predecir retrasos en los vuelos. Investigación relacionada: del departamento de transporte de Estados Unidos https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Datos de incendios forestales	Contiene los datos meteorológicos, como los índices de temperatura y humedad y la velocidad del viento. Los datos se extraen de un área del Nordeste de Portugal, combinados con registros de incendios forestales. Uso: se trata de una tarea de regresión difícil, cuyo objetivo es predecir el área quemada por incendios forestales. Investigación relacionada: Cortez, P., & Morais, A. (2008). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez y Morais, 2007] P. Cortez y A. Morais. Un enfoque de minería de datos para predecir incendios forestales utilizando datos meteorológicos. En J. Neves, M. F. Santos and J. Machado Eds., Nuevas tendencias en inteligencia artificial, Procedimientos de la 13ª EPIA 2007 - Conferencia en portugués sobre inteligencia artificial, diciembre, Guimarães, Portugal, páginas 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponible en: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Conjunto de datos UCI de tarjeta de crédito alemana	El conjunto de datos Statlog de UCI (tarjeta de crédito alemana) (Statlog+German+Credit+Data), con el archivo german.data. El conjunto de datos clasifica a las personas, descritas por un conjunto de atributos, según si su riesgo de crédito es bajo o alto. Cada ejemplo representa a una persona. Hay 20 características, tanto numéricas como categóricas, y una etiqueta binaria (el valor del riesgo de crédito). Las partidas de riesgo de crédito alto tienen la etiqueta = 2, mientras que las partidas con riesgo de crédito bajo tienen la etiqueta = 1. El coste derivado de clasificar incorrectamente como alto un ejemplo de riesgo bajo es 1, mientras que, en el caso de clasificar incorrectamente como bajo un ejemplo de riesgo alto, el coste es 5.
Títulos de películas en IMDB	El conjunto de datos contiene información sobre películas que se han valorado en tweets de Twitter: Identificador de la película en IMDB, nombre, género y año de producción. Hay 17.000 películas en el conjunto de datos. El conjunto de datos se introdujo en el documento "S. Dooms, T. De Pessemier y L. Martens. MovieTweetings: un conjunto de datos sobre valoración de películas recopilado de Twitter. Taller de micromecenazgo y cálculo humano para sistemas de recomendación, CrowdRec en RecSys 2013."
Datos de iris de dos clases	Esta es quizá la base de datos más conocida entre la literatura de reconocimiento de modelos. El conjunto de datos es relativamente pequeño, con 50 ejemplos de cada una de las mediciones de pétalos de tres variedades de iris. Uso: predecir el tipo de iris a partir de las mediciones. Investigación relacionada: Fisher, R.A. (1988). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Tweets sobre películas	El conjunto de datos es una versión extendida del conjunto de datos Movie Tweetings. El conjunto de datos incluye 170 000 valoraciones de películas extraídas de tweets bien estructurados en Twitter. Cada instancia representa un tweet y es una tupla: id. de usuario, id. de película IMDB, valoración, marca de tiempo, número de favoritos para ese tweet y número de retweets de ese tweet. A. Said, S. Dooms, B. Loni y D. Tikk proporcionaron el conjunto de datos para el Concurso de sistemas de recomendación 2014.
Datos sobre consumo de combustible por distancia recorrida para varios automóviles	Este conjunto de datos es una versión ligeramente diferente del conjunto de datos ofrecido por la biblioteca StatLib de la Universidad Carnegie Mellon. El conjunto de datos se utilizó en la exposición de la asociación estadounidense de estadística de 1983. Los datos muestran el consumo de combustible de varios automóviles en millas por galón. También incluye información como el número de cilindros, la cilindrada, los caballos de potencia, el peso total y la aceleración. Uso: predecir el ahorro de combustible en función de tres atributos discretos multivalor y cinco atributos continuos. Investigación relacionada: StatLib, Carnegie Mellon University, (1993). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Conjunto de datos de clasificación binaria de diabetes en los indios Pima	Subconjunto de datos de la base de datos del Instituto Nacional de la Diabetes y las Enfermedades Digestivas y Renales. El conjunto de datos se filtró para centrarse en pacientes femeninos con herencia de indios pima. Los datos incluyen información médica como niveles de glucosa e insulina y factores de estilo de vida. Uso: predecir si el sujeto tiene diabetes (clasificación binaria). Investigación relacionada: Sigillito, V. (1990). Repositorio de aprendizaje de automático de UCI https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science
Datos de clientes de restaurantes	Conjunto de metadatos sobre clientes que incluye información demográfica y preferencias. Uso Usar este conjunto de datos, en combinación con los otros dos conjuntos de datos de restaurantes, para entrenar y probar un sistema de recomendaciones. Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información.
Datos de características de restaurantes	Un conjunto de metadatos acerca de restaurantes y sus características, como el tipo de comida, el estilo de comedor y la ubicación. Uso Usar este conjunto de datos, en combinación con los otros dos conjuntos de datos de restaurantes, para entrenar y probar un sistema de recomendaciones. Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información.
Valoraciones de restaurantes	Contiene valoraciones que los usuarios realizan sobre restaurantes en una escala de 0 a 2. Uso Usar este conjunto de datos, en combinación con los otros dos conjuntos de datos de restaurantes, para entrenar y probar un sistema de recomendaciones. Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información.
Conjunto de datos de varias clases de recocido de acero	Este conjunto de datos contiene una serie de registros de pruebas de recocido de acero Contiene los atributos físicos, como el ancho, grosor o tipo (rollo, lámina, etc.) de los tipos de acero que resultan. Uso: predecir cualquiera de los dos atributos de clase numéricos: rigidez o solidez. También puede analizar las correlaciones entre atributos. Los grados del acero siguen una norma establecida, definida por la SAE y otras organizaciones. Está buscando un "grado" determinado (la variable de clase) y desea conocer los valores requeridos. Investigación relacionada: Sterling, D. & Buntine, W. (NA). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Aquí encontrará una guía útil para los grados del acero: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Datos de telescopio	Registro de explosiones de partículas gamma de alta energía junto con ruido de fondo, ambos simulados utilizando un proceso de Monte Carlo. El objetivo de la simulación era mejorar la precisión de los telescopios gamma Cherenkov atmosféricos terrestres, utilizando métodos estadísticos para diferenciar entre la señal deseada (duchas de radiación de Cherenkov) y el ruido de fondo (duchas hadrónicas iniciadas por los rayos cósmicos en la atmósfera superior). Los datos se sometieron a un procesado previo para crear un grupo alargado con el eje central orientado hacia el centro de la cámara. Las características de esta elipse (llamada en ocasiones parámetros de Hillas) se encuentran entre los parámetros de imagen que se pueden utilizar para la discriminación. Uso: predecir si la imagen de una ducha representa señal o ruido de fondo. Notas: la precisión de clasificación sencilla no es significativa para estos datos, ya que clasificar un evento de fondo como señal es peor que clasificar un evento de señal como fondo. Para comparar los diferentes clasificadores se debe utilizar el gráfico ROC. La probabilidad de aceptar un evento de fondo como señal debe estar por debajo de uno de los umbrales siguientes: 0,01, 0,02, 0,05, 0,1 o 0,2. Además, tenga en cuenta que el número de eventos de fondo (h, para las cascadas hadrónicas) está subestimado. En las mediciones reales, la clase h o de ruido representan la mayoría de los eventos. Investigación relacionada: Bock, R.K. (1995). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Escuela de Información
Conjunto de datos del tiempo	Observaciones meteorológicas en tierra por hora de la NOAA (datos combinados del 201304 al 201310). Los datos meteorológicos abarcan las observaciones de las estaciones meteorológicas de los aeropuertos, durante el período que comprende desde abril hasta octubre de 2013. Antes de cargar en Machine Learning Studio (clásico), el conjunto de datos se procesó de la siguiente manera: Se asignaron los identificadores de las estaciones meteorológicas a los identificadores de aeropuerto correspondientes. Se excluyeron las estaciones meteorológicas no asociadas a los 70 aeropuertos con mayor tráfico. La columna Date se dividió en columnas separadas Year, Month y Day. Se seleccionaron las siguientes columnas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibilidad, WeatherType, DryBulbFahrenheit, DryBulbCelsius, WetBulbFahrenheit, WetBulbCelsius, DewPointFahrenheit, DewPointCelsius, HumedadRelativa, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, TendenciaDePresión, PressureChange, PresiónAlNivelDelMar, RecordType, HourlyPrecip, Altimeter
Conjunto de datos de SP 500 de Wikipedia	Los datos se han extraído de Wikipedia (https://www.wikipedia.org/) y se basan en artículos de cada empresa del índice S&P 500, almacenados como datos XML. Antes de cargar en Machine Learning Studio (clásico), el conjunto de datos se procesó de la siguiente manera: Se extrae el contenido de texto para cada empresa específica. Se eliminó el formato wiki. Se eliminaron los caracteres no alfanuméricos Convierte todo el texto a minúsculas. Se agregaron las categorías de empresas conocidas. Tenga en cuenta que no se ha encontrado ningún artículo para algunas empresas, por lo que el número de registros es inferior a 500.
direct_marketing.csv	El conjunto de datos contiene datos de los clientes e indicaciones sobre sus respuestas a una campaña de correo directa. Cada fila representa a un cliente. El conjunto de datos contiene nueve características sobre datos demográficos del usuario y conducta en el pasado, y tres columnas de etiqueta (visita, conversión y gasto). Visita es una columna binaria que indica que un cliente ha hecho una visita después de la campaña de marketing. Conversión indica que un cliente adquirió algún artículo. Gasto es el importe que se gastó. Kevin Hillstrom proporcionó el conjunto de datos para el Reto de minería de datos y análisis de correo electrónico de MineThatData.
lyrl2004_tokens_test.csv	Características de los ejemplos de prueba del conjunto de datos de noticias de Reuters RCV1 V2. El conjunto de datos tiene 781 000 artículos de noticias junto con sus identificadores (primera columna del conjunto de datos). Los artículos están acortados, excluyen palabras reservadas y su contenido se reduce a la raíz de cada palabra. David proporcionó el conjunto de datos. D. Lewis.
lyrl2004_tokens_train.csv	Características de ejemplos de aprendizaje en el conjunto de datos de noticias de Reuters RCV1 V2. El conjunto de datos tiene 23 000 artículos de noticias junto con sus ID (primera columna del conjunto de datos). Los artículos están acortados, excluyen palabras reservadas y su contenido se reduce a la raíz de cada palabra. David proporcionó el conjunto de datos. D. Lewis.
network_intrusion_detection.csv	Conjunto de datos de la competición de minería de datos y detección de conocimientos KDD Cup 1999 (kddcup99.html). El conjunto de datos se descargó y almacenó en Azure Blob Storage (network_intrusion_detection.csv) y comprende conjuntos de datos de entrenamiento y pruebas. El conjunto de datos de entrenamiento tiene aproximadamente 126.000 filas y 43 columnas, incluidas las etiquetas. Tres columnas forman parte de la información de etiquetas, y 40 columnas, compuestas de características numéricas y de cadena/categóricas, se encuentran disponibles para el entrenamiento del modelo. Los datos de prueba tienen aproximadamente 22.500 ejemplos de prueba con las mismas 43 columnas que en los datos de entrenamiento.
rcv1-v2.topics.qrels.csv	Asignaciones de tema para artículos de prensa en el conjunto de datos de noticias de Reuters RCV1 V2. Un artículo de prensa se puede asignar a varios temas. El formato de cada fila es "<nombre del tema><identificador del documento> 1". El conjunto de datos contiene 2,6 millones de asignaciones de tema. David proporcionó el conjunto de datos. D. Lewis.
student_performance.txt	Estos datos se han extraído del concurso de evaluación del rendimiento de los estudiantes KDD Cup 2010 (evaluación del rendimiento de estudiantes). Los datos utilizados se corresponden con el conjunto de entrenamiento Álgebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Álgebra I 2008-2009. Conjunto de datos del desafío de minería de datos educativos del KDD Cup 2010. Lo encontrará en downloads.jsp. El conjunto de datos se ha descargado y almacenado en Azure Blob Storage (student_performance.txt) y contiene archivos de registro de un sistema de tutoría de estudiantes. Las características suministradas incluyen el identificador del problema y una breve descripción, el identificador del alumno, la marca de tiempo y cuántos intentos realizó el estudiante antes de solucionar el problema de la manera correcta. El conjunto de datos original contiene 8,9M de registros; este conjunto de datos se ha reducido a las primeras 100.000 filas. El conjunto de datos tiene 23 columnas de varios tipos separadas por tabulaciones: numéricas, categóricas y con marcas de tiempo.

Pasos siguientes

Ponga en marcha sus experimentos con ejemplos

Last updated on 2018-01-19

Compartir a través de

Uso de los conjuntos de datos de ejemplo en Machine Learning Studio (clásico)

Conjuntos de datos

Pasos siguientes

Recursos adicionales