Uso de los conjuntos de datos de ejemplo en Machine Learning Studio (clásico)

SE APLICA A: Se aplica a.Estudio de Azure Machine Learning (clásico) No se aplica a.Azure Machine Learning

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Cuando se crea un área de trabajo en Machine Learning Studio (clásico), de manera predeterminada se incluyen diversos conjuntos de datos y experimentos de ejemplo. Los modelos de ejemplo de la Galería de Azure AI utilizan muchos de estos conjuntos de datos de ejemplo. Otros se incluyen como ejemplos de distintos tipos de datos que se usan normalmente en el aprendizaje automático.

Algunos de estos conjuntos de datos están disponibles en Azure Blob Storage. Para dichos conjuntos de datos, la tabla siguiente proporciona un vínculo directo. Puede usar estos conjuntos de datos en sus experimentos mediante el módulo Import Data (Importar datos).

El resto de estos conjuntos de datos de ejemplo están disponibles en el área de trabajo en Conjuntos de datos guardados. Puede encontrar esta opción en la paleta del módulo a la izquierda del lienzo del experimento en Machine Learning Studio (clásico). Para usar cualquiera de estos conjuntos de datos en su propio experimento, arrástrelo a su lienzo de experimentos.

Conjuntos de datos

Nombre del conjunto de datos Descripción del conjunto de datos
Conjunto de datos de clasificación binaria de ingresos en el censo de adultos Subconjunto de la base de datos del censo de 1994 en el que se utilizan adultos trabajadores a partir de 16 años con un índice de ingresos ajustado de > 100.

Uso: Clasificar personas utilizando valores demográficos para predecir si una persona gana más de 50 000 al año.

Investigación relacionada: Kohavi, R., Becker, B., (1996). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Conjunto de datos de códigos de aeropuerto Códigos para aeropuertos de EE. UU.

Este conjunto de datos contiene una fila para cada aeropuerto de EE. UU., donde se indica el identificador y el nombre del aeropuerto, además de la ciudad y el estado en que se encuentra.
Información sobre los precios de los automóviles (datos sin procesar) Información acerca de automóviles por marca y modelo, incluido el precio, características como el número de cilindros y el consumo en relación a la distancia recorrida, así como una puntuación de riesgo para aseguradoras.

La puntuación de riesgo está asociada inicialmente a un precio automático. Después, se ajusta a un riesgo real en un proceso que los actuarios conocen como simbología. Un valor de +3 indica que es arriesgado, y un valor de -3 indica que probablemente es seguro.

Uso: Predecir la puntuación de riesgo por características utilizando una clasificación de regresión o de múltiples variantes.

Investigación relacionada: Schlimmer, J.C. (1987). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Conjunto de datos UCI de alquiler de bicicletas Conjunto de datos UCI Bike Rental basados en datos reales tomados de la empresa Capital Bikeshare, que mantiene una red de alquiler de bicicletas en Washington DC.

El conjunto de datos tiene una fila para cada hora de cada día en 2011 y 2012, totalizando 17.379 filas. El rango de alquileres de bicicletas por horas va de 1 a 977.
Imagen RGB de Bill Gates Archivo de imagen disponible públicamente convertido a datos CSV.

El código para convertir la imagen se proporciona en la página de detalles de modelos sobre la cuantificación de color mediante la agrupación en clústeres K-Means.
Datos sobre donación de sangre Subconjunto de datos de la base de datos de donantes de sangre del Centro de servicios de transfusiones de sangre de Hsin-Chu City (Taiwán).

Los datos de los donantes incluyen los meses transcurridos desde la última donación y la frecuencia, o el número total de donaciones, el tiempo transcurrido desde la última donación y la cantidad de sangre donada.

Uso: el objetivo es predecir mediante la clasificación si el donante donó sangre en marzo de 2007, donde 1 hace referencia a un donante durante el período objetivo y 0 a un no donante.

Investigación relacionada: Yeh, I.C., (2008). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información

Yeh, I-Cheng, Yang, King-Jang y Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence" (Detección de conocimiento en el modelo de RFM mediante la secuencia de Bernoulli) Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Datos sobre cáncer de mama Uno de los tres conjuntos de datos relacionados con el cáncer facilitados por el Instituto de oncología que aparece frecuentemente en la literatura sobre aprendizaje automático. Combina información de diagnóstico con características de análisis de laboratorio de unas 300 muestras de tejido.

Uso: Clasificar el tipo de cáncer basándose en nueve atributos, algunos de los cuales son lineales y otros categóricos.

Investigación relacionada: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Características de cáncer de mama El conjunto de datos contiene información de 102.000 regiones sospechosas (candidatas) de imágenes de rayos X, cada una de las cuales está descrita por 117 características. Las características son privadas y los creadores del conjunto de datos no revelan su significado (Siemens Healthcare).
Información sobre cáncer de mama El conjunto de datos contiene información adicional para cada región sospechosa de imagen de rayos X. Cada ejemplo proporciona información (por ejemplo, etiqueta, identificador de paciente,coordenadas de la zona a tratar en relación con toda la imagen) sobre el número de fila correspondiente en el conjunto de datos Características de cáncer de mama. Cada paciente tiene una serie de ejemplos. Para los pacientes con cáncer, algunos ejemplos son positivos y otros son negativos. Para los pacientes que no tienen cáncer, todos los ejemplos son negativos. El conjunto de datos tiene 102 000 ejemplos. El conjunto de datos está sesgado, el 0,6% de los puntos es positivo y el resto es negativo. Siemens Healthcare proporcionó el conjunto de datos.
Etiquetas de apetencia CRM compartidas Etiquetas del concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train_appetency.labels).
Etiquetas de rotación de clientes de CRM compartidas Etiquetas del concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de datos CRM compartido Estos datos están relacionados con el concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train.data.zip).

El conjunto de datos contiene 50.000 clientes de la empresa de telecomunicaciones francesa Orange. Cada cliente tiene 230 características anónimas, 190 de las cuales son numéricas y 40, categóricas. Las características están muy dispersas.
Etiquetas de mejora de ventas de CRM compartidas Etiquetas del concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_large_train_upselling.labels).
Datos de regresión de eficiencia energética Colección de perfiles energéticos simulados, con base en 12 formas de edificios diferentes. Los edificios se diferencian por ocho características. Se incluyen la superficie vidriada, la distribución de la superficie vidriada y la orientación.

Uso: Usar la regresión o la clasificación para predecir la clasificación de eficiencia energética en función de una de las dos respuestas con valores reales. En el caso de una clasificación de varias clases, la variable de respuesta se redondea al entero más cercano.

Investigación relacionada: Xifara, A. & Tsanas, A. (2012). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Datos de retrasos de vuelos Datos de rendimiento sobre puntualidad en vuelos de pasajeros recopilados en TranStats por el Departamento de Transporte de EE.UU. (On-Time).

El conjunto de datos abarca el periodo comprendido entre abril y octubre de 2013. Antes de cargarlo en Machine Learning Studio (clásico), el conjunto de datos se ha procesado como se indica a continuación:
  • Se filtró el conjunto de datos para centrarse en los 70 aeropuertos con más tráfico del territorio continental de EE. UU.
  • Los vuelos cancelados se etiquetaron como retrasados más de 15 minutos.
  • Los vuelos desviados se quitaron de la muestra.
  • Se seleccionaron las siguientes columnas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled
Información sobre puntualidad de vuelos (datos sin procesar) Registros de llegadas y salidas de aviones dentro de Estados Unidos desde octubre de 2011.

Uso: Predecir retrasos en los vuelos.

Investigación relacionada: del departamento de transporte de Estados Unidos https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Datos de incendios forestales Contiene los datos meteorológicos, como los índices de temperatura y humedad y la velocidad del viento. Los datos se extraen de un área del Nordeste de Portugal, combinados con registros de incendios forestales.

Uso: Se trata de una tarea de regresión difícil, cuyo objetivo es predecir el área quemada por incendios forestales.

Investigación relacionada: Cortez, P. & Morais, A. (2008). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información

[Cortez y Morais, 2007] P. Cortez y A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. En J. Neves, M. F. Santos and J. Machado Eds., Nuevas tendencias en inteligencia artificial, Procedimientos de la 13ª EPIA 2007 - Conferencia en portugués sobre inteligencia artificial, diciembre, Guimarães, Portugal, páginas 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponible en: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Conjunto de datos UCI de tarjeta de crédito alemana El conjunto de datos Statlog de UCI (tarjeta de crédito alemana) (Statlog+German+Credit+Data), con el archivo german.data.

El conjunto de datos clasifica a las personas, descritas por un conjunto de atributos, según si su riesgo de crédito es bajo o alto. Cada ejemplo representa a una persona. Hay 20 características, tanto numéricas como categóricas, y una etiqueta binaria (el valor del riesgo de crédito). Las partidas de riesgo de crédito alto tienen la etiqueta = 2, mientras que las partidas con riesgo de crédito bajo tienen la etiqueta = 1. El coste derivado de clasificar incorrectamente como alto un ejemplo de riesgo bajo es 1, mientras que, en el caso de clasificar incorrectamente como bajo un ejemplo de riesgo alto, el coste es 5.
Títulos de películas en IMDB El conjunto de datos contiene información sobre películas que se han valorado en tweets de Twitter: Identificador de la película en IMDB, nombre, género y año de producción. Hay 17.000 películas en el conjunto de datos. El conjunto de datos se introdujo en el documento "S. Dooms, T. De Pessemier y L. Martens. MovieTweetings: un conjunto de datos sobre valoración de películas recopilado de Twitter. Taller de micromecenazgo y cálculo humano para sistemas de recomendación, CrowdRec en RecSys 2013."
Datos sobre iris de dos clases Esta es quizá la base de datos más conocida entre la literatura de reconocimiento de modelos. El conjunto de datos es relativamente pequeño, con 50 ejemplos de cada una de las mediciones de pétalos de tres variedades de iris.

Uso: Predecir el tipo de iris a partir de las mediciones.

Investigación relacionada: Fisher, R.A. (1988). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Tweets sobre películas El conjunto de datos es una versión extendida del conjunto de datos Tweets sobre películas. El conjunto de datos incluye 170 000 valoraciones de películas extraídas de tweets bien estructurados en Twitter. Cada instancia representa un tweet y es una tupla: id. de usuario, id. de película IMDB, valoración, marca de tiempo, número de favoritos para ese tweet y número de retweets de ese tweet. A. Said, S. Dooms, B. Loni y D. Tikk proporcionaron el conjunto de datos para el Concurso de sistemas de recomendación 2014.
Datos sobre consumo de combustible por distancia recorrida para varios automóviles Este conjunto de datos es una versión ligeramente diferente del conjunto de datos ofrecido por la biblioteca StatLib de la Universidad Carnegie Mellon. El conjunto de datos se utilizó en la exposición de la asociación estadounidense de estadística de 1983.

Los datos muestran el consumo de combustible de varios automóviles en millas por galón. También incluye información como el número de cilindros, la cilindrada, los caballos de potencia, el peso total y la aceleración.

Uso: Predecir el ahorro de combustible en función de tres atributos discretos multivalor y cinco atributos continuos.

Investigación relacionada: StatLib, Carnegie Mellon University, (1993). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Conjunto de datos de clasificación binaria sobre diabetes en indios pima Subconjunto de datos de la base de datos del Instituto Nacional de la Diabetes y las Enfermedades Digestivas y Renales. El conjunto de datos se filtró para centrarse en pacientes femeninos con herencia de indios pima. Los datos incluyen información médica como niveles de glucosa e insulina y factores de estilo de vida.

Uso: Predecir si el sujeto tiene diabetes (clasificación binaria).

Investigación relacionada: Sigillito, V. (1990). Repositorio de aprendizaje de automático de UCI https://archive.ics.uci.edu/ml". Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Datos de clientes de restaurantes Conjunto de metadatos sobre clientes que incluye información demográfica y preferencias.

Uso: Usar este conjunto de datos, en combinación con los otros dos conjuntos de datos de restaurantes, para entrenar y probar un sistema de recomendaciones.

Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información.
Datos de características de restaurantes Un conjunto de metadatos acerca de restaurantes y sus características, como el tipo de comida, el estilo de comedor y la ubicación.

Uso: Usar este conjunto de datos, en combinación con los otros dos conjuntos de datos de restaurantes, para entrenar y probar un sistema de recomendaciones.

Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información.
Valoraciones de restaurantes Contiene valoraciones que los usuarios realizan sobre restaurantes en una escala de 0 a 2.

Uso: Usar este conjunto de datos, en combinación con los otros dos conjuntos de datos de restaurantes, para entrenar y probar un sistema de recomendaciones.

Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información.
Conjunto de datos de varias clases de recocido de acero Este conjunto de datos contiene una serie de registros de pruebas de recocido de acero con los atributos físicos, como anchura, grosor o tipo (rollo, lámina, etc.) de los tipos de acero resultantes.

Uso: Predecir cualquiera de los dos atributos de clase numéricos: dureza o resistencia. También puede analizar las correlaciones entre atributos.

Los grados del acero siguen una norma establecida, definida por la SAE y otras organizaciones. Está buscando un "grado" determinado (la variable de clase) y desea conocer los valores requeridos.

Investigación relacionada: Sterling, D. & Buntine, W. (NA). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información

Aquí encontrará una guía útil para los grados del acero: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Datos de telescopio Registro de explosiones de partículas gamma de alta energía junto con ruido de fondo, ambos simulados utilizando un proceso de Monte Carlo.

El objetivo de la simulación era mejorar la precisión de los telescopios gamma Cherenkov atmosféricos terrestres, utilizando métodos estadísticos para diferenciar entre la señal deseada (duchas de radiación de Cherenkov) y el ruido de fondo (duchas hadrónicas iniciadas por los rayos cósmicos en la atmósfera superior).

Los datos se sometieron a un procesado previo para crear un grupo alargado con el eje central orientado hacia el centro de la cámara. Las características de esta elipse (llamada en ocasiones parámetros de Hillas) se encuentran entre los parámetros de imagen que se pueden utilizar para la discriminación.

Uso: Predecir si la imagen de una ducha representa señal o ruido de fondo.

Notas: La precisión de clasificación sencilla no es significativa para estos datos, ya que clasificar un evento de fondo como señal es peor que clasificar un evento de señal como fondo. Para comparar los diferentes clasificadores se debe utilizar el gráfico ROC. La probabilidad de aceptar un evento de fondo como señal tiene que estar por debajo de uno de los umbrales siguientes: 0,01, 0,02, 0,05, 0,1 o 0,2.

Además, tenga en cuenta que el número de eventos de fondo (h, para las duchas hadrónicas) está subestimado, mientras que en las medidas reales, la clase h o ruido representa la mayoría de eventos.

Investigación relacionada: Bock, R.K. (1995). Repositorio de aprendizaje automático de UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universidad de California, Facultad de la Información
Conjunto de datos del tiempo Observaciones meteorológicas en tierra por hora de la NOAA (datos combinados del 201304 al 201310).

Los datos meteorológicos abarcan las observaciones de las estaciones meteorológicas de los aeropuertos, durante el período que comprende desde abril hasta octubre de 2013. Antes de cargarlo en Machine Learning Studio (clásico), el conjunto de datos se ha procesado como se indica a continuación:
  • Se asignaron los identificadores de las estaciones meteorológicas a los identificadores de aeropuerto correspondientes.
  • Se excluyeron las estaciones meteorológicas no asociadas a los 70 aeropuertos con mayor tráfico.
  • La columna Date se separó en columnas independientes con los valores Year, Month y Day.
  • Se seleccionaron las siguientes columnas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Conjunto de datos de SP 500 de Wikipedia Los datos se han extraído de Wikipedia (https://www.wikipedia.org/) y se basan en artículos de cada empresa del índice S&P 500, almacenados como datos XML.

Antes de cargarlo en Machine Learning Studio (clásico), el conjunto de datos se ha procesado como se indica a continuación:
  • Se extrajo el contenido de texto para cada empresa específica.
  • Se eliminó el formato wiki.
  • Se eliminaron los caracteres no alfanuméricos
  • Se convirtió todo el texto a minúscula.
  • Se agregaron las categorías de empresas conocidas.

Tenga en cuenta que no se ha encontrado ningún artículo para algunas empresas, por lo que el número de registros es inferior a 500.
direct_marketing.csv El conjunto de datos contiene datos de los clientes e indicaciones sobre sus respuestas a una campaña de correo directa. Cada fila representa a un cliente. El conjunto de datos contiene nueve características sobre datos demográficos del usuario y conducta en el pasado, y tres columnas de etiqueta (visita, conversión y gasto). Visita es una columna binaria que indica que un cliente ha hecho una visita después de la campaña de marketing. Conversión indica que un cliente adquirió algún artículo. Gasto es el importe que se gastó. Kevin Hillstrom proporcionó el conjunto de datos para el Reto de minería de datos y análisis de correo electrónico de MineThatData.
lyrl2004_tokens_test.csv Características de los ejemplos de prueba del conjunto de datos de noticias de Reuters RCV1 V2. El conjunto de datos tiene 781 000 artículos nuevos junto con sus identificadores (primera columna del conjunto de datos). Los artículos están acortados, excluyen palabras reservadas y su contenido se reduce a la raíz de cada palabra. David proporcionó el conjunto de datos. D. Lewis.
lyrl2004_tokens_train.csv Características de ejemplos de aprendizaje en el conjunto de datos de noticias de Reuters RCV1 V2. El conjunto de datos tiene 23 000 artículos nuevos junto con sus identificadores (primera columna del conjunto de datos). Los artículos están acortados, excluyen palabras reservadas y su contenido se reduce a la raíz de cada palabra. David proporcionó el conjunto de datos. D. Lewis.
network_intrusion_detection.csv
Conjunto de datos de la competición de minería de datos y detección de conocimientos KDD Cup 1999 (kddcup99.html).

El conjunto de datos se descargó y almacenó en Azure Blob Storage (network_intrusion_detection.csv) y comprende conjuntos de datos de entrenamiento y pruebas. El conjunto de datos de entrenamiento tiene aproximadamente 126.000 filas y 43 columnas, incluidas las etiquetas. Tres columnas forman parte de la información de etiquetas, y 40 columnas, compuestas de características numéricas y de cadena/categóricas, se encuentran disponibles para el entrenamiento del modelo. Los datos de prueba tienen aproximadamente 22.500 ejemplos de prueba (con las mismas 43 columnas en datos de entrenamiento).
rcv1-v2.topics.qrels.csv Asignaciones de tema para artículos de prensa en el conjunto de datos de noticias de Reuters RCV1 V2. Un artículo de prensa se puede asignar a varios temas. El formato de cada fila es "<nombre del tema><identificador del documento> 1". El conjunto de datos contiene 2,6 millones de asignaciones de tema. David proporcionó el conjunto de datos. D. Lewis.
student_performance.txt Estos datos se han extraído del concurso de evaluación del rendimiento de los estudiantes KDD Cup 2010 (evaluación del rendimiento de estudiantes). Los datos utilizados se corresponden con el conjunto de formación de álgebra 2008 y 2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Álgebra I 2008-2009. Conjunto de datos obtenidos de la minería de datos educativos de KDD Cup 2010. Lo encontrará en downloads.jsp.

El conjunto de datos se ha descargado y almacenado en Azure Blob Storage (student_performance.txt) y contiene archivos de registro de un sistema de tutoría de estudiantes. Las características suministradas incluyen el identificador del problema y una breve descripción, el identificador del alumno, la marca de tiempo y cuántos intentos realizó el estudiante antes de solucionar el problema de la manera correcta. El conjunto de datos original contiene 8,9 millones de registros; este conjunto de datos se ha muestreado para las primeras 100.000 filas. El conjunto de datos tiene 23 columnas de varios tipos separadas por tabulaciones: numéricas, categóricas y con marcas de tiempo.

Pasos siguientes