Share via


opendatasets Paquete

Contiene funcionalidad para consumir Azure Open Datasets como tramas de datos y enriquecer los datos del cliente.

Azure Open Datasets son conjuntos de datos públicos mantenidos que puede usar para agregar características de escenarios específicos a soluciones de aprendizaje automático a fin de obtener modelos más precisos. Puede convertir estos conjuntos de datos públicos en tramas de datos de Spark y Pandas con filtros aplicados. Para algunos conjuntos de datos, puede usar un enriquecedor para combinar los datos públicos con sus datos. Por ejemplo, puede combinar los datos con la información meteorológica por longitud y latitud o código postal y hora.

Se incluyen en Azure Open Datasets datos de dominio público para la meteorología, el censo, los días festivos, la seguridad pública y la ubicación que le ayudan a entrenar modelos de aprendizaje automático y enriquecer soluciones predictivas. Las instancias de Azure Open Datasets se encuentran en la nube en Microsoft Azure y se integran en Azure Machine Learning. Para más información sobre cómo trabajar con Azure Open Datasets, consulte Creación de conjuntos de datos con Azure Open Datasets.

Para información general sobre Azure Open Datasets, consulte Documentación de Azure Open Datasets.

Paquetes

accessories

Contiene funcionalidad que ayuda a identificar los tipos de columna en los datos, como latitud/longitud, el código postal y el tiempo.

aggregators

Contiene funcionalidad para definir cómo se agregan los datos unidos.

Los agregadores definen operaciones que se pueden realizar a partir del resultado de unir datos de dos conjuntos de datos. Por ejemplo, cuando se usa una de las clases de enrichers, puede especificar un agregador como parte de la operación. Si no se necesita ninguna agregación, use AggregatorAll.

data

Contiene el archivo init de los recursos de datos del módulo publicholidays.

dataaccess

Contiene la funcionalidad que proporciona métodos de acceso a archivos de blob.

Cuando se usa una clase del paquete opendatasets como la clase ChicagoSafety, las clases de acceso a datos y las funciones de este paquete se usan internamente. En general, no tendrá que usar directamente la funcionalidad del paquete dataaccess.

enrichers

Contiene funcionalidad para enriquecer y unir datos de dos conjuntos de datos.

Por lo general, los enriquecedores unen datos de diferentes orígenes. En concreto, los enriquecedores permiten unir los datos (datos del cliente) con datos de Azure Open Datasets u otros conjuntos de datos públicos.

granularities

Contiene la funcionalidad que define las medidas de tiempo y distancia usadas por los enriquecedores.

Las granularidades son medidas de tiempo o distancia usadas por enrichers al enriquecer (unir) datos. Hay granularidades de tiempo, como cada hora o cada día, y granularidad de ubicación, como la distancia más cercana.

selectors

Contiene funcionalidad para seleccionar y unir datos de un conjunto de datos de cliente con datos de un conjunto de datos público.

Los selectores definen una lógica que le permite enriquecer los datos con conjuntos de datos públicos en función de las medidas de tiempo y distancia. Por ejemplo, con un selector puede encontrar datos públicos para crear uniones con los datos en función de la ubicación más cercana o redondeando a la misma granularidad de tiempo.

Especifique selectores al trabajar con una de las clases del paquete enrichers.

Módulos

environ

Define las clases de entorno en tiempo de ejecución donde usan conjuntos de datos de Azure Open Datasets.

Las clases de este módulo garantizan que la funcionalidad de Azure Open Datasets está optimizada para distintos entornos. En general, no es necesario crear instancias de estas clases de entorno ni preocuparse por su implementación. En su lugar, use la función de módulo get_environ para devolver el entorno.

Clases

BingCOVID19Data

Representa el conjunto de datos de la COVID-19 de Bing.

Estos conjuntos de datos contienen datos de la COVID-19 de Bing de varios orígenes confiables, incluidos la Organización Mundial de la Salud (OMS), los Centros para el Control y la Prevención de Bing, diferentes departamentos de salud pública nacional y estatales, BNO News, 24/7 Wall St. y Wikipedia. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de la COVID-19 en Bing en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

BostonSafety

Representa el conjunto de datos público de seguridad de Boston.

Este conjunto de datos contiene llamadas al número 311 en la ciudad de Boston. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de la COVID-19 de Boston en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

COVID19OpenResearch

Representa el conjunto de datos de artículos académicos de la COVID-19.

Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Conjunto de datos de artículos académicos de la COVID-19 en el catálogo de Microsoft Azure Open Datasets.

COVIDTrackingProject

Representa el conjunto de datos de proyectos de seguimiento de la COVID.

El conjunto de datos de proyectos de seguimiento de la COVID ofrece las últimas cifras sobre las pruebas, los casos confirmados, las hospitalizaciones y los pronósticos de los pacientes de cada estado y territorio de EE. UU. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Conjunto de datos de proyectos de seguimiento de la COVID en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

ChicagoSafety

Representa el conjunto de datos público de seguridad de Chicago.

Este conjunto de datos contiene solicitudes de servicio al número 311 en la ciudad de Chicago. Se incluyen datos históricos de las reclamaciones relacionadas con la normativa de saneamiento, los baches denunciados y problemas con el alumbrado público. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de Chicago en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

CitySafety

Clase de seguridad de ciudad: se trata de una clase primaria que puede heredar cada ciudad individual.

Inicialice los campos de filtrado.

Diabetes

Representa el conjunto de datos público de diabetes de ejemplo.

El conjunto de datos de Diabetes tiene 442 muestras con 10 características, por lo que es ideal para comenzar con algoritmos de aprendizaje automático. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Muestra: Diabetes en el catálogo de Microsoft Azure Open Datasets.

EcdcCOVIDCases

Representa los casos de COVID-19 del Centro Europeo para la Prevención y el Control de Enfermedades (ECDC).

Estos conjuntos de datos contienen datos del Centro Europeo para la Prevención y el Control de la Enfermedad (ECDC). Cada fila o entrada contiene el número de nuevos casos notificados por día y por país/región. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas maneras de acceder al conjunto de datos y ejemplos, consulte Casos de Covid-19 del Centro Europeo para la Prevención y el Control de Enfermedades (ECDC) en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

MNIST

Representa el conjunto de datos de MNIST de dígitos manuscritos.

La base de datos MNIST de dígitos manuscritos tiene un conjunto de entrenamiento de 60 000 ejemplos y un conjunto de prueba de 10 000 ejemplos. Los dígitos tienen un tamaño normalizado y están centrados en una imagen de tamaño fijo. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Base de datos de MNIST de dígitos manuscritos en el catálogo de Microsoft Azure Open Datasets.

Para obtener un ejemplo del uso de conjunto de datos de MNIST, consulte el tutorial Entrenamiento de modelos de clasificación de imágenes con datos de MNIST y scikit-learn mediante Azure Machine Learning.

NoParameterOpenDatasetBase

Clase base de la mano de obra de EE. UU.

Inicializar.

NoaaGfsWeather

Representa el conjunto de datos del sistema de previsión global (GFS) de la Administración Nacional Oceánica y Atmosférica (NOAA).

Este conjunto de datos contiene datos de la previsión meteorológica para Estados Unidos por horas para 15 días (por ejemplo, temperatura, precipitaciones, viento) producidos por el Sistema Global de Predicción (GFS, por sus siglas en inglés) de la Administración Nacional Oceánica y Atmosférica (NOAA). Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Sistema de previsión global de la NOAA en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

NoaaIsdWeather

Representa el conjunto de datos de superficies integradas (ISD) de la Administración Nacional Oceánica y Atmosférica (NOAA).

Este conjunto de datos contiene datos meteorológicos históricos por horas de todo el mundo (por ejemplo, temperatura, precipitaciones, viento) proporcionados por la Administración Nacional Oceánica y Atmosférica (NOAA). Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de superficies integradas de la NOAA en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

NycSafety

Representa el conjunto de datos público de seguridad de la ciudad de Nueva York.

Este conjunto de datos contiene todas las solicitudes de servicio en el número 311 de la ciudad de Nueva York desde 2010 hasta la actualidad. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de la ciudad de Nueva York en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

NycTaxiBase

Clase Taxi de Nueva York: se trata de una clase primaria que se puede heredar.

Inicialice los campos de filtrado.

NycTlcFhv

Representa el conjunto de datos público nyc Taxi & Limousine Commission.

Este conjunto de datos contiene registros de carreras de vehículos de alquiler (FHV), que incluyen campos donde se captura el número de licencia de la central y la fecha, la hora y el identificador de la ubicación de la parada de taxi donde suben los pasajeros (archivo de forma a continuación). Estos registros se generan a partir de los envíos de carreras de vehículos de alquiler que realizan las centrales. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Nyc Taxi & Limousine Commission - For-Hire Registros de carreras de vehículos (FHV) en el catálogo microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

NycTlcGreen

Representa el conjunto de datos público nyc taxi & Limousine Commission.

Los registros de carreras de taxis verdes incluyen campos que recopilan la fecha, la hora y el lugar donde se recoge y se deja a los pasajeros, las distancias de las carreras, las tarifas desglosadas, los tipos de tarifa, los tipos de pago y los recuentos de pasajeros notificados por el conductor. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte NYC Taxi & Limousine Commission - green taxi trip records (Registros de carreras de taxis verdes) en el catálogo microsoft Azure Open Datasets.

Para obtener un ejemplo del uso de la clase NycTlcGreen, consulte el tutorial Uso del aprendizaje automático automatizado para predecir tarifas de taxi.

Inicialice los campos de filtrado.

NycTlcYellow

Representa el conjunto de datos público nyc taxi & Limousine Commission.

Los registros de carreras de taxis amarillos incluyen campos que recopilan la fecha, la hora y el lugar donde se recoge y se deja a los pasajeros, las distancias de las carreras, las tarifas desglosadas, los tipos de tarifa, los tipos de pago y los recuentos de pasajeros notificados por el conductor. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Nyc Taxi & Limousine Commission - yellow taxi trip records in the Microsoft Azure Open Datasets catalog.

Inicialice los campos de filtrado.

OjSalesSimulated

Representa el conjunto de datos de simulaciones de ventas de zumo de naranja de ejemplo.

Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Muestra: Datos de simulaciones de ventas de zumo de naranja en el catálogo de Microsoft Azure Open Datasets.

PublicHolidays

Representa el conjunto de datos público de días festivos públicos.

Este conjunto de datos contiene datos sobre los días festivos de todo el mundo procedentes del paquete PyPI holidays y de Wikipedia, que cubren 38 países o regiones desde 1970 hasta 2099. Cada fila indica la información de día festivo para una fecha y un país o región específicos y si la mayoría de las personas tienen tiempo libre remunerado. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Días festivos públicos en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

PublicHolidaysOffline

Representa el conjunto de datos público (sin conexión) de días festivos públicos.

Para obtener una descripción de las filas, consulte Días festivos públicos en el catálogo Microsoft Azure Open Datasets datos.

Inicialice los campos de filtrado.

SampleDatasetBase

Representa la clase base de conjuntos de datos de ejemplo.

SanFranciscoSafety

Representa el conjunto de datos públicos de seguridad de San Francisco.

Este conjunto de datos contiene llamadas de servicio a los bomberos y casos del número 311 en San Francisco. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad la COVID-19 de San Francisco en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

SeattleSafety

Representa el conjunto de datos público de seguridad de Seattle.

Este conjunto de datos contiene datos de envío del número 911 de los bomberos de Seattle. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de Seattle en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

UsLaborCPI

Representa el conjunto de datos público del índice de precios de consumidor de EE. UU.

El índice de precios al consumo (IPC) es una medida de la variación media a lo largo del tiempo en los precios que pagan los consumidores urbanos por una cesta de la compra de bienes de consumo y servicios. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Índice de precios al consumo de Estados Unidos en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsLaborEHENational

Representa el conjunto de datos público de horas de empleo y ganancias nacionales de EE. UU.

Este conjunto de datos contiene estimaciones del sector de empleos no laborales, horas y ganancias de trabajadores con nóminas en Estados Unidos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Horas de empleo y ganancias en EE. UU. en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsLaborEHEState

Representa el conjunto de datos público de horas de empleo y ganancias nacionales de EE. UU.

Este conjunto de datos contiene estimaciones del sector de empleos no laborales, horas y ganancias de trabajadores con nóminas en Estados Unidos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Horas de empleo y ganancias en EE. UU. en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsLaborLAUS

Representa el conjunto de datos público de estadísticas de desempleo de área local de EE. UU.

Este conjunto de datos contiene datos de empleo, desempleo y población activa mensual y anualmente para las regiones y divisiones censales, los estados, los condados, las áreas metropolitanas y muchas ciudades de Estados Unidos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Estadísticas de desempleo en EE. UU. en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsLaborLFS

Representa el conjunto de datos público de estadísticas de la fuerza de trabajo de EE. UU.

Este conjunto de datos contiene datos sobre la fuerza de trabajo de la Estados Unidos, incluidas las tasas de participación de la fuerza laboral y la población no institucional por edad, sexo, carrera y grupos étnicos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Estadísticas de la fuerza de trabajo de Estados Unidos en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsLaborPPICommodity

Representa el conjunto de datos público de índice de precios de productores (IPP) de EE. UU.

El índice de precios al productor (IPP) es una medida de la variación media a lo largo del tiempo de los precios de venta que reciben los productores nacionales por su producción. Los precios incluidos en el IPP corresponden a la primera transacción comercial de los productos y servicios cubiertos. Este conjunto de datos contiene IPP de productos individuales y grupos de productos publicados mensualmente. Para más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Índice de precios al productor de EE. UU: productos en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsLaborPPIIndustry

Representa el índice de precios al productor (IPP) de EE. UU del conjunto de datos público del sector.

El índice de precios al productor (IPP) es una medida de la variación media a lo largo del tiempo de los precios de venta que reciben los productores nacionales por su producción. Los precios incluidos en el IPP corresponden a la primera transacción comercial de los productos y servicios cubiertos. Este conjunto de datos contiene IPP para una amplia gama de sectores del sector de la economía de EE. UU. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Índice de precios al productor de EE. UU: sector en el catálogo de Microsoft Azure Open Datasets.

Para información general sobre Azure Open Datasets, consulte Documentación de Azure Open Datasets.

Inicializar.

UsPopulationCounty

Representa el conjunto de datos público de población de EE. UU: por distrito.

Este conjunto de datos contiene datos de la población estadounidense por sexo y raza para cada distrito de EE. UU. procedente del censo decenal del 2000 y 2010. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Población de EE: UU. por distrito en el catálogo de Microsoft Azure Open Datasets.

Inicializar.

UsPopulationZip

Representa el conjunto de datos público de la población de EE. UU. por código postal.

Este conjunto de datos contiene datos de la población estadounidense por género y raza para cada código postal de EE. UU. procedente del censo decenal desde el 2010. Para más información sobre este conjunto de datos, incluidas las descripciones de columnas, las distintas formas de acceder al conjunto de datos y ejemplos, consulte Población de EE. UU. por código postal en el catálogo de Microsoft Azure Open Datasets.

Inicializar.