Vendas de OJ Simuladas
Este conjunto de dados é derivado do conjunto de dados OJ da Dominick e inclui dados simulados extra para simultaneamente formar milhares de modelos em Azure Machine Learning.
Nota
A Microsoft fornece conjuntos de dados Azure Open numa base "ase". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições relativas à utilização dos conjuntos de dados. Na medida do permitido pela sua legislação local, a Microsoft declina toda a responsabilidade por quaisquer danos ou perdas, incluindo danos ou perdas diretas, consequentes, especiais, indiretos, incidentais ou punitivas, resultantes da utilização dos conjuntos de dados.
Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.
Os dados contêm vendas semanais de sumo de laranja ao longo de 121 semanas. Existem 3.991 lojas incluídas e três marcas de sumo de laranja por loja para que 11.973 modelos possam ser treinados.
Ver a descrição original do conjunto de dados ou fazer o download do conjunto de dados.
Colunas
Name | Tipo de dados | Exclusivo | Valores (amostra) | Description |
---|---|---|---|---|
Anúncio | int | 1 | Valor indicando se havia anúncios para o sumo de laranja durante a semana 0: Sem Anúncios 1: Anúncios | |
Marca | string | dominicks tropicana | Marca do sumo de laranja | |
Preço | double | 2.6 2.09 | Preço do sumo de laranja (em USD) | |
Quantidade | int | 10939 11638 | Quantidade de sumo de laranja vendida para essa semana | |
Receita | double | 38438.4 36036.0 | Receita das vendas do sumo de laranja para essa semana (em USD) | |
Armazenamento | int | 2658 1396 | Número de lojas em que o sumo de laranja foi vendido | |
SemanaStarting | carimbo de data/hora | 1990-08-09 00:00:00 1992-02-20 00:00:00 | Data que indica a semana referente às vendas |
Pré-visualizar
SemanaStarting | Armazenamento | Marca | Quantidade | Anúncio | Preço | Receita |
---|---|---|---|---|---|---|
10/1/1992 12:00:00 | 3571 | minuto.empregada | 13247 | 1 | 2.42 | 32057.74 |
10/1/1992 12:00:00 | 2999 | minuto.empregada | 18461 | 1 | 2.69 | 49660.09 |
10/1/1992 12:00:00 | 1198 | minuto.empregada | 13222 | 1 | 2.64 | 34906.08 |
10/1/1992 12:00:00 | 3916 | minuto.empregada | 12923 | 1 | 2.45 | 31661.35 |
10/1/1992 12:00:00 | 1688 | minuto.empregada | 9380 | 1 | 2.46 | 23074.8 |
10/1/1992 12:00:00 | 1040 | minuto.empregada | 18841 | 1 | 2.31 | 43522.71 |
10/1/1992 12:00:00 | 1938 | minuto.empregada | 14202 | 1 | 2.19 | 31102.38 |
10/1/1992 12:00:00 | 2405 | minuto.empregada | 16326 | 1 | 2.05 | 33468.3 |
10/1/1992 12:00:00 | 1972 | minuto.empregada | 16380 | 1 | 2.12 | 34725.6 |
Acesso a dados
Azure Notebooks
from azureml.core.workspace import Workspace
ws = Workspace.from_config()
datastore = ws.get_default_datastore()
from azureml.opendatasets import OjSalesSimulated
Ler dados do Azure Open Datasets
# Create a Data Directory in local path
import os
oj_sales_path = "oj_sales_data"
if not os.path.exists(oj_sales_path):
os.mkdir(oj_sales_path)
# Pull all of the data
oj_sales_files = OjSalesSimulated.get_file_dataset()
# or pull a subset of the data
oj_sales_files = OjSalesSimulated.get_file_dataset(num_files=10)
oj_sales_files.download(oj_sales_path, overwrite=True)
Faça o upload dos conjuntos de dados individuais para a Blob Armazenamento
Fazemos o upload dos dados para o Blob e criaremos o Dataset de Ficheiros a partir desta pasta de ficheiros CSV.
target_path = 'oj_sales_data'
datastore.upload(src_dir = oj_sales_path,
target_path = target_path,
overwrite = True,
show_progress = True)
Criar o conjunto de dados de ficheiros
Precisamos definir o caminho dos dados para criar o Dataset de Ficheiros.
from azureml.core.dataset import Dataset
ds_name = 'oj_data'
path_on_datastore = datastore.path(target_path + '/')
input_ds = Dataset.File.from_files(path=path_on_datastore, validate=False)
Registar o conjunto de dados de ficheiros no espaço de trabalho
Queremos registar o conjunto de dados no nosso espaço de trabalho para que possamos chamá-lo como uma entrada no nosso Pipeline para previsão.
registered_ds = input_ds.register(ws, ds_name, create_new_version=True)
named_ds = registered_ds.as_named_input(ds_name)
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
# Download or mount OJ Sales raw files Azure Machine Learning file datasets.
# This works only for Linux based compute. See https://docs.microsoft.com/en-us/azure/machine-learning/service/how-to-create-register-datasets to learn more about datasets.
from azureml.opendatasets import OjSalesSimulated
ojss_file = OjSalesSimulated.get_file_dataset()
ojss_file
ojss_file.to_path()
# Download files to local storage
import os
import tempfile
mount_point = tempfile.mkdtemp()
ojss_file.download(mount_point, overwrite=True)
# Mount files. Useful when training job will run on a remote compute.
import gzip
import struct
import pandas as pd
import numpy as np
# load compressed OJ Sales Simulated gz files and return numpy arrays
def load_data(filename, label=False):
with gzip.open(filename) as gz:
gz.read(4)
n_items = struct.unpack('>I', gz.read(4))
if not label:
n_rows = struct.unpack('>I', gz.read(4))[0]
n_cols = struct.unpack('>I', gz.read(4))[0]
res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
res = res.reshape(n_items[0], n_rows * n_cols)
else:
res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
res = res.reshape(n_items[0], 1)
return pd.DataFrame(res)
import sys
mount_point = tempfile.mkdtemp()
print(mount_point)
print(os.path.exists(mount_point))
print(os.listdir(mount_point))
if sys.platform == 'linux':
print("start mounting....")
with ojss_file.mount(mount_point):
print(os.listdir(mount_point))
train_images_df = load_data(os.path.join(mount_point, 'train-tabular-oj-ubyte.gz'))
print(train_images_df.info())
Passos seguintes
Ver o resto dos conjuntos de dados no catálogo Open Datasets.