OJ Sales Simulated
Tato datová sada je odvozena z datové sady Dominick OJ a zahrnuje další simulovaná data pro souběžné trénování tisíců modelů na Azure Machine Learning.
Poznámka
Microsoft poskytuje datové sady Azure Open Datasets podle toho, jak je. Společnost Microsoft neposkytuje žádné záruky, výslovné nebo předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním právem Společnost Microsoft zřeknutí se veškeré odpovědnosti za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Data obsahují týdenní prodej pomerančové šťávy za 121 týdnů. K dispozici je 3 991 obchodů a tři značky pomerančové šťávy na obchod, aby bylo možné trénovat 11 973 modelů.
Zobrazení původního popisu datové sady nebo stažení datové sady
Sloupce
Název | Datový typ | Jedinečná | Hodnoty (ukázka) | Description |
---|---|---|---|---|
Inzerát | int | 1 | Hodnota označující, zda byly reklamy na oranžovou šťávu v týdnu 0: Žádné reklamy 1: Reklamy | |
Značka | řetězec | dominicks tropicana | Značka pomerančového džusu | |
Cena | double | 2.6 2.09 | Cena pomerančového džusu (v USD) | |
Množství | int | 10939 11638 | Množství pomerančového džusu prodané za příslušný týden | |
Výnos | double | 38438.4 36036.0 | Výnosy z pomerančového džusu za příslušný týden (v USD) | |
Uložení | int | 2658 1396 | Číslo obchodu, kde se pomerančový džus prodal | |
WeekStarting | časové razítko | 1990-08-09 00:00:00 1992-02-20 00:00:00 | Datum udávající, ke kterému týdnu se prodeje vztahují |
Preview
WeekStarting | Uložení | Značka | Množství | Inzerát | Cena | Výnos |
---|---|---|---|---|---|---|
10.1.1992 12:00:00 | 3571 | minute.maid | 13247 | 1 | 2.42 | 32057.74 |
10.1.1992 12:00:00 | 2999 | minute.maid | 18461 | 1 | 2.69 | 49660.09 |
10.1.1992 12:00:00 | 1198 | minute.maid | 13222 | 1 | 2.64 | 34906.08 |
10.1.1992 12:00:00 | 3916 | minute.maid | 12923 | 1 | 2.45 | 31661.35 |
10.1.1992 12:00:00 | 1688 | minute.maid | 9380 | 1 | 2.46 | 23074.8 |
10.1.1992 12:00:00 | 1040 | minute.maid | 18841 | 1 | 2.31 | 43522.71 |
10.1.1992 12:00:00 | 1938 | minute.maid | 14202 | 1 | 2.19 | 31102.38 |
10.1.1992 12:00:00 | 2405 | minute.maid | 16326 | 1 | 2.05 | 33468.3 |
10.1.1992 12:00:00 | 1972 | minute.maid | 16380 | 1 | 2.12 | 34725.6 |
Přístup k datům
Azure Notebooks
from azureml.core.workspace import Workspace
ws = Workspace.from_config()
datastore = ws.get_default_datastore()
from azureml.opendatasets import OjSalesSimulated
Čtení dat z Azure Open Datasets
# Create a Data Directory in local path
import os
oj_sales_path = "oj_sales_data"
if not os.path.exists(oj_sales_path):
os.mkdir(oj_sales_path)
# Pull all of the data
oj_sales_files = OjSalesSimulated.get_file_dataset()
# or pull a subset of the data
oj_sales_files = OjSalesSimulated.get_file_dataset(num_files=10)
oj_sales_files.download(oj_sales_path, overwrite=True)
Upload jednotlivé datové sady do Storage objektů blob
Nahrajeme data do objektu blob a vytvoříme FileDataset z této složky souborů CSV.
target_path = 'oj_sales_data'
datastore.upload(src_dir = oj_sales_path,
target_path = target_path,
overwrite = True,
show_progress = True)
Vytvoření datové sady souborů
Pro vytvoření FileDataset musíme definovat cestu k datům.
from azureml.core.dataset import Dataset
ds_name = 'oj_data'
path_on_datastore = datastore.path(target_path + '/')
input_ds = Dataset.File.from_files(path=path_on_datastore, validate=False)
Registrace datové sady souborů do pracovního prostoru
Chceme datovou sadu zaregistrovat do pracovního prostoru, abychom ji mohli volat jako vstup do kanálu pro prognózování.
registered_ds = input_ds.register(ws, ds_name, create_new_version=True)
named_ds = registered_ds.as_named_input(ds_name)
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
# Download or mount OJ Sales raw files Azure Machine Learning file datasets.
# This works only for Linux based compute. See https://docs.microsoft.com/en-us/azure/machine-learning/service/how-to-create-register-datasets to learn more about datasets.
from azureml.opendatasets import OjSalesSimulated
ojss_file = OjSalesSimulated.get_file_dataset()
ojss_file
ojss_file.to_path()
# Download files to local storage
import os
import tempfile
mount_point = tempfile.mkdtemp()
ojss_file.download(mount_point, overwrite=True)
# Mount files. Useful when training job will run on a remote compute.
import gzip
import struct
import pandas as pd
import numpy as np
# load compressed OJ Sales Simulated gz files and return numpy arrays
def load_data(filename, label=False):
with gzip.open(filename) as gz:
gz.read(4)
n_items = struct.unpack('>I', gz.read(4))
if not label:
n_rows = struct.unpack('>I', gz.read(4))[0]
n_cols = struct.unpack('>I', gz.read(4))[0]
res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
res = res.reshape(n_items[0], n_rows * n_cols)
else:
res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
res = res.reshape(n_items[0], 1)
return pd.DataFrame(res)
import sys
mount_point = tempfile.mkdtemp()
print(mount_point)
print(os.path.exists(mount_point))
print(os.listdir(mount_point))
if sys.platform == 'linux':
print("start mounting....")
with ojss_file.mount(mount_point):
print(os.listdir(mount_point))
train_images_df = load_data(os.path.join(mount_point, 'train-tabular-oj-ubyte.gz'))
print(train_images_df.info())
Další kroky
Zobrazte zbývající datové sady v katalogu Open Datasets.