Dataset Klass

Referens

Representerar en resurs för att utforska, transformera och hantera data i Azure Machine Learning.

En datauppsättning är en referens till data i en Datastore eller bakom offentliga webb-URL:er.

För metoder som är inaktuella i den här klassen kontrollerar AbstractDataset du klassen för de förbättrade API:erna.

Följande typer av datauppsättningar stöds:

TabularDataset representerar data i tabellformat som skapats genom att parsa den angivna filen eller listan med filer.
FileDataset refererar till en eller flera filer i datalager eller från offentliga URL:er.

Om du vill komma igång med datauppsättningar kan du läsa artikeln Lägg till & registrera datauppsättningar eller se notebook-filerna https://aka.ms/tabulardataset-samplenotebook och https://aka.ms/filedataset-samplenotebook.

Initiera datauppsättningsobjektet.

Om du vill hämta en datauppsättning som redan har registrerats med arbetsytan använder du metoden get.

Arv: builtins.object

Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parametrar

definition: <xref:azureml.data.DatasetDefinition>

Obligatorisk

Datauppsättningsdefinitionen.

workspace: Workspace

Obligatorisk

Arbetsytan där datauppsättningen finns.

name: str

Obligatorisk

Namnet på datauppsättningen.

id: str

Obligatorisk

Den unika identifieraren för datauppsättningen.

Kommentarer

Klassen Dataset exponerar två bekvämlighetsklassattribut (File och Tabular) som du kan använda för att skapa en datauppsättning utan att arbeta med motsvarande fabriksmetoder. Om du till exempel vill skapa en datauppsättning med hjälp av följande attribut:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Du kan också skapa en ny TabularDataset eller FileDataset genom att direkt anropa motsvarande fabriksmetoder för klassen som definierats i TabularDatasetFactory och FileDatasetFactory.

I följande exempel visas hur du skapar en TabularDataset som pekar på en enskild sökväg i ett datalager.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Fullständigt exempel är tillgängligt från https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabler

azureml.core.Dataset.File

Ett klassattribut som ger åtkomst till FileDatasetFactory-metoderna för att skapa nya FileDataset-objekt. Användning: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Ett klassattribut som ger åtkomst till TabularDatasetFactory-metoderna för att skapa nya TabularDataset-objekt. Användning: Dataset.Tabular.from_delimited_files().

Metoder

archive	Arkivera en aktiv eller inaktuell datauppsättning. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
auto_read_files	Analyserar filerna på den angivna sökvägen och returnerar en ny datauppsättning. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder metoderna Dataset.Tabular.from_* för att läsa filer. Mer information finns i https://aka.ms/dataset-deprecation.
compare_profiles	Jämför den aktuella datauppsättningens profil med en annan datauppsättningsprofil. Detta visar skillnaderna i sammanfattningsstatistik mellan två datauppsättningar. Parametern "rhs_dataset" står för "höger sida" och är helt enkelt den andra datauppsättningen. Den första datauppsättningen (det aktuella datamängdsobjektet) anses vara "vänster sida". Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
create_snapshot	Skapa en ögonblicksbild av den registrerade datauppsättningen. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
delete_snapshot	Ta bort ögonblicksbild av datauppsättningen efter namn. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
deprecate	Föråldrade en aktiv datauppsättning i en arbetsyta av en annan datauppsättning. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
diff	Diff den aktuella datauppsättningen med rhs_dataset. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
from_binary_files	Skapa en oregistrerad minnesintern datauppsättning från binära filer. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder Dataset.File.from_files i stället. Mer information finns i https://aka.ms/dataset-deprecation.
from_delimited_files	Skapa en oregistrerad minnesintern datauppsättning från avgränsade filer. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder Dataset.Tabular.from_delimited_files i stället. Mer information finns i https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Skapa en oregistrerad minnesintern datauppsättning från Excel-filer. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
from_json_files	Skapa en oregistrerad minnesintern datauppsättning från JSON-filer. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder Dataset.Tabular.from_json_lines_files i stället för att läsa från JSON-radfilen. Mer information finns i https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Skapa en oregistrerad minnesintern datauppsättning från en Pandas-dataram. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder Dataset.Tabular.register_pandas_dataframe i stället. Mer information finns i https://aka.ms/dataset-deprecation.
from_parquet_files	Skapa en oregistrerad minnesintern datauppsättning från parquet-filer. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder Dataset.Tabular.from_parquet_files i stället. Mer information finns i https://aka.ms/dataset-deprecation.
from_sql_query	Skapa en oregistrerad minnesintern datauppsättning från en SQL-fråga. Anteckning Den här metoden är inaktuell och stöds inte längre. Vi rekommenderar att du använder Dataset.Tabular.from_sql_query i stället. Mer information finns i https://aka.ms/dataset-deprecation.
generate_profile	Generera en ny profil för datauppsättningen. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
get	Hämta en datauppsättning som redan finns på arbetsytan genom att ange antingen dess namn eller ID. Anteckning Den här metoden är inaktuell och stöds inte längre. Rekommendera att använda get_by_name och get_by_id i stället. Mer information finns i https://aka.ms/dataset-deprecation.
get_all	Hämta alla registrerade datauppsättningar på arbetsytan.
get_all_snapshots	Hämta alla ögonblicksbilder av datauppsättningen. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
get_by_id	Hämta en datauppsättning som sparas på arbetsytan.
get_by_name	Hämta en registrerad datauppsättning från arbetsytan med dess registreringsnamn.
get_definition	Hämta en specifik definition av datauppsättningen. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
get_definitions	Hämta alla definitioner av datauppsättningen. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
get_profile	Hämta sammanfattningsstatistik för datauppsättningen som beräknades tidigare. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
get_snapshot	Hämta en ögonblicksbild av datauppsättningen efter namn. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
head	Hämta det angivna antalet poster som angetts från den här datauppsättningen och returnera dem som en DataFrame. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
list	Visa en lista över alla datauppsättningar på arbetsytan, inklusive de med en egenskap som är lika med `is_visible` False. Anteckning Den här metoden är inaktuell och stöds inte längre. Rekommendera att använda get_all i stället. Mer information finns i https://aka.ms/dataset-deprecation.
reactivate	Återaktivera en arkiverad eller inaktuell datauppsättning. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
register	Registrera datauppsättningen på arbetsytan, vilket gör den tillgänglig för andra användare av arbetsytan. Anteckning Den här metoden är inaktuell och stöds inte längre. Rekommendera att använda register i stället. Mer information finns i https://aka.ms/dataset-deprecation.
sample	Generera ett nytt exempel från källdatauppsättningen med hjälp av den samplingsstrategi och de parametrar som tillhandahålls. Anteckning Den här metoden är inaktuell och stöds inte längre. Skapa en TabularDataset genom att anropa de statiska metoderna i Dataset.Tabular och använda take_sample metoden där. Mer information finns i https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen. Anteckning Den här metoden är inaktuell och stöds inte längre. Skapa en TabularDataset genom att anropa de statiska metoderna i Dataset.Tabular och använda to_pandas_dataframe metoden där. Mer information finns i https://aka.ms/dataset-deprecation.
to_spark_dataframe	Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen. Anteckning Den här metoden är inaktuell och stöds inte längre. Skapa en TabularDataset genom att anropa de statiska metoderna i Dataset.Tabular och använda to_spark_dataframe metoden där. Mer information finns i https://aka.ms/dataset-deprecation.
update	Uppdatera de föränderliga attributen för datauppsättningar på arbetsytan och returnera den uppdaterade datauppsättningen från arbetsytan. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.
update_definition	Uppdatera datauppsättningsdefinitionen. Anteckning Den här metoden är inaktuell och stöds inte längre. Mer information finns i https://aka.ms/dataset-deprecation.

auto_read_files

Analyserar filerna på den angivna sökvägen och returnerar en ny datauppsättning.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder metoderna Dataset.Tabular.from_* för att läsa filer. Mer information finns i https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parametrar

path: DataReference eller str

Obligatorisk

En datasökväg i ett registrerat datalager, en lokal sökväg eller en HTTP-URL (CSV/TSV).

include_path: bool

Obligatorisk

Om du vill inkludera en kolumn som innehåller sökvägen till filen som data lästes från. Användbart när du läser flera filer och vill veta vilken fil en viss post kommer från. Även användbart om det finns information i filsökvägen eller namnet som du vill ha i en kolumn.

partition_format: str

Obligatorisk

Ange partitionsformatet i sökvägen och skapa strängkolumner från formatet {x} och datetime-kolumnen från formatet {x:åååå/MM/dd/HH/mm/ss}, där 'åååå', 'MM', 'dd', 'HH', 'mm' och 'ss' används för extra år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med en filsökväg .. /Accounts/2019/01/01/data.csv" där data partitioneras efter avdelningsnamn och tid, kan vi definiera "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" för att skapa kolumnerna "Department" av strängtyp och "PartitionDate" av datetime-typ.

Returer

Datauppsättningsobjekt.

Returtyp

Dataset

Kommentarer

Använd den här metoden om du vill att filformat och avgränsare ska identifieras automatiskt.

När du har skapat en datauppsättning bör du använda get_profile för att lista identifierade kolumntyper och sammanfattningsstatistik för varje kolumn.

Den returnerade datauppsättningen är inte registrerad på arbetsytan.

compare_profiles

Jämför den aktuella datauppsättningens profil med en annan datauppsättningsprofil.

Detta visar skillnaderna i sammanfattningsstatistik mellan två datauppsättningar. Parametern "rhs_dataset" står för "höger sida" och är helt enkelt den andra datauppsättningen. Den första datauppsättningen (det aktuella datamängdsobjektet) anses vara "vänster sida".

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametrar

rhs_dataset: Dataset

Obligatorisk

En andra datauppsättning, även kallad "höger sida" datauppsättning för jämförelse.

profile_arguments: dict

Obligatorisk

Argument för att försöka skapa en specifik profil igen.

include_columns: list[str]

Obligatorisk

Lista över kolumnnamn som ska ingå i jämförelsen.

exclude_columns: list[str]

Obligatorisk

Lista över kolumnnamn som ska undantas i jämförelse.

histogram_compare_method: HistogramCompareMethod

Obligatorisk

Uppräkning som beskriver jämförelsemetoden, t.ex. Wasserstein eller Energy

Returer

Skillnad mellan de två datauppsättningsprofilerna.

Returtyp

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Kommentarer

Detta gäller endast för registrerade datauppsättningar. Genererar ett undantag om den aktuella datauppsättningens profil inte finns. För oregistrerade datauppsättningar använder du metoden profile.compare.

create_snapshot

Skapa en ögonblicksbild av den registrerade datauppsättningen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametrar

snapshot_name: str

Obligatorisk

Namnet på ögonblicksbilden. Namn på ögonblicksbilder ska vara unika i en datauppsättning.

compute_target: Union[ComputeTarget, str]

Obligatorisk

Valfritt beräkningsmål för att skapa ögonblicksbildsprofilen. Om det utelämnas används den lokala beräkningen.

create_data_snapshot: bool

Obligatorisk

Om sant skapas en materialiserad kopia av data.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Obligatorisk

Måldatalager för att spara ögonblicksbilder. Om den utelämnas skapas ögonblicksbilden i arbetsytans standardlagring.

Returer

Objekt för ögonblicksbild av datauppsättning.

Returtyp

DatasetSnapshot

Kommentarer

Ögonblicksbilder samlar in tidssammanfattningsstatistik för underliggande data och en valfri kopia av själva data. Om du vill veta mer om att skapa ögonblicksbilder går du till https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Ta bort ögonblicksbild av datauppsättningen efter namn.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametrar

snapshot_name: str

Obligatorisk

Namnet på ögonblicksbilden.

Returer

Inga.

Returtyp

None

Kommentarer

Använd detta för att frigöra lagringsutrymme som används av data som sparats i ögonblicksbilder som du inte längre behöver.

deprecate

Föråldrade en aktiv datauppsättning i en arbetsyta av en annan datauppsättning.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametrar

deprecate_by_dataset_id: str

Obligatorisk

Det datauppsättnings-ID som är avsett att ersätta den här datauppsättningen.

Returer

Inga.

Returtyp

None

Kommentarer

Inaktuella datauppsättningar loggar varningar när de används. Inaktuella datauppsättningar inaktuella för alla dess definitioner.

Inaktuella datauppsättningar kan fortfarande användas. Om du vill blockera en datauppsättning helt från att användas arkiverar du den.

Om den är inaktuell av misstag aktiverar återaktiveringen den.

diff

Diff den aktuella datauppsättningen med rhs_dataset.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametrar

rhs_dataset: Dataset

Obligatorisk

En annan datauppsättning kallas även datauppsättning på höger sida för jämförelse

compute_target: Union[ComputeTarget, str]

Obligatorisk

beräkningsmål för att utföra diffet. Om det utelämnas används den lokala beräkningen.

columns: list[str]

Obligatorisk

Lista över kolumnnamn som ska ingå i diff.

Returer

Körningsobjekt för datauppsättningsåtgärd.

Returtyp

DatasetActionRun

from_binary_files

Skapa en oregistrerad minnesintern datauppsättning från binära filer.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder Dataset.File.from_files i stället. Mer information finns i https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parametrar

path: DataReference eller str

Obligatorisk

En datasökväg i ett registrerat datalager eller en lokal sökväg.

Returer

Datauppsättningsobjektet.

Returtyp

Dataset

Kommentarer

Använd den här metoden för att läsa filer som strömmar av binära data. Returnerar ett filströmsobjekt per filläsning. Använd den här metoden när du läser bilder, videor, ljud eller andra binära data.

get_profile och create_snapshot fungerar inte som förväntat för en datauppsättning som skapats av den här metoden.

Den returnerade datauppsättningen är inte registrerad på arbetsytan.

from_delimited_files

Skapa en oregistrerad minnesintern datauppsättning från avgränsade filer.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder Dataset.Tabular.from_delimited_files i stället. Mer information finns i https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametrar

path: DataReference eller str

Obligatorisk

En datasökväg i ett registrerat datalager, en lokal sökväg eller en HTTP-URL.

separator: str

Obligatorisk

Avgränsaren som används för att dela kolumner.

header: PromoteHeadersBehavior

Obligatorisk

Styr hur kolumnrubriker höjs upp när du läser från filer.

encoding: FileEncoding

Obligatorisk

Kodningen av de filer som läss.

quoting: bool

Obligatorisk

Ange hur nya radtecken ska hanteras inom citattecken. Standardvärdet (Falskt) är att tolka nya radtecken som att starta nya rader, oavsett om de nya radteckenen ligger inom citattecken eller inte. Om värdet är Sant resulterar nya radtecken inom citattecken inte i nya rader, och filläsningshastigheten blir långsammare.

infer_column_types: bool

Obligatorisk

Anger om kolumndatatyper härleds.

skip_rows: int

Obligatorisk

Hur många rader som ska hoppa över i de filer som läss.

skip_mode: SkipLinesBehavior

Obligatorisk

Styr hur rader hoppas över när du läser från filer.

comment: str

Obligatorisk

Tecken som används för att ange kommentarsrader i de filer som läss. Rader som börjar med den här strängen hoppas över.

include_path: bool

Obligatorisk

Om du vill inkludera en kolumn som innehåller sökvägen till filen som data lästes från. Detta är användbart när du läser flera filer och vill veta vilken fil en viss post kommer från eller för att behålla användbar information i filsökvägen.

archive_options: <xref:azureml.dataprep.ArchiveOptions>

Obligatorisk

Alternativ för arkivfil, inklusive arkivtyp och postglobmönster. Vi stöder endast ZIP som arkivtyp för tillfället. Du kan till exempel ange


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

läser alla filer med namnet som slutar med "10-20.csv" i ZIP.

partition_format: str

Obligatorisk

Ange partitionsformatet i sökvägen och skapa strängkolumner från formatet {x} och datetime-kolumnen från formatet {x:åååå/MM/dd/HH/mm/ss}, där 'åååå', 'MM', 'dd', 'HH', 'mm' och 'ss' används för extra år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med en filsökväg .. /Accounts/2019/01/01/data.csv" där data partitioneras efter avdelningsnamn och tid, kan vi definiera "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" för att skapa kolumnerna "Avdelning" av strängtyp och "PartitionDate" av datetime-typ.

Returer

Datauppsättningsobjekt.

Returtyp

Dataset

Kommentarer

Använd den här metoden för att läsa avgränsade textfiler när du vill styra de alternativ som används.

När du har skapat en datauppsättning bör du använda get_profile för att lista identifierade kolumntyper och sammanfattningsstatistik för varje kolumn.

Den returnerade datauppsättningen är inte registrerad på arbetsytan.

from_excel_files

Skapa en oregistrerad minnesintern datauppsättning från Excel-filer.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametrar

path: DataReference eller str

Obligatorisk

En datasökväg i ett registrerat datalager eller en lokal sökväg.

sheet_name: str

Obligatorisk

Namnet på Excel-bladet som ska läsas in. Som standard läser vi det första bladet från varje Excel-fil.

use_column_headers: bool

Obligatorisk

Styr om den första raden ska användas som kolumnrubriker.

skip_rows: int

Obligatorisk

Hur många rader som ska hoppa över i de filer som läss.

include_path: bool

Obligatorisk

infer_column_types: bool

Obligatorisk

Om det är sant kommer kolumndatatyper att härledas.

partition_format: str

Obligatorisk

Ange partitionsformatet i sökvägen och skapa strängkolumner från formatet {x} och datetime-kolumnen från formatet {x:åååå/MM/dd/HH/mm/ss}, där 'åååå', 'MM', 'dd', 'HH', 'mm' och 'ss' används för extra år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med en filsökväg .. /Accounts/2019/01/01/data.xlsx" där data partitioneras efter avdelningsnamn och tid, kan vi definiera "/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx" för att skapa kolumnerna "Avdelning" av strängtyp och "PartitionDate" av datetime-typ.

Returer

Datauppsättningsobjekt.

Returtyp

Dataset

Kommentarer

Använd den här metoden för att läsa Excel-filer i .xlsx format. Data kan läsas från ett blad i varje Excel-fil. När du har skapat en datauppsättning bör du använda get_profile för att lista identifierade kolumntyper och sammanfattningsstatistik för varje kolumn. Den returnerade datauppsättningen är inte registrerad på arbetsytan.

from_json_files

Skapa en oregistrerad minnesintern datauppsättning från JSON-filer.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder Dataset.Tabular.from_json_lines_files i stället för att läsa från JSON-radfilen. Mer information finns i https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametrar

path: DataReference eller str

Obligatorisk

Sökvägen till de filer eller mappar som du vill läsa in och parsa. Det kan antingen vara en lokal sökväg eller en Azure Blob-URL. Globbing stöds. Du kan till exempel använda sökvägen = "./data*" för att läsa alla filer med namn som börjar med "data".

encoding: FileEncoding

Obligatorisk

Kodningen av de filer som läss.

flatten_nested_arrays: bool

Obligatorisk

Egenskap som styr programmets hantering av kapslade matriser. Om du väljer att platta ut kapslade JSON-matriser kan det resultera i ett mycket större antal rader.

include_path: bool

Obligatorisk

Om du vill inkludera en kolumn som innehåller sökvägen som data lästes från. Detta är användbart när du läser flera filer och kanske vill veta vilken fil en viss post kommer från, eller för att behålla användbar information i filsökvägen.

partition_format: str

Obligatorisk

Ange partitionsformatet i sökvägen och skapa strängkolumner från formatet {x} och datetime-kolumnen från formatet {x:åååå/MM/dd/HH/mm/ss}, där 'åååå', 'MM', 'dd', 'HH', 'mm' och 'ss' används för extra år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med en filsökväg .. /Accounts/2019/01/01/data.json" och data partitioneras efter avdelningsnamn och tid. Vi kan definiera "/{Avdelning}/{PartitionDate:yyyy/MM/dd}/data.json" för att skapa kolumnerna "Avdelning" av strängtyp och "PartitionDate" av datetime-typ.

Returer

Det lokala datauppsättningsobjektet.

Returtyp

Dataset

from_pandas_dataframe

Skapa en oregistrerad minnesintern datauppsättning från en Pandas-dataram.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder Dataset.Tabular.register_pandas_dataframe i stället. Mer information finns i https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametrar

dataframe: DataFrame

Obligatorisk

The Pandas DataFrame.

path: Union[DataReference, str]

Obligatorisk

En datasökväg i registrerat datalager eller en lokal mappsökväg.

in_memory: bool

Obligatorisk

Om dataramen ska läsas från minnet i stället för att sparas på disken.

Returer

Ett datauppsättningsobjekt.

Returtyp

Dataset

Kommentarer

Använd den här metoden för att konvertera en Pandas-dataram till ett Dataset-objekt. Det går inte att registrera en datauppsättning som skapats med den här metoden eftersom data kommer från minnet.

Om in_memory är False konverteras Pandas DataFrame till en CSV-fil lokalt. Om pat är av typen DataReference laddas Pandas-ramen upp till datalagret och datauppsättningen baseras på DataReference. Om sökvägen är en lokal mapp skapas datauppsättningen från den lokala filen som inte kan tas bort.

Genererar ett undantag om den aktuella DataReference inte är en mappsökväg.

from_parquet_files

Skapa en oregistrerad minnesintern datauppsättning från parquet-filer.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder Dataset.Tabular.from_parquet_files i stället. Mer information finns i https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parametrar

path: DataReference eller str

Obligatorisk

En datasökväg i ett registrerat datalager eller en lokal sökväg.

include_path: bool

Obligatorisk

partition_format: str

Obligatorisk

Ange partitionsformatet i sökvägen och skapa strängkolumner från formatet {x} och datetime-kolumnen från formatet {x:åååå/MM/dd/HH/mm/ss}, där 'åååå', 'MM', 'dd', 'HH', 'mm' och 'ss' används för extra år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med en filsökväg .. /Accounts/2019/01/01/data.parquet" där data partitioneras efter avdelningsnamn och tid. Vi kan definiera "/{Avdelning}/{PartitionDate:yyyy/MM/dd}/data.parquet" för att skapa kolumnerna "Avdelning" av strängtyp och "PartitionDate" av datetime-typ.

Returer

Datauppsättningsobjekt.

Returtyp

Dataset

Kommentarer

Använd den här metoden för att läsa Parquet-filer.

När du har skapat en datauppsättning bör du använda get_profile för att lista identifierade kolumntyper och sammanfattningsstatistik för varje kolumn.

Den returnerade datauppsättningen är inte registrerad på arbetsytan.

from_sql_query

Skapa en oregistrerad minnesintern datauppsättning från en SQL-fråga.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Vi rekommenderar att du använder Dataset.Tabular.from_sql_query i stället. Mer information finns i https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parametrar

data_source: AzureSqlDatabaseDatastore

Obligatorisk

Information om Azure SQL datalager.

query: str

Obligatorisk

Frågan som ska köras för att läsa data.

Returer

Det lokala datauppsättningsobjektet.

Returtyp

Dataset

generate_profile

Generera en ny profil för datauppsättningen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametrar

compute_target: Union[ComputeTarget, str]

Obligatorisk

Ett valfritt beräkningsmål för att skapa ögonblicksbildsprofilen. Om det utelämnas används den lokala beräkningen.

workspace: Workspace

Obligatorisk

Arbetsyta som krävs för tillfälliga(oregistrerade) datauppsättningar.

arguments: dict[str, object]

Obligatorisk

Profilargument. Giltiga argument är:

"include_stype_counts" av typen bool. Kontrollera om värden ser ut som några välkända semantiska typer, till exempel e-postadress, IP-adress (V4/V6), amerikanskt telefonnummer, amerikanskt postnummer, Latitud/Longitud. Om du aktiverar detta påverkas prestanda.
"number_of_histogram_bins" av typen int. Representerar antalet histogram som ska användas för numeriska data. Standardvärdet är 10.

Returer

Körningsobjekt för datauppsättningsåtgärd.

Returtyp

DatasetActionRun

Kommentarer

Synkront anrop blockerar tills det har slutförts. Anropa get_result för att hämta resultatet av åtgärden.

get

Hämta en datauppsättning som redan finns på arbetsytan genom att ange antingen dess namn eller ID.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Rekommendera att använda get_by_name och get_by_id i stället. Mer information finns i https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parametrar

workspace: Workspace

Obligatorisk

Den befintliga AzureML-arbetsytan där datauppsättningen skapades.

name: str

Obligatorisk

Namnet på den datauppsättning som ska hämtas.

id: str

Obligatorisk

En unik identifierare för datauppsättningen på arbetsytan.

Returer

Datauppsättningen med det angivna namnet eller ID:t.

Returtyp

Dataset

Kommentarer

Du kan ange antingen name eller id. Ett undantag utlöses om:

både name och id anges men matchar inte.
Datauppsättningen med angiven name eller id kan inte hittas på arbetsytan.

get_all

Hämta alla registrerade datauppsättningar på arbetsytan.

get_all()

Parametrar

workspace: Workspace

Obligatorisk

Den befintliga AzureML-arbetsytan där datauppsättningarna registrerades.

Returer

En ordlista med TabularDataset- och FileDataset-objekt som är nyckelade efter deras registreringsnamn.

Returtyp

dict[str, Union[TabularDataset, FileDataset]]

get_all_snapshots

Hämta alla ögonblicksbilder av datauppsättningen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

get_all_snapshots()

Returer

Lista över ögonblicksbilder av datauppsättningar.

Returtyp

list[DatasetSnapshot]

get_by_id

Hämta en datauppsättning som sparas på arbetsytan.

get_by_id(id, **kwargs)

Parametrar

workspace: Workspace

Obligatorisk

Den befintliga AzureML-arbetsytan där datauppsättningen sparas.

id: str

Obligatorisk

ID:t för datauppsättningen.

Returer

Datamängdsobjektet. Om datauppsättningen registreras returneras även dess registreringsnamn och version.

Returtyp

Union[TabularDataset, FileDataset]

get_by_name

Hämta en registrerad datauppsättning från arbetsytan med dess registreringsnamn.

get_by_name(name, version='latest', **kwargs)

Parametrar

workspace: Workspace

Obligatorisk

Den befintliga AzureML-arbetsytan där datauppsättningen registrerades.

name: str

Obligatorisk

Registreringsnamnet.

version: int

Obligatorisk

Registreringsversionen. Standardvärdet är "senaste".

Returer

Det registrerade datauppsättningsobjektet.

Returtyp

Union[TabularDataset, FileDataset]

get_definition

Hämta en specifik definition av datauppsättningen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametrar

version_id: str

Obligatorisk

Versions-ID för datauppsättningsdefinitionen

Returer

Datauppsättningsdefinitionen.

Returtyp

DatasetDefinition

Kommentarer

Om version_id anges försöker Azure Machine Learning hämta definitionen som motsvarar den versionen. Om den versionen inte finns genereras ett undantag. Om version_id utelämnas hämtas den senaste versionen.

get_definitions

Hämta alla definitioner av datauppsättningen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

get_definitions()

Returer

En ordlista med datauppsättningsdefinitioner.

Returtyp

dict[str, DatasetDefinition]

Kommentarer

För oregistrerade datauppsättningar finns bara en definition.

get_profile

Hämta sammanfattningsstatistik för datauppsättningen som beräknades tidigare.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametrar

arguments: dict[str, object]

Obligatorisk

Profilargument.

generate_if_not_exist: bool

Obligatorisk

Anger om du vill generera en profil om den inte finns.

workspace: Workspace

Obligatorisk

Arbetsyta som krävs för tillfälliga(oregistrerade) datauppsättningar.

compute_target: Union[ComputeTarget, str]

Obligatorisk

Ett beräkningsmål för att köra profilåtgärden.

Returer

DataProfile för datauppsättningen.

Returtyp

<xref:azureml.dataprep.DataProfile>

Kommentarer

För en datauppsättning som registrerats med en Azure Machine Learning-arbetsyta hämtar den här metoden en befintlig profil som skapades tidigare genom att anropa get_profile om den fortfarande är giltig. Profiler ogiltigförklaras när ändrade data identifieras i datauppsättningen eller argumenten till get_profile skiljer sig från de som användes när profilen genererades. Om profilen inte finns eller är ogiltig generate_if_not_exist avgör om en ny profil genereras.

För en datauppsättning som inte är registrerad på en Azure Machine Learning-arbetsyta körs generate_profile den här metoden alltid och returnerar resultatet.

get_snapshot

Hämta en ögonblicksbild av datauppsättningen efter namn.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametrar

snapshot_name: str

Obligatorisk

Namnet på ögonblicksbilden.

Returer

Objekt för ögonblicksbild av datauppsättning.

Returtyp

DatasetSnapshot

head

Hämta det angivna antalet poster som angetts från den här datauppsättningen och returnera dem som en DataFrame.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

head(count)

Parametrar

count: int

Obligatorisk

Antalet poster som ska hämtas.

Returer

En Pandas DataFrame.

Returtyp

DataFrame

list

Visa en lista över alla datauppsättningar på arbetsytan, inklusive de med en egenskap som är lika med is_visible False.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Rekommendera att använda get_all i stället. Mer information finns i https://aka.ms/dataset-deprecation.

static list(workspace)

Parametrar

workspace: Workspace

Obligatorisk

Arbetsytan som du vill hämta listan över datauppsättningar för.

Returer

En lista över datauppsättningsobjekt.

Returtyp

list[Dataset]

reactivate

Återaktivera en arkiverad eller inaktuell datauppsättning.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

reactivate()

Returer

Inga.

Returtyp

None

register

Registrera datauppsättningen på arbetsytan, vilket gör den tillgänglig för andra användare av arbetsytan.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Rekommendera att använda register i stället. Mer information finns i https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametrar

workspace: Workspace

Obligatorisk

Den AzureML-arbetsyta där datauppsättningen ska registreras.

name: str

Obligatorisk

Namnet på datauppsättningen på arbetsytan.

description: str

Obligatorisk

En beskrivning av datauppsättningen.

tags: dict[str, str]

Obligatorisk

Taggar som ska associeras med datauppsättningen.

visible: bool

Obligatorisk

Anger om datauppsättningen visas i användargränssnittet. Om det är falskt döljs datauppsättningen i användargränssnittet och är tillgänglig via SDK.

exist_ok: bool

Obligatorisk

Om värdet är Sant returnerar metoden datauppsättningen om den redan finns på den angivna arbetsytan, annars fel.

update_if_exist: bool

Obligatorisk

Om exist_ok är True och update_if_exist är True uppdaterar den här metoden definitionen och returnerar den uppdaterade datauppsättningen.

Returer

Ett registrerat datauppsättningsobjekt på arbetsytan.

Returtyp

Dataset

sample

Generera ett nytt exempel från källdatauppsättningen med hjälp av den samplingsstrategi och de parametrar som tillhandahålls.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Skapa en TabularDataset genom att anropa de statiska metoderna i Dataset.Tabular och använda take_sample metoden där. Mer information finns i https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametrar

sample_strategy: str

Obligatorisk

Exempelstrategi som ska användas. Godkända värden är "top_n", "simple_random" eller "stratified".

arguments: dict[str, object]

Obligatorisk

En ordlista med nycklar från "Valfritt argument" i listan ovan och värden från kolumnen tye "Type". Endast argument från motsvarande samplingsmetod kan användas. För exempeltypen "simple_random" kan du till exempel bara ange en ordlista med nycklarna "probability" och "seed".

Returer

Datauppsättningsobjekt som ett exempel på den ursprungliga datauppsättningen.

Returtyp

Dataset

Kommentarer

Exempel genereras genom att transformeringspipelinen som definieras av den här datauppsättningen körs och sedan tillämpas samplingsstrategin och parametrarna på utdata. Varje samplingsmetod stöder följande valfria argument:

top_n
- Valfria argument
  - n, skriv heltal. Välj de översta N raderna som exempel.
simple_random
- Valfria argument
  - sannolikhet, typ float. Enkel slumpmässig sampling där varje rad har samma sannolikhet att väljas. Sannolikheten ska vara ett tal mellan 0 och 1.
  - seed, type float. Används av slumptalsgeneratorn. Används för repeterbarhet.
Skiktat
- Valfria argument
  - kolumner, skriv list[str]. Lista över strata-kolumner i data.
  - seed, type float. Används av slumptalsgeneratorn. Används för repeterbarhet.
  - fractions, type dict[tuple, float]. Tuppel: kolumnvärden som definierar ett stratum måste vara i samma ordning som kolumnnamn. Float: vikt fäst vid ett stratum under sampling.

Följande kodfragment är exempel på designmönster för olika exempelmetoder.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Skapa en TabularDataset genom att anropa de statiska metoderna i Dataset.Tabular och använda to_pandas_dataframe metoden där. Mer information finns i https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Returer

En Pandas DataFrame.

Returtyp

DataFrame

Kommentarer

Returnera en Pandas DataFrame som är helt materialiserad i minnet.

to_spark_dataframe

Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av den här datauppsättningsdefinitionen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Skapa en TabularDataset genom att anropa de statiska metoderna i Dataset.Tabular och använda to_spark_dataframe metoden där. Mer information finns i https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Returer

En Spark-dataram.

Returtyp

DataFrame

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller inga data, eftersom Spark-dataramar utvärderas lazily.

update

Uppdatera de föränderliga attributen för datauppsättningar på arbetsytan och returnera den uppdaterade datauppsättningen från arbetsytan.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametrar

name: str

Obligatorisk

Namnet på datauppsättningen på arbetsytan.

description: str

Obligatorisk

En beskrivning av data.

tags: dict[str, str]

Obligatorisk

Taggar som datauppsättningen ska associeras med.

visible: bool

Obligatorisk

Anger om datauppsättningen visas i användargränssnittet.

Returer

Ett uppdaterat datauppsättningsobjekt från arbetsytan.

Returtyp

Dataset

update_definition

Uppdatera datauppsättningsdefinitionen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametrar

definition: DatasetDefinition

Obligatorisk

Den nya definitionen av den här datauppsättningen.

definition_update_message: str

Obligatorisk

Meddelandet om definitionsuppdatering.

Returer

Ett uppdaterat datauppsättningsobjekt från arbetsytan.

Returtyp

Dataset

Kommentarer

Om du vill använda den uppdaterade datauppsättningen använder du objektet som returneras av den här metoden.

Attribut

definition

Returnera den aktuella datauppsättningsdefinitionen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

Returer

Datauppsättningsdefinitionen.

Returtyp

DatasetDefinition

Kommentarer

En datauppsättningsdefinition är en serie steg som anger hur data ska läsas och transformeras.

En datauppsättning som är registrerad på en AzureML-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Med flera definitioner kan du göra ändringar i befintliga datauppsättningar utan att bryta modeller och pipelines som är beroende av den äldre definitionen.

För oregistrerade datauppsättningar finns bara en definition.

definition_version

Returnera versionen av den aktuella definitionen av datauppsättningen.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

Returer

Datamängdens definitionsversion.

Returtyp

str

Kommentarer

En datauppsättningsdefinition är en serie steg som anger hur data ska läsas och transformeras.

En datauppsättning som är registrerad på en AzureML-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats, vars ID returneras av detta.

För oregistrerade datauppsättningar finns bara en definition.

description

Returnera beskrivningen av datauppsättningen.

Returer

Beskrivningen av datauppsättningen.

Returtyp

str

Kommentarer

Genom att ange en beskrivning av data i datauppsättningen kan användare av arbetsytan förstå vad data representerar och hur de kan använda dem.

id

Om datauppsättningen har registrerats på en arbetsyta returnerar du ID:t för datauppsättningen. Annars returnerar du Ingen.

Returer

Datamängdens ID.

Returtyp

str

is_visible

Kontrollera synligheten för en registrerad datauppsättning i användargränssnittet för Azure ML-arbetsytan.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

Returer

Datamängdens synlighet.

Returtyp

bool

Kommentarer

Returnerade värden:

Sant: Datauppsättningen visas i arbetsytans användargränssnitt. Standard.
Falskt: Datauppsättningen är dold i arbetsytans användargränssnitt.

Har ingen effekt på oregistrerade datauppsättningar.

name

Returnera datauppsättningens namn.

Returer

Namnet på datauppsättningen.

Returtyp

str

state

Returnera datauppsättningens tillstånd.

Anteckning

Den här metoden är inaktuell och stöds inte längre.

Mer information finns i https://aka.ms/dataset-deprecation.

Returer

Datamängdens tillstånd.

Returtyp

str

Kommentarer

Tillståndens betydelse och effekt är följande:

Aktiva. Aktiva definitioner är precis som de låter, alla åtgärder kan utföras på aktiva definitioner.
Inaktuellt. inaktuell definition kan användas, men resulterar i att en varning loggas i loggarna varje gång underliggande data används.
Arkiverade. En arkiverad definition kan inte användas för att utföra någon åtgärd. Om du vill utföra åtgärder på en arkiverad definition måste den återaktiveras.

workspace

Om datauppsättningen har registrerats på en arbetsyta returnerar du den. Annars returnerar du Ingen.

Returer

Arbetsytan.

Returtyp

Workspace