Dataset Klasa

Reprezentuje zasób do eksplorowania, przekształcania i zarządzania danymi w usłudze Azure Machine Learning.

Zestaw danych to odwołanie do danych w Datastore publicznych adresach URL sieci Web lub za nim.

W przypadku metod przestarzałych w tej klasie sprawdź AbstractDataset klasę ulepszonych interfejsów API.

Obsługiwane są następujące typy zestawów danych:

  • Element TabularDataset reprezentuje dane w formacie tabelarycznym utworzonym przez analizowanie podanego pliku lub listy plików.

  • Element FileDataset odwołuje się do jednego lub wielu plików w magazynach danych lub z publicznych adresów URL.

Aby rozpocząć pracę z zestawami danych, zobacz artykuł Dodawanie & zarejestrowanych zestawów danych lub zobacz notesy https://aka.ms/tabulardataset-samplenotebook i https://aka.ms/filedataset-samplenotebook.

Dziedziczenie
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Uwagi

Klasa Dataset uwidacznia dwa atrybuty klasy wygody (File i Tabular) do tworzenia zestawu danych bez pracy z odpowiednimi metodami fabryki. Aby na przykład utworzyć zestaw danych przy użyciu następujących atrybutów:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Możesz również utworzyć nowy element TabularDataset lub FileDataset, wywołując bezpośrednio odpowiednie metody fabryczne klasy zdefiniowanej w TabularDatasetFactory klasie i FileDatasetFactory.

Poniższy przykład pokazuje, jak utworzyć element TabularDataset wskazujący pojedynczą ścieżkę w magazynie danych.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Pełna próbka jest dostępna w witrynie https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Zmienne

azureml.core.Dataset.File

Atrybut klasy, który zapewnia dostęp do metod FileDatasetFactory do tworzenia nowych obiektów FileDataset. Użycie: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Atrybut klasy, który zapewnia dostęp do metod TabularDatasetFactory do tworzenia nowych obiektów TabularDataset. Użycie: Dataset.Tabular.from_delimited_files().

Metody

archive

Archiwizowanie aktywnego lub przestarzałego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

auto_read_files

Analizuje pliki w określonej ścieżce i zwraca nowy zestaw danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się używanie metod Dataset.Tabular.from_* do odczytywania plików. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

compare_profiles

Porównaj profil bieżącego zestawu danych z innym profilem zestawu danych.

Pokazuje to różnice w podsumowaniach statystyk między dwoma zestawami danych. Parametr "rhs_dataset" oznacza "po prawej stronie" i jest po prostu drugim zestawem danych. Pierwszy zestaw danych (bieżący obiekt zestawu danych) jest uznawany za "lewą stronę".

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

delete_snapshot

Usuń migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

deprecate

Przestarzałe aktywne zestawy danych w obszarze roboczym według innego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

diff

Różnice bieżącego zestawu danych za pomocą rhs_dataset.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_binary_files

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie plików binarnych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.File.from_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_delimited_files

Utwórz niezarejestrowany zestaw danych w pamięci na podstawie plików rozdzielanych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.from_delimited_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Utwórz wyrejestrowany zestaw danych w pamięci z plików programu Excel.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_json_files

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie plików JSON.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się używanie Dataset.Tabular.from_json_lines_files zamiast odczytywania z pliku wierszy JSON. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie ramki danych biblioteki pandas.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.register_pandas_dataframe. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_parquet_files

Utwórz wyrejestrowany zestaw danych w pamięci z plików parquet.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.from_parquet_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

from_sql_query

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie zapytania SQL.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.from_sql_query. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

generate_profile

Wygeneruj nowy profil dla zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get

Pobierz zestaw danych, który już istnieje w obszarze roboczym, określając jego nazwę lub identyfikator.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się używanie get_by_name i get_by_id zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_all

Pobierz wszystkie zarejestrowane zestawy danych w obszarze roboczym.

get_all_snapshots

Pobierz wszystkie migawki zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_by_id

Pobierz zestaw danych zapisany w obszarze roboczym.

get_by_name

Pobierz zarejestrowany zestaw danych z obszaru roboczego według jego nazwy rejestracji.

get_definition

Pobierz konkretną definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_definitions

Pobierz wszystkie definicje zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_profile

Pobierz statystyki podsumowania dla obliczonego wcześniej zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_snapshot

Pobierz migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

head

Ściąganie określonej liczby rekordów określonych z tego zestawu danych i zwraca je jako ramkę danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

list

Wyświetl listę wszystkich zestawów danych w obszarze roboczym, w tym tych z właściwością równą is_visible False.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się użycie get_all zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

reactivate

Ponowne aktywowanie zarchiwizowanego lub przestarzałego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

register

Zarejestruj zestaw danych w obszarze roboczym, udostępniając go innym użytkownikom obszaru roboczego.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się użycie register zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

sample

Wygeneruj nowy przykład na podstawie źródłowego zestawu danych przy użyciu podanej strategii próbkowania i parametrów.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając take_sample metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Utwórz ramkę danych biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_pandas_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez tę definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_spark_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update

Zaktualizuj atrybuty modyfikowalne zestawu danych w obszarze roboczym i zwróć zaktualizowany zestaw danych z obszaru roboczego.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update_definition

Zaktualizuj definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

archive

Archiwizowanie aktywnego lub przestarzałego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

archive()

Zwraca

Brak.

Typ zwracany

Uwagi

Po archiwizacji każda próba użycia zestawu danych spowoduje wystąpienie błędu. Jeśli zarchiwizowane przez przypadek, ponowne aktywowanie zostanie aktywowane.

auto_read_files

Analizuje pliki w określonej ścieżce i zwraca nowy zestaw danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się używanie metod Dataset.Tabular.from_* do odczytywania plików. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parametry

path
DataReference lub str
Wymagane

Ścieżka danych w zarejestrowanym magazynie danych, ścieżce lokalnej lub adresie URL HTTP (CSV/TSV).

include_path
bool
Wymagane

Czy dołączyć kolumnę zawierającą ścieżkę pliku, z którego dane zostały odczytane. Przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord. Przydatne również, jeśli w ścieżce lub nazwie pliku znajdują się informacje, które mają być w kolumnie.

partition_format
str
Wymagane

Określ format partycji w ścieżce i utwórz kolumny ciągów w formacie {x} i kolumnie datetime z formatu {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstrat roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka pliku '.. /Accounts/2019/01/01/data.csv" gdzie dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv", aby utworzyć kolumny "Dział" typu ciągu i "PartitionDate" typu daty/godziny.

Zwraca

Obiekt zestawu danych.

Typ zwracany

Uwagi

Ta metoda służy do automatycznego wykrywania formatów plików i ograniczników.

Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

compare_profiles

Porównaj profil bieżącego zestawu danych z innym profilem zestawu danych.

Pokazuje to różnice w podsumowaniach statystyk między dwoma zestawami danych. Parametr "rhs_dataset" oznacza "po prawej stronie" i jest po prostu drugim zestawem danych. Pierwszy zestaw danych (bieżący obiekt zestawu danych) jest uznawany za "lewą stronę".

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

Parametry

rhs_dataset
Dataset
Wymagane

Drugi zestaw danych, nazywany również "prawą stroną" Zestaw danych do współkomparizji.

profile_arguments
dict
Wymagane

Argumenty do ponownego ściągniania określonego profilu.

include_columns
list[str]
Wymagane

Lista nazw kolumn, które mają być uwzględnione w porównaniu.

exclude_columns
list[str]
Wymagane

Lista nazw kolumn, które mają być wykluczone w porównaniu.

histogram_compare_method
HistogramCompareMethod
Wymagane

Wyliczenie opisujące metodę porównania, np. Wasserstein lub Energy

Zwraca

Różnica między dwoma profilami zestawu danych.

Typ zwracany

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Uwagi

Dotyczy to tylko zarejestrowanych zestawów danych. Zgłasza wyjątek, jeśli profil bieżącego zestawu danych nie istnieje. W przypadku niezarejestrowanych zestawów danych użyj metody profile.compare.

create_snapshot

Utwórz migawkę zarejestrowanego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name
str
Wymagane

Nazwa migawki. Nazwy migawek powinny być unikatowe w zestawie danych.

compute_target
Union[ComputeTarget, str]
Wymagane

Opcjonalny obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. W przypadku pominięcia zostanie użyte lokalne środowisko obliczeniowe.

create_data_snapshot
bool
Wymagane

W przypadku wartości True zostanie utworzona zmaterializowana kopia danych.

target_datastore
Union[AbstractAzureStorageDatastore, str]
Wymagane

Docelowy magazyn danych w celu zapisania migawki. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego.

Zwraca

Obiekt migawki zestawu danych.

Typ zwracany

Uwagi

Migawki przechwytują statystyki podsumowania punktów w czasie danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Usuń migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametry

snapshot_name
str
Wymagane

Nazwa migawki.

Zwraca

Brak.

Typ zwracany

Uwagi

Użyj tej funkcji, aby zwolnić magazyn używany przez dane zapisane w migawkach, których już nie potrzebujesz.

deprecate

Przestarzałe aktywne zestawy danych w obszarze roboczym według innego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametry

deprecate_by_dataset_id
str
Wymagane

Identyfikator zestawu danych, który jest przeznaczony do zastąpienia tego zestawu danych.

Zwraca

Brak.

Typ zwracany

Uwagi

Przestarzałe zestawy danych będą rejestrować ostrzeżenia, gdy są używane. Oznacza to, że zestaw danych jest przestarzały, wszystkie jego definicje.

Przestarzałe zestawy danych nadal mogą być używane. Aby całkowicie zablokować korzystanie z zestawu danych, zarchiwizuj go.

Jeśli zostanie ona uznana za przestarzałą przez przypadek, aktywuje ją ponownie.

diff

Różnice bieżącego zestawu danych za pomocą rhs_dataset.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametry

rhs_dataset
Dataset
Wymagane

Inny zestaw danych nazywany również zestawem danych po prawej stronie do porównania

compute_target
Union[ComputeTarget, str]
Wymagane

docelowy obiekt obliczeniowy do wykonania różnic. W przypadku pominięcia zostanie użyte lokalne środowisko obliczeniowe.

columns
list[str]
Wymagane

Lista nazw kolumn do ujęć w różnice.

Zwraca

Uruchom obiekt akcji zestawu danych.

Typ zwracany

from_binary_files

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie plików binarnych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.File.from_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parametry

path
DataReference lub str
Wymagane

Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce lokalnej.

Zwraca

Obiekt Dataset.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania plików jako strumieni danych binarnych. Zwraca jeden obiekt strumienia plików na odczyt pliku. Użyj tej metody podczas odczytywania obrazów, wideo, audio lub innych danych binarnych.

get_profile i create_snapshot nie będzie działać zgodnie z oczekiwaniami dla zestawu danych utworzonego przez tę metodę.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_delimited_files

Utwórz niezarejestrowany zestaw danych w pamięci na podstawie plików rozdzielanych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.from_delimited_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametry

path
DataReference lub str
Wymagane

Ścieżka danych w zarejestrowanym magazynie danych, ścieżka lokalna lub adres URL HTTP.

separator
str
Wymagane

Separator używany do dzielenia kolumn.

header
PromoteHeadersBehavior
Wymagane

Określa sposób podproszeń nagłówków kolumn podczas odczytywania z plików.

encoding
FileEncoding
Wymagane

Kodowanie odczytywanych plików.

quoting
bool
Wymagane

Określ sposób obsługi nowych znaków wiersza w cudzysłowie. Wartość domyślna (Fałsz) to interpretowanie nowych znaków wiersza jako początkowych nowych wierszy, niezależnie od tego, czy nowe znaki wiersza znajdują się w cudzysłowie, czy nie. Jeśli zostanie ustawiona wartość True, nowe znaki wiersza wewnątrz cudzysłowów nie spowodują nowych wierszy, a szybkość odczytu pliku spowolni.

infer_column_types
bool
Wymagane

Wskazuje, czy typy danych kolumn są wnioskowane.

skip_rows
int
Wymagane

Ile wierszy do pominięcia w odczytywanych plikach.

skip_mode
SkipLinesBehavior
Wymagane

Określa sposób pomijania wierszy podczas odczytywania z plików.

comment
str
Wymagane

Znak używany do wskazywania wierszy komentarzy w odczytywanych plikach. Wiersze rozpoczynające się od tego ciągu zostaną pominięte.

include_path
bool
Wymagane

Określa, czy należy dołączyć kolumnę zawierającą ścieżkę pliku, z którego odczytano dane. Jest to przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
Wymagane

Opcje dla pliku archiwum, w tym typ archiwum i wzorzec globu wpisu. Obecnie obsługujemy tylko plik ZIP jako typ archiwum. Na przykład określanie


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

odczytuje wszystkie pliki o nazwie kończącej się ciągiem "10-20.csv" w pliku ZIP.

partition_format
str
Wymagane

Określ format partycji w ścieżce i utwórz kolumny ciągów z formatu {x} i kolumny datetime w formacie {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstratowania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład przy użyciu ścieżki pliku '.. /Accounts/2019/01/01/data.csv", w którym dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Dział}/{PartitionDate:rrrr/MM/dd}/data.csv", aby utworzyć kolumny typu ciągu "Dział" i "PartitionDate" typu daty/godziny.

Zwraca

Obiekt zestawu danych.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania rozdzielonych plików tekstowych, gdy chcesz kontrolować używane opcje.

Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_excel_files

Utwórz wyrejestrowany zestaw danych w pamięci z plików programu Excel.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametry

path
DataReference lub str
Wymagane

Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce lokalnej.

sheet_name
str
Wymagane

Nazwa arkusza programu Excel do załadowania. Domyślnie odczytujemy pierwszy arkusz z każdego pliku programu Excel.

use_column_headers
bool
Wymagane

Określa, czy używać pierwszego wiersza jako nagłówków kolumn.

skip_rows
int
Wymagane

Ile wierszy do pominięcia w odczytywanych plikach.

include_path
bool
Wymagane

Określa, czy należy dołączyć kolumnę zawierającą ścieżkę pliku, z którego odczytano dane. Jest to przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

infer_column_types
bool
Wymagane

W przypadku wartości true typy danych kolumn zostaną wywnioskowane.

partition_format
str
Wymagane

Określ format partycji w ścieżce i utwórz kolumny ciągów z formatu {x} i kolumny datetime w formacie {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstratowania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład przy użyciu ścieżki pliku '.. /Accounts/2019/01/01/data.xlsx", w którym dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Dział}/{PartitionDate:rrrr/MM/dd}/data.xlsx", aby utworzyć kolumny typu ciągu "Dział" i "PartitionDate" typu daty/godziny.

Zwraca

Obiekt zestawu danych.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania plików programu Excel w formacie .xlsx. Dane można odczytywać z jednego arkusza w każdym pliku programu Excel. Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny. Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_json_files

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie plików JSON.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się używanie Dataset.Tabular.from_json_lines_files zamiast odczytywania z pliku wierszy JSON. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametry

path
DataReference lub str
Wymagane

Ścieżka do plików lub folderów, które chcesz załadować i przeanalizować. Może to być ścieżka lokalna lub adres URL obiektu blob platformy Azure. Obsługa globbingu. Na przykład można użyć ścieżki = "./data*", aby odczytać wszystkie pliki o nazwie rozpoczynającej się od "data".

encoding
FileEncoding
Wymagane

Kodowanie odczytywanych plików.

flatten_nested_arrays
bool
Wymagane

Obsługa zagnieżdżonych tablic przez program kontroli właściwości. Jeśli zdecydujesz się spłaścić zagnieżdżone tablice JSON, może to spowodować znacznie większą liczbę wierszy.

include_path
bool
Wymagane

Określa, czy należy uwzględnić kolumnę zawierającą ścieżkę, z której odczytano dane. Jest to przydatne podczas odczytywania wielu plików i może chcieć wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

partition_format
str
Wymagane

Określ format partycji w ścieżce i utwórz kolumny ciągów z formatu {x} i kolumny datetime w formacie {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstratowania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład przy użyciu ścieżki pliku '.. /Accounts/2019/01/01/data.json" i dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Dział}/{PartitionDate:rrrr/MM/dd}/data.json", aby utworzyć kolumny typu ciągu "Dział" i "PartitionDate" typu data/godzina.

Zwraca

Lokalny obiekt Zestawu danych.

Typ zwracany

from_pandas_dataframe

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie ramki danych biblioteki pandas.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.register_pandas_dataframe. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametry

dataframe
DataFrame
Wymagane

Ramka danych Biblioteki Pandas.

path
Union[DataReference, str]
Wymagane

Ścieżka danych w zarejestrowanym magazynie danych lub lokalnej ścieżce folderu.

in_memory
bool
Wymagane

Czy odczytywać ramkę danych z pamięci, a nie utrwalać na dysku.

Zwraca

Obiekt Dataset.

Typ zwracany

Uwagi

Użyj tej metody, aby przekonwertować ramkę danych biblioteki Pandas na obiekt Dataset. Nie można zarejestrować zestawu danych utworzonego przez tę metodę, ponieważ dane pochodzą z pamięci.

Jeśli in_memory ma wartość False, ramka danych biblioteki Pandas jest konwertowana lokalnie na plik CSV. Jeśli pat jest typu DataReference, ramka Pandas zostanie przekazana do magazynu danych, a zestaw danych będzie oparty na funkcji DataReference. Jeśli "ścieżka" jest folderem lokalnym, zestaw danych zostanie utworzony poza plikiem lokalnym, którego nie można usunąć.

Zgłasza wyjątek, jeśli bieżąca wartość DataReference nie jest ścieżką folderu.

from_parquet_files

Utwórz wyrejestrowany zestaw danych w pamięci z plików parquet.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.from_parquet_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parametry

path
DataReference lub str
Wymagane

Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce lokalnej.

include_path
bool
Wymagane

Określa, czy należy dołączyć kolumnę zawierającą ścieżkę pliku, z którego odczytano dane. Jest to przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku.

partition_format
str
Wymagane

Określ format partycji w ścieżce i utwórz kolumny ciągów z formatu {x} i kolumny datetime w formacie {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstratowania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład przy użyciu ścieżki pliku '.. /Accounts/2019/01/01/data.parquet" gdzie dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Dział}/{PartitionDate:rrrr/MM/dd}/data.parquet", aby utworzyć kolumny typu ciągu "Dział" i "PartitionDate" typu data/godzina.

Zwraca

Obiekt zestawu danych.

Typ zwracany

Uwagi

Ta metoda służy do odczytywania plików Parquet.

Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny.

Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.

from_sql_query

Utwórz wyrejestrowany zestaw danych w pamięci na podstawie zapytania SQL.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zamiast tego zaleca się używanie Dataset.Tabular.from_sql_query. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parametry

data_source
AzureSqlDatabaseDatastore
Wymagane

Szczegóły magazynu danych SQL do Azure.

query
str
Wymagane

Zapytanie do wykonania w celu odczytu danych.

Zwraca

Lokalny obiekt Zestawu danych.

Typ zwracany

generate_profile

Wygeneruj nowy profil dla zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametry

compute_target
Union[ComputeTarget, str]
Wymagane

Opcjonalny docelowy obiekt obliczeniowy umożliwiający utworzenie profilu migawki. W przypadku pominięcia zostanie użyte lokalne środowisko obliczeniowe.

workspace
Workspace
Wymagane

Obszar roboczy, wymagany dla zestawów danych przejściowych (niezarejestrowanych).

arguments
dict[str, object]
Wymagane

Argumenty profilu. Prawidłowe argumenty to:

  • "include_stype_counts" typu bool. Sprawdź, czy wartości wyglądają jak niektóre dobrze znane typy semantyczne, takie jak adres e-mail, adres IP (V4/V6), numer telefonu USA, kod pocztowy USA, szerokość/długość geograficzna. Włączenie tego wpływu na wydajność.

  • "number_of_histogram_bins" typu int. Reprezentuje liczbę pojemników histogramu do użycia dla danych liczbowych. Wartość domyślna to 10.

Zwraca

Uruchom obiekt akcji zestawu danych.

Typ zwracany

Uwagi

Wywołanie synchroniczne będzie blokowane do momentu jego zakończenia. Wywołaj metodę get_result , aby uzyskać wynik akcji.

get

Pobierz zestaw danych, który już istnieje w obszarze roboczym, określając jego nazwę lub identyfikator.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się używanie get_by_name i get_by_id zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parametry

workspace
Workspace
Wymagane

Istniejący obszar roboczy usługi AzureML, w którym utworzono zestaw danych.

name
str
Wymagane

Nazwa zestawu danych do pobrania.

id
str
Wymagane

Unikatowy identyfikator zestawu danych w obszarze roboczym.

Zwraca

Zestaw danych o określonej nazwie lub identyfikatorze.

Typ zwracany

Uwagi

Możesz podać wartość name lub id. Wyjątek jest zgłaszany w następujących przypadkach:

  • zarówno name , jak i id są określone, ale nie są zgodne.

  • Zestaw danych z określonym name elementem lub id nie można go znaleźć w obszarze roboczym.

get_all

Pobierz wszystkie zarejestrowane zestawy danych w obszarze roboczym.

get_all()

Parametry

workspace
Workspace
Wymagane

Istniejący obszar roboczy usługi AzureML, w którym zarejestrowano zestawy danych.

Zwraca

Słownik obiektów TabularDataset i FileDataset kluczy według ich nazwy rejestracji.

Typ zwracany

get_all_snapshots

Pobierz wszystkie migawki zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_all_snapshots()

Zwraca

Lista migawek zestawu danych.

Typ zwracany

get_by_id

Pobierz zestaw danych zapisany w obszarze roboczym.

get_by_id(id)

Parametry

workspace
Workspace
Wymagane

Istniejący obszar roboczy usługi AzureML, w którym jest zapisywany zestaw danych.

id
str
Wymagane

Identyfikator zestawu danych.

Zwraca

Obiekt zestawu danych. Jeśli zestaw danych jest zarejestrowany, zostanie również zwrócona jego nazwa rejestracji i wersja.

Typ zwracany

get_by_name

Pobierz zarejestrowany zestaw danych z obszaru roboczego według jego nazwy rejestracji.

get_by_name(name, version='latest')

Parametry

workspace
Workspace
Wymagane

Istniejący obszar roboczy usługi AzureML, w którym zarejestrowano zestaw danych.

name
str
Wymagane

Nazwa rejestracji.

version
int
Wymagane

Wersja rejestracji. Wartość domyślna to "latest".

Zwraca

Zarejestrowany obiekt zestawu danych.

Typ zwracany

get_definition

Pobierz konkretną definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametry

version_id
str
Wymagane

Identyfikator wersji definicji zestawu danych

Zwraca

Definicja zestawu danych.

Typ zwracany

Uwagi

Jeśli version_id zostanie podana, usługa Azure Machine Learning próbuje uzyskać definicję odpowiadającą tej wersji. Jeśli ta wersja nie istnieje, zostanie zgłoszony wyjątek. Jeśli version_id zostanie pominięta, zostanie pobrana najnowsza wersja.

get_definitions

Pobierz wszystkie definicje zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_definitions()

Zwraca

Słownik definicji zestawu danych.

Typ zwracany

Uwagi

Zestaw danych zarejestrowany w obszarze roboczym usługi AzureML może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.

W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.

get_profile

Pobierz statystyki podsumowania dla obliczonego wcześniej zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametry

arguments
dict[str, object]
Wymagane

Argumenty profilu.

generate_if_not_exist
bool
Wymagane

Wskazuje, czy należy wygenerować profil, jeśli nie istnieje.

workspace
Workspace
Wymagane

Obszar roboczy wymagany dla zestawów danych przejściowych (niezarejestrowanych).

compute_target
Union[ComputeTarget, str]
Wymagane

Obiekt docelowy obliczeniowy do wykonania akcji profilu.

Zwraca

DataProfile zestawu danych.

Typ zwracany

<xref:azureml.dataprep.DataProfile>

Uwagi

W przypadku zestawu danych zarejestrowanego w obszarze roboczym usługi Azure Machine Learning ta metoda pobiera istniejący profil, który został utworzony wcześniej, wywołując, get_profile jeśli jest on nadal prawidłowy. Profile są unieważniane po wykryciu zmienionych danych w zestawie danych lub argumentach, które get_profile mają być inne niż te używane podczas generowania profilu. Jeśli profil nie jest obecny lub unieważniony, określi, generate_if_not_exist czy zostanie wygenerowany nowy profil.

W przypadku zestawu danych, który nie jest zarejestrowany w obszarze roboczym usługi Azure Machine Learning, ta metoda zawsze jest uruchamiana generate_profile i zwraca wynik.

get_snapshot

Pobierz migawkę zestawu danych według nazwy.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametry

snapshot_name
str
Wymagane

Nazwa migawki.

Zwraca

Obiekt migawki zestawu danych.

Typ zwracany

head

Ściąganie określonej liczby rekordów określonych z tego zestawu danych i zwraca je jako ramkę danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

head(count)

Parametry

count
int
Wymagane

Liczba rekordów do ściągnięcia.

Zwraca

Ramka danych Biblioteki Pandas.

Typ zwracany

list

Wyświetl listę wszystkich zestawów danych w obszarze roboczym, w tym tych z właściwością równą is_visible False.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się użycie get_all zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

static list(workspace)

Parametry

workspace
Workspace
Wymagane

Obszar roboczy, dla którego chcesz pobrać listę zestawów danych.

Zwraca

Lista obiektów zestawu danych.

Typ zwracany

reactivate

Ponowne aktywowanie zarchiwizowanego lub przestarzałego zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

reactivate()

Zwraca

Brak.

Typ zwracany

register

Zarejestruj zestaw danych w obszarze roboczym, udostępniając go innym użytkownikom obszaru roboczego.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Zaleca się użycie register zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametry

workspace
Workspace
Wymagane

Obszar roboczy usługi AzureML, w którym ma zostać zarejestrowany zestaw danych.

name
str
Wymagane

Nazwa zestawu danych w obszarze roboczym.

description
str
Wymagane

Opis zestawu danych.

tags
dict[str, str]
Wymagane

Tagi do skojarzenia z zestawem danych.

visible
bool
Wymagane

Wskazuje, czy zestaw danych jest widoczny w interfejsie użytkownika. Jeśli wartość False, zestaw danych jest ukryty w interfejsie użytkownika i dostępny za pośrednictwem zestawu SDK.

exist_ok
bool
Wymagane

Jeśli wartość True, metoda zwraca zestaw danych, jeśli już istnieje w danym obszarze roboczym, inny błąd.

update_if_exist
bool
Wymagane

Jeśli exist_ok ma wartość True i update_if_exist ma wartość True, ta metoda zaktualizuje definicję i zwróci zaktualizowany zestaw danych.

Zwraca

Zarejestrowany obiekt zestawu danych w obszarze roboczym.

Typ zwracany

sample

Wygeneruj nowy przykład na podstawie źródłowego zestawu danych przy użyciu podanej strategii próbkowania i parametrów.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając take_sample metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametry

sample_strategy
str
Wymagane

Przykładowa strategia do użycia. Akceptowane wartości to "top_n", "simple_random" lub "stratified".

arguments
dict[str, object]
Wymagane

Słownik z kluczami z "Argument opcjonalny" na liście pokazanej powyżej i wartości z kolumny tye "Type". Można użyć tylko argumentów z odpowiedniej metody próbkowania. Na przykład w przypadku przykładowego typu "simple_random" można określić tylko słownik z kluczami "prawdopodobieństwo" i "nasion".

Zwraca

Obiekt zestawu danych jako próbka oryginalnego zestawu danych.

Typ zwracany

Uwagi

Przykłady są generowane przez wykonanie potoku przekształcania zdefiniowanego przez ten zestaw danych, a następnie zastosowanie strategii próbkowania i parametrów do danych wyjściowych. Każda metoda próbkowania obsługuje następujące argumenty opcjonalne:

  • top_n

    • Argumenty opcjonalne

      • n, wpisz liczbę całkowitą. Wybierz pierwsze N wierszy jako przykład.
  • simple_random

    • Argumenty opcjonalne

      • prawdopodobieństwo, typ zmiennoprzecinkowy. Proste losowe próbkowanie, w którym każdy wiersz ma równe prawdopodobieństwo wybrania. Prawdopodobieństwo powinno być liczbą z zakresu od 0 do 1.

      • nasion, wpisz float. Używany przez generator liczb losowych. Służy do powtarzalności.

  • stratyfikowane

    • Argumenty opcjonalne

      • columns, type list[str]. Lista kolumn warstw w danych.

      • nasion, wpisz float. Używany przez generator liczb losowych. Służy do powtarzalności.

      • ułamki, typ dykt[krotka, liczba zmiennoprzecinkowa]. Krotka: wartości kolumn definiujące warstwę muszą być w tej samej kolejności co nazwy kolumn. Zmiennoprzecinkowy: waga dołączona do warstwy podczas próbkowania.

Poniższe fragmenty kodu to przykładowe wzorce projektowe dla różnych przykładowych metod.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Utwórz ramkę danych biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_pandas_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Zwraca

Ramka danych biblioteki Pandas.

Typ zwracany

Uwagi

Zwróć w pełni zmaterializowaną ramkę danych Biblioteki Pandas w pamięci.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez tę definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_spark_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Zwraca

Ramka danych platformy Spark.

Typ zwracany

Uwagi

Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są obliczane z opóźnieniem.

update

Zaktualizuj atrybuty modyfikowalne zestawu danych w obszarze roboczym i zwróć zaktualizowany zestaw danych z obszaru roboczego.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametry

name
str
Wymagane

Nazwa zestawu danych w obszarze roboczym.

description
str
Wymagane

Opis danych.

tags
dict[str, str]
Wymagane

Tagi do skojarzenia zestawu danych z.

visible
bool
Wymagane

Wskazuje, czy zestaw danych jest widoczny w interfejsie użytkownika.

Zwraca

Zaktualizowany obiekt Zestawu danych z obszaru roboczego.

Typ zwracany

update_definition

Zaktualizuj definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametry

definition
DatasetDefinition
Wymagane

Nowa definicja tego zestawu danych.

definition_update_message
str
Wymagane

Komunikat o aktualizacji definicji.

Zwraca

Zaktualizowany obiekt Zestawu danych z obszaru roboczego.

Typ zwracany

Uwagi

Aby korzystać ze zaktualizowanego zestawu danych, użyj obiektu zwróconego przez tę metodę.

Atrybuty

definition

Zwróć bieżącą definicję zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Definicja zestawu danych.

Typ zwracany

Uwagi

Definicja zestawu danych to seria kroków określających sposób odczytywania i przekształcania danych.

Zestaw danych zarejestrowany w obszarze roboczym usługi AzureML może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Posiadanie wielu definicji umożliwia wprowadzanie zmian w istniejących zestawach danych bez przerywania modeli i potoków, które zależą od starszej definicji.

W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.

definition_version

Zwróć wersję bieżącej definicji zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Wersja definicji zestawu danych.

Typ zwracany

str

Uwagi

Definicja zestawu danych to seria kroków określających sposób odczytywania i przekształcania danych.

Zestaw danych zarejestrowany w obszarze roboczym usługi AzureML może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną, której identyfikator jest zwracany przez tę wartość.

W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.

description

Zwróć opis zestawu danych.

Zwraca

Opis zestawu danych.

Typ zwracany

str

Uwagi

Określenie opisu danych w zestawie danych umożliwia użytkownikom obszaru roboczego zrozumienie, co reprezentuje dane, oraz sposób ich używania.

id

Jeśli zestaw danych został zarejestrowany w obszarze roboczym, zwróć identyfikator zestawu danych. W przeciwnym razie zwróć wartość None.

Zwraca

Identyfikator zestawu danych.

Typ zwracany

str

is_visible

Kontrolowanie widoczności zarejestrowanego zestawu danych w interfejsie użytkownika obszaru roboczego usługi Azure ML.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Widoczność zestawu danych.

Typ zwracany

Uwagi

Zwrócone wartości:

  • Prawda: zestaw danych jest widoczny w interfejsie użytkownika obszaru roboczego. Domyślne.

  • Fałsz: zestaw danych jest ukryty w interfejsie użytkownika obszaru roboczego.

Nie ma wpływu na niezarejestrowane zestawy danych.

name

Zwróć nazwę zestawu danych.

Zwraca

Nazwa zestawu danych.

Typ zwracany

str

state

Zwróć stan zestawu danych.

Uwaga

Ta metoda jest przestarzała i nie będzie już obsługiwana.

Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Zwraca

Stan zestawu danych.

Typ zwracany

str

Uwagi

Znaczenie i efekt stanów są następujące:

  • Aktywne. Aktywne definicje są dokładnie takie, jak brzmią, wszystkie akcje można wykonywać na aktywnych definicjach.

  • Przestarzałe. Można użyć przestarzałej definicji, ale spowoduje zalogowanie się w dziennikach za każdym razem, gdy dostęp do danych bazowych będzie uzyskiwany.

  • Archiwizowane. Nie można użyć zarchiwizowanej definicji do wykonania żadnej akcji. Aby wykonać akcje w zarchiwizowanej definicji, należy ją ponownie uaktywnić.

tags

Zwróć tagi skojarzone z zestawem danych.

Zwraca

Tagi zestawu danych.

Typ zwracany

workspace

Jeśli zestaw danych został zarejestrowany w obszarze roboczym, zwróć go. W przeciwnym razie zwróć wartość None.

Zwraca

Obszar roboczy.

Typ zwracany