Dataset Klasa
Reprezentuje zasób do eksplorowania, przekształcania i zarządzania danymi w usłudze Azure Machine Learning.
Zestaw danych to odwołanie do danych w Datastore publicznych adresach URL sieci Web lub za nim.
W przypadku metod przestarzałych w tej klasie sprawdź AbstractDataset klasę ulepszonych interfejsów API.
Obsługiwane są następujące typy zestawów danych:
Element TabularDataset reprezentuje dane w formacie tabelarycznym utworzonym przez analizowanie podanego pliku lub listy plików.
Element FileDataset odwołuje się do jednego lub wielu plików w magazynach danych lub z publicznych adresów URL.
Aby rozpocząć pracę z zestawami danych, zobacz artykuł Dodawanie & rejestrowania zestawów danych lub zobacz notesy https://aka.ms/tabulardataset-samplenotebook i https://aka.ms/filedataset-samplenotebook.
Zainicjuj obiekt Dataset.
Aby uzyskać zestaw danych, który został już zarejestrowany w obszarze roboczym, użyj metody get.
- Dziedziczenie
-
builtins.objectDataset
Konstruktor
Dataset(definition, workspace=None, name=None, id=None)
Parametry
Nazwa | Opis |
---|---|
definition
Wymagane
|
<xref:azureml.data.DatasetDefinition>
Definicja zestawu danych. |
workspace
Wymagane
|
Obszar roboczy, w którym istnieje zestaw danych. |
name
Wymagane
|
Nazwa zestawu danych. |
id
Wymagane
|
Unikatowy identyfikator zestawu danych. |
Uwagi
Klasa Dataset uwidacznia dwa atrybuty klasy wygody (File
i Tabular
) do tworzenia zestawu danych bez pracy z odpowiednimi metodami fabryki. Aby na przykład utworzyć zestaw danych przy użyciu następujących atrybutów:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Możesz również utworzyć nowy element TabularDataset lub FileDataset, wywołując bezpośrednio odpowiednie metody fabryczne klasy zdefiniowanej w TabularDatasetFactory klasie i FileDatasetFactory.
Poniższy przykład pokazuje, jak utworzyć element TabularDataset wskazujący pojedynczą ścieżkę w magazynie danych.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Pełna próbka jest dostępna w witrynie https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Zmienne
Nazwa | Opis |
---|---|
azureml.core.Dataset.File
|
Atrybut klasy, który zapewnia dostęp do metod FileDatasetFactory do tworzenia nowych obiektów FileDataset. Użycie: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
Atrybut klasy, który zapewnia dostęp do metod TabularDatasetFactory do tworzenia nowych obiektów TabularDataset. Użycie: Dataset.Tabular.from_delimited_files(). |
Metody
archive |
Archiwizowanie aktywnego lub przestarzałego zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
auto_read_files |
Analizuje pliki w określonej ścieżce i zwraca nowy zestaw danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zaleca się używanie metod Dataset.Tabular.from_* do odczytywania plików. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
compare_profiles |
Porównaj profil bieżącego zestawu danych z innym profilem zestawu danych. Pokazuje to różnice w podsumowaniach statystyk między dwoma zestawami danych. Parametr "rhs_dataset" oznacza "po prawej stronie" i jest po prostu drugim zestawem danych. Pierwszy zestaw danych (bieżący obiekt zestawu danych) jest uznawany za "lewą stronę". Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
create_snapshot |
Utwórz migawkę zarejestrowanego zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
delete_snapshot |
Usuń migawkę zestawu danych według nazwy. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
deprecate |
Przestarzałe aktywne zestawy danych w obszarze roboczym według innego zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
diff |
Różnice bieżącego zestawu danych za pomocą rhs_dataset. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
from_binary_files |
Utwórz wyrejestrowany zestaw danych w pamięci na podstawie plików binarnych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zamiast tego zaleca się używanie Dataset.File.from_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
from_delimited_files |
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie plików rozdzielanych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zaleca się użycie Dataset.Tabular.from_delimited_files zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
|
from_excel_files |
Utwórz niezarejestrowany zestaw danych w pamięci z plików programu Excel. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
from_json_files |
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie plików JSON. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zaleca się używanie Dataset.Tabular.from_json_lines_files zamiast tego do odczytu z pliku wierszy JSON. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie ramki danych biblioteki pandas. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zalecamy użycie Dataset.Tabular.register_pandas_dataframe zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
from_parquet_files |
Utwórz niezarejestrowany zestaw danych w pamięci z plików parquet. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zalecamy użycie Dataset.Tabular.from_parquet_files zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
from_sql_query |
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie zapytania SQL. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zalecamy użycie Dataset.Tabular.from_sql_query zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
generate_profile |
Wygeneruj nowy profil dla zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
get |
Pobierz zestaw danych, który już istnieje w obszarze roboczym, określając jego nazwę lub identyfikator. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zaleca się używanie poleceń get_by_name i get_by_id zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
get_all |
Pobierz wszystkie zarejestrowane zestawy danych w obszarze roboczym. |
get_all_snapshots |
Pobierz wszystkie migawki zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
get_by_id |
Pobierz zestaw danych, który jest zapisywany w obszarze roboczym. |
get_by_name |
Pobierz zarejestrowany zestaw danych z obszaru roboczego według jego nazwy rejestracji. |
get_definition |
Pobierz konkretną definicję zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
get_definitions |
Pobierz wszystkie definicje zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
get_profile |
Pobierz statystyki podsumowania dla obliczonego wcześniej zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
get_snapshot |
Pobierz migawkę zestawu danych według nazwy. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
head |
Pobierz określoną liczbę rekordów określonych z tego zestawu danych i zwraca je jako ramkę danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
list |
Wyświetl listę wszystkich zestawów danych w obszarze roboczym, w tym tych z właściwością równą Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zaleca się zamiast tego użycie get_all . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
reactivate |
Ponowne uaktywnianie zarchiwizowanego lub przestarzałego zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
register |
Zarejestruj zestaw danych w obszarze roboczym, udostępniając go innym użytkownikom obszaru roboczego. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Zaleca się zamiast tego użycie register . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
sample |
Wygeneruj nowy przykład na podstawie źródłowego zestawu danych przy użyciu podanej strategii próbkowania i parametrów. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając take_sample metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Utwórz ramkę danych biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_pandas_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez tę definicję zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_spark_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
update |
Zaktualizuj atrybuty modyfikowalne zestawu danych w obszarze roboczym i zwróć zaktualizowany zestaw danych z obszaru roboczego. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
update_definition |
Zaktualizuj definicję zestawu danych. Uwaga Ta metoda jest przestarzała i nie będzie już obsługiwana. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation. |
archive
Archiwizowanie aktywnego lub przestarzałego zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
archive()
Zwraca
Typ | Opis |
---|---|
Brak. |
Uwagi
Po archiwizacji każda próba użycia zestawu danych spowoduje wystąpienie błędu. Jeśli zarchiwizowane przez przypadek, ponowne aktywowanie zostanie aktywowane.
auto_read_files
Analizuje pliki w określonej ścieżce i zwraca nowy zestaw danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zaleca się używanie metod Dataset.Tabular.from_* do odczytywania plików. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parametry
Nazwa | Opis |
---|---|
path
Wymagane
|
DataReference lub
str
Ścieżka danych w zarejestrowanym magazynie danych, ścieżce lokalnej lub adresie URL HTTP (CSV/TSV). |
include_path
Wymagane
|
Czy dołączyć kolumnę zawierającą ścieżkę pliku, z którego dane zostały odczytane. Przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord. Przydatne również, jeśli w ścieżce lub nazwie pliku znajdują się informacje, które mają być w kolumnie. |
partition_format
Wymagane
|
Określ format partycji w ścieżce i utwórz kolumny ciągów w formacie {x} i kolumnie datetime z formatu {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstrat roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka pliku '.. /Accounts/2019/01/01/data.csv" gdzie dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Department}/{PartitionDate:rrrr/MM/dd}/data.csv", aby utworzyć kolumny "Dział" typu ciągu i "PartitionDate" typu daty/godziny. |
Zwraca
Typ | Opis |
---|---|
Obiekt zestawu danych. |
Uwagi
Ta metoda służy do automatycznego wykrywania formatów plików i ograniczników.
Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny.
Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.
compare_profiles
Porównaj profil bieżącego zestawu danych z innym profilem zestawu danych.
Pokazuje to różnice w podsumowaniach statystyk między dwoma zestawami danych. Parametr "rhs_dataset" oznacza "po prawej stronie" i jest po prostu drugim zestawem danych. Pierwszy zestaw danych (bieżący obiekt zestawu danych) jest uznawany za "lewą stronę".
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametry
Nazwa | Opis |
---|---|
rhs_dataset
Wymagane
|
Drugi zestaw danych, nazywany również "prawą stroną" Zestaw danych do współudziału. |
profile_arguments
Wymagane
|
Argumenty do ponownego ściągniania określonego profilu. |
include_columns
Wymagane
|
Lista nazw kolumn do ujęć w porównaniu. |
exclude_columns
Wymagane
|
Lista nazw kolumn, które mają być wykluczone w porównaniu. |
histogram_compare_method
Wymagane
|
Wyliczenie opisujące metodę porównania, np. Wasserstein lub Energy |
Zwraca
Typ | Opis |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Różnica między dwoma profilami zestawu danych. |
Uwagi
Dotyczy to tylko zarejestrowanych zestawów danych. Zgłasza wyjątek, jeśli profil bieżącego zestawu danych nie istnieje. W przypadku niezarejestrowanych zestawów danych użyj metody profile.compare.
create_snapshot
Utwórz migawkę zarejestrowanego zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametry
Nazwa | Opis |
---|---|
snapshot_name
Wymagane
|
Nazwa migawki. Nazwy migawek powinny być unikatowe w zestawie danych. |
compute_target
Wymagane
|
Opcjonalny obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. W przypadku pominięcia zostanie użyte lokalne środowisko obliczeniowe. |
create_data_snapshot
Wymagane
|
Jeśli wartość True, zostanie utworzona zmaterializowana kopia danych. |
target_datastore
Wymagane
|
Docelowy magazyn danych w celu zapisania migawki. W przypadku pominięcia migawka zostanie utworzona w domyślnym magazynie obszaru roboczego. |
Zwraca
Typ | Opis |
---|---|
Obiekt migawki zestawu danych. |
Uwagi
Migawki przechwytują statystyki podsumowania punktów w czasie danych bazowych i opcjonalną kopię samych danych. Aby dowiedzieć się więcej na temat tworzenia migawek, przejdź do strony https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Usuń migawkę zestawu danych według nazwy.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parametry
Nazwa | Opis |
---|---|
snapshot_name
Wymagane
|
Nazwa migawki. |
Zwraca
Typ | Opis |
---|---|
Brak. |
Uwagi
Użyj tej funkcji, aby zwolnić magazyn używany przez dane zapisane w migawkach, których już nie potrzebujesz.
deprecate
Przestarzałe aktywne zestawy danych w obszarze roboczym według innego zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parametry
Nazwa | Opis |
---|---|
deprecate_by_dataset_id
Wymagane
|
Identyfikator zestawu danych, który jest przeznaczony do zastąpienia tego zestawu danych. |
Zwraca
Typ | Opis |
---|---|
Brak. |
Uwagi
Przestarzałe zestawy danych będą rejestrować ostrzeżenia, gdy są używane. Oznacza to, że zestaw danych jest przestarzały, wszystkie jego definicje.
Przestarzałe zestawy danych nadal mogą być używane. Aby całkowicie zablokować korzystanie z zestawu danych, zarchiwizuj go.
Jeśli zostanie ona uznana za przestarzałą przez przypadek, aktywuje ją ponownie.
diff
Różnice bieżącego zestawu danych za pomocą rhs_dataset.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parametry
Nazwa | Opis |
---|---|
rhs_dataset
Wymagane
|
Inny zestaw danych nazywany również zestawem danych po prawej stronie do porównania |
compute_target
Wymagane
|
docelowy obiekt obliczeniowy do wykonania różnic. W przypadku pominięcia zostanie użyte lokalne środowisko obliczeniowe. |
columns
Wymagane
|
Lista nazw kolumn do ujęć w różnice. |
Zwraca
Typ | Opis |
---|---|
Uruchom obiekt akcji zestawu danych. |
from_binary_files
Utwórz wyrejestrowany zestaw danych w pamięci na podstawie plików binarnych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zamiast tego zaleca się używanie Dataset.File.from_files. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parametry
Nazwa | Opis |
---|---|
path
Wymagane
|
DataReference lub
str
Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce lokalnej. |
Zwraca
Typ | Opis |
---|---|
Obiekt Dataset. |
Uwagi
Ta metoda służy do odczytywania plików jako strumieni danych binarnych. Zwraca jeden obiekt strumienia plików na odczyt pliku. Użyj tej metody podczas odczytywania obrazów, wideo, audio lub innych danych binarnych.
get_profile i create_snapshot nie będzie działać zgodnie z oczekiwaniami dla zestawu danych utworzonego przez tę metodę.
Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.
from_delimited_files
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie plików rozdzielanych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zaleca się użycie Dataset.Tabular.from_delimited_files zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parametry
Nazwa | Opis |
---|---|
path
Wymagane
|
DataReference lub
str
Ścieżka danych w zarejestrowanym magazynie danych, ścieżka lokalna lub adres URL HTTP. |
separator
Wymagane
|
Separator używany do dzielenia kolumn. |
header
Wymagane
|
Określa sposób podproszeń nagłówków kolumn podczas odczytywania z plików. |
encoding
Wymagane
|
Kodowanie odczytywanych plików. |
quoting
Wymagane
|
Określ sposób obsługi nowych znaków wiersza w cudzysłowie. Wartość domyślna (Fałsz) to interpretowanie nowych znaków wiersza jako początkowych nowych wierszy niezależnie od tego, czy nowe znaki wiersza znajdują się w cudzysłowie, czy nie. Jeśli zostanie ustawiona wartość True, nowe znaki wiersza wewnątrz cudzysłowów nie spowodują nowych wierszy, a szybkość odczytu pliku spowolni. |
infer_column_types
Wymagane
|
Wskazuje, czy typy danych kolumn są wnioskowane. |
skip_rows
Wymagane
|
Ile wierszy do pominięcia w odczytywanych plikach. |
skip_mode
Wymagane
|
Określa sposób pomijania wierszy podczas odczytywania z plików. |
comment
Wymagane
|
Znak używany do wskazywania wierszy komentarzy w odczytywanych plikach. Wiersze rozpoczynające się od tego ciągu zostaną pominięte. |
include_path
Wymagane
|
Określa, czy należy dołączyć kolumnę zawierającą ścieżkę pliku, z którego odczytano dane. Jest to przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord, lub przechowywać przydatne informacje w ścieżce pliku. |
archive_options
Wymagane
|
<xref:azureml.dataprep.ArchiveOptions>
Opcje dla pliku archiwum, w tym typ archiwum i wzorzec globu wpisu. Obecnie obsługujemy tylko plik ZIP jako typ archiwum. Na przykład określanie
odczytuje wszystkie pliki o nazwie kończącej się ciągiem "10-20.csv" w pliku ZIP. |
partition_format
Wymagane
|
Określ format partycji w ścieżce i utwórz kolumny ciągów w formacie {x} i kolumnie datetime w formacie {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstratowania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład przy użyciu ścieżki pliku '.. /Accounts/2019/01/01/data.csv", w którym dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Dział}/{PartitionDate:rrrr/MM/dd}/data.csv", aby utworzyć kolumny typu ciągu "Dział" i "PartitionDate" typu daty/godziny. |
Zwraca
Typ | Opis |
---|---|
Obiekt zestawu danych. |
Uwagi
Ta metoda służy do odczytywania rozdzielonych plików tekstowych, gdy chcesz kontrolować używane opcje.
Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny.
Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.
from_excel_files
Utwórz niezarejestrowany zestaw danych w pamięci z plików programu Excel.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parametry
Nazwa | Opis |
---|---|
path
Wymagane
|
DataReference lub
str
Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce lokalnej. |
sheet_name
Wymagane
|
Nazwa arkusza programu Excel do załadowania. Domyślnie odczytujemy pierwszy arkusz z każdego pliku programu Excel. |
use_column_headers
Wymagane
|
Określa, czy używać pierwszego wiersza jako nagłówków kolumn. |
skip_rows
Wymagane
|
Ile wierszy należy pominąć w odczytywanych plikach. |
include_path
Wymagane
|
Czy dołączyć kolumnę zawierającą ścieżkę pliku, z którego dane zostały odczytane. Jest to przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku. |
infer_column_types
Wymagane
|
W przypadku wartości true typy danych kolumn zostaną wywnioskowane. |
partition_format
Wymagane
|
Określ format partycji w ścieżce i utwórz kolumny ciągów w formacie {x} i kolumnie datetime z formatu {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstrat roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka pliku '.. /Accounts/2019/01/01/data.xlsx" gdzie dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować wartość "/{Department}/{PartitionDate:rrrr/MM/dd}/data.xlsx", aby utworzyć kolumny "Dział" typu ciągu i "PartitionDate" typu daty/godziny. |
Zwraca
Typ | Opis |
---|---|
Obiekt zestawu danych. |
Uwagi
Ta metoda służy do odczytywania plików programu Excel w formacie .xlsx. Dane można odczytywać z jednego arkusza w każdym pliku programu Excel. Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny. Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.
from_json_files
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie plików JSON.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zaleca się używanie Dataset.Tabular.from_json_lines_files zamiast tego do odczytu z pliku wierszy JSON. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parametry
Nazwa | Opis |
---|---|
path
Wymagane
|
DataReference lub
str
Ścieżka do plików lub folderów, które chcesz załadować i przeanalizować. Może to być ścieżka lokalna lub adres URL obiektu blob platformy Azure. Funkcja globbing jest obsługiwana. Na przykład możesz użyć ścieżki = "./data*", aby odczytać wszystkie pliki o nazwie rozpoczynającej się od "data". |
encoding
Wymagane
|
Kodowanie odczytywanych plików. |
flatten_nested_arrays
Wymagane
|
Obsługa zagnieżdżonych tablic w programie kontroli właściwości. Jeśli zdecydujesz się na spłaszczenie zagnieżdżonych tablic JSON, może to spowodować znacznie większą liczbę wierszy. |
include_path
Wymagane
|
Czy dołączyć kolumnę zawierającą ścieżkę, z której odczytano dane. Jest to przydatne podczas odczytywania wielu plików i może chcieć wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku. |
partition_format
Wymagane
|
Określ format partycji w ścieżce i utwórz kolumny ciągów w formacie {x} i kolumnie datetime z formatu {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstrat roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka pliku '.. /Accounts/2019/01/01/data.json" i dane są podzielone na partycje według nazwy i godziny działu, możemy zdefiniować ciąg "/{Department}/{PartitionDate:rrrr/MM/dd}/data.json" w celu utworzenia kolumn typu ciągu "Dział" i "PartitionDate" typu daty/godziny. |
Zwraca
Typ | Opis |
---|---|
Lokalny obiekt Zestawu danych. |
from_pandas_dataframe
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie ramki danych biblioteki pandas.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zalecamy użycie Dataset.Tabular.register_pandas_dataframe zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parametry
Nazwa | Opis |
---|---|
dataframe
Wymagane
|
Ramka danych Biblioteki Pandas. |
path
Wymagane
|
Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce folderu lokalnego. |
in_memory
Wymagane
|
Czy odczytać ramkę danych z pamięci zamiast utrwalać na dysku. |
Zwraca
Typ | Opis |
---|---|
Obiekt Zestaw danych. |
Uwagi
Użyj tej metody, aby przekonwertować ramkę danych biblioteki Pandas na obiekt Zestawu danych. Nie można zarejestrować zestawu danych utworzonego przez tę metodę, ponieważ dane pochodzą z pamięci.
Jeśli in_memory
ma wartość False, ramka danych Biblioteki Pandas jest konwertowana na plik CSV lokalnie. Jeśli pat
jest typu DataReference, ramka Biblioteki Pandas zostanie przekazana do magazynu danych, a zestaw danych będzie oparty na danychReference. Jeśli "ścieżka" jest folderem lokalnym, zestaw danych zostanie utworzony poza plikiem lokalnym, którego nie można usunąć.
Zgłasza wyjątek, jeśli bieżąca ścieżka dataReference nie jest ścieżką folderu.
from_parquet_files
Utwórz niezarejestrowany zestaw danych w pamięci z plików parquet.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zalecamy użycie Dataset.Tabular.from_parquet_files zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parametry
Nazwa | Opis |
---|---|
path
Wymagane
|
DataReference lub
str
Ścieżka danych w zarejestrowanym magazynie danych lub ścieżce lokalnej. |
include_path
Wymagane
|
Czy dołączyć kolumnę zawierającą ścieżkę pliku, z którego dane zostały odczytane. Jest to przydatne podczas odczytywania wielu plików i chcesz wiedzieć, z którego pliku pochodzi określony rekord, lub zachować przydatne informacje w ścieżce pliku. |
partition_format
Wymagane
|
Określ format partycji w ścieżce i utwórz kolumny ciągów w formacie {x} i kolumnie datetime z formatu {x:rrrr/MM/dd/HH/mm/ss}, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do ekstrat roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka pliku '.. /Accounts/2019/01/01/data.parquet" gdzie dane są partycjonowane według nazwy i godziny działu, możemy zdefiniować ciąg "/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet", aby utworzyć kolumny "Dział" typu ciągu i "PartitionDate" typu daty/godziny. |
Zwraca
Typ | Opis |
---|---|
Obiekt zestawu danych. |
Uwagi
Ta metoda służy do odczytywania plików Parquet.
Po utworzeniu zestawu danych należy użyć get_profile polecenia , aby wyświetlić listę wykrytych typów kolumn i statystyk podsumowania dla każdej kolumny.
Zwrócony zestaw danych nie jest zarejestrowany w obszarze roboczym.
from_sql_query
Utwórz niezarejestrowany zestaw danych w pamięci na podstawie zapytania SQL.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zalecamy użycie Dataset.Tabular.from_sql_query zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parametry
Nazwa | Opis |
---|---|
data_source
Wymagane
|
Szczegóły magazynu danych Azure SQL. |
query
Wymagane
|
Zapytanie do wykonania w celu odczytu danych. |
Zwraca
Typ | Opis |
---|---|
Lokalny obiekt Zestawu danych. |
generate_profile
Wygeneruj nowy profil dla zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parametry
Nazwa | Opis |
---|---|
compute_target
Wymagane
|
Opcjonalny obiekt docelowy obliczeniowy umożliwiający utworzenie profilu migawki. Jeśli pominięto, lokalne obliczenia są używane. |
workspace
Wymagane
|
Obszar roboczy wymagany dla zestawów danych przejściowych (niezarejestrowanych). |
arguments
Wymagane
|
Argumenty profilu. Prawidłowe argumenty to:
|
Zwraca
Typ | Opis |
---|---|
Obiekt przebiegu akcji zestawu danych. |
Uwagi
Wywołanie synchroniczne będzie blokowane do momentu ukończenia. Wywołaj metodę get_result , aby uzyskać wynik akcji.
get
Pobierz zestaw danych, który już istnieje w obszarze roboczym, określając jego nazwę lub identyfikator.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zaleca się używanie poleceń get_by_name i get_by_id zamiast tego. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Istniejący obszar roboczy usługi AzureML, w którym utworzono zestaw danych. |
name
Wymagane
|
Nazwa zestawu danych do pobrania. |
id
Wymagane
|
Unikatowy identyfikator zestawu danych w obszarze roboczym. |
Zwraca
Typ | Opis |
---|---|
Zestaw danych o określonej nazwie lub identyfikatorze. |
Uwagi
Możesz podać wartość name
lub id
. Wyjątek jest zgłaszany, jeśli:
zarówno
name
, jak iid
są określone, ale nie są zgodne.Zestaw danych z określonym
name
elementem lubid
nie można go znaleźć w obszarze roboczym.
get_all
Pobierz wszystkie zarejestrowane zestawy danych w obszarze roboczym.
get_all()
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Istniejący obszar roboczy usługi AzureML, w którym zarejestrowano zestawy danych. |
Zwraca
Typ | Opis |
---|---|
Słownik obiektów TabularDataset i FileDataset kluczy według ich nazwy rejestracji. |
get_all_snapshots
Pobierz wszystkie migawki zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
get_all_snapshots()
Zwraca
Typ | Opis |
---|---|
Lista migawek zestawu danych. |
get_by_id
Pobierz zestaw danych, który jest zapisywany w obszarze roboczym.
get_by_id(id, **kwargs)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Istniejący obszar roboczy usługi AzureML, w którym jest zapisywany zestaw danych. |
id
Wymagane
|
Identyfikator zestawu danych. |
Zwraca
Typ | Opis |
---|---|
Obiekt zestawu danych. Jeśli zestaw danych jest zarejestrowany, zostanie również zwrócona jego nazwa rejestracji i wersja. |
get_by_name
Pobierz zarejestrowany zestaw danych z obszaru roboczego według jego nazwy rejestracji.
get_by_name(name, version='latest', **kwargs)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Istniejący obszar roboczy usługi AzureML, w którym zarejestrowano zestaw danych. |
name
Wymagane
|
Nazwa rejestracji. |
version
Wymagane
|
Wersja rejestracji. Wartość domyślna to "latest". |
Zwraca
Typ | Opis |
---|---|
Zarejestrowany obiekt zestawu danych. |
get_definition
Pobierz konkretną definicję zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parametry
Nazwa | Opis |
---|---|
version_id
Wymagane
|
Identyfikator wersji definicji zestawu danych |
Zwraca
Typ | Opis |
---|---|
Definicja zestawu danych. |
Uwagi
Jeśli version_id
zostanie podana, usługa Azure Machine Learning próbuje pobrać definicję odpowiadającą tej wersji. Jeśli ta wersja nie istnieje, zostanie zgłoszony wyjątek.
Jeśli version_id
zostanie pominięty, zostanie pobrana najnowsza wersja.
get_definitions
Pobierz wszystkie definicje zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
get_definitions()
Zwraca
Typ | Opis |
---|---|
Słownik definicji zestawu danych. |
Uwagi
Zestaw danych zarejestrowany w obszarze roboczym usługi AzureML może mieć wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną definicją.
W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.
get_profile
Pobierz statystyki podsumowania dla obliczonego wcześniej zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parametry
Nazwa | Opis |
---|---|
arguments
Wymagane
|
Argumenty profilu. |
generate_if_not_exist
Wymagane
|
Wskazuje, czy profil ma być generowany, jeśli nie istnieje. |
workspace
Wymagane
|
Obszar roboczy, wymagany dla zestawów danych przejściowych (niezarejestrowanych). |
compute_target
Wymagane
|
Docelowy obiekt obliczeniowy do wykonania akcji profilu. |
Zwraca
Typ | Opis |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile zestawu danych. |
Uwagi
W przypadku zestawu danych zarejestrowanego w obszarze roboczym usługi Azure Machine Learning ta metoda pobiera istniejący profil, który został utworzony wcześniej, wywołując get_profile
metodę , jeśli jest ona nadal prawidłowa. Profile są unieważniane w przypadku wykrycia zmienionych danych w zestawie danych lub argumentów, które get_profile
mają być inne niż używane podczas generowania profilu. Jeśli profil nie jest obecny lub unieważniony, określi, generate_if_not_exist
czy został wygenerowany nowy profil.
W przypadku zestawu danych, który nie jest zarejestrowany w obszarze roboczym usługi Azure Machine Learning, ta metoda zawsze jest uruchamiana generate_profile i zwraca wynik.
get_snapshot
Pobierz migawkę zestawu danych według nazwy.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parametry
Nazwa | Opis |
---|---|
snapshot_name
Wymagane
|
Nazwa migawki. |
Zwraca
Typ | Opis |
---|---|
Obiekt migawki zestawu danych. |
head
Pobierz określoną liczbę rekordów określonych z tego zestawu danych i zwraca je jako ramkę danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
head(count)
Parametry
Nazwa | Opis |
---|---|
count
Wymagane
|
Liczba rekordów do ściągnięcia. |
Zwraca
Typ | Opis |
---|---|
Ramka danych biblioteki Pandas. |
list
Wyświetl listę wszystkich zestawów danych w obszarze roboczym, w tym tych z właściwością równą is_visible
False.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zaleca się zamiast tego użycie get_all . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
static list(workspace)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, dla którego chcesz pobrać listę zestawów danych. |
Zwraca
Typ | Opis |
---|---|
Lista obiektów zestawu danych. |
reactivate
Ponowne uaktywnianie zarchiwizowanego lub przestarzałego zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
reactivate()
Zwraca
Typ | Opis |
---|---|
Brak. |
register
Zarejestruj zestaw danych w obszarze roboczym, udostępniając go innym użytkownikom obszaru roboczego.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Zaleca się zamiast tego użycie register . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy usługi AzureML, w którym ma zostać zarejestrowany zestaw danych. |
name
Wymagane
|
Nazwa zestawu danych w obszarze roboczym. |
description
Wymagane
|
Opis zestawu danych. |
tags
Wymagane
|
Tagi do skojarzenia z zestawem danych. |
visible
Wymagane
|
Wskazuje, czy zestaw danych jest widoczny w interfejsie użytkownika. Jeśli wartość False, zestaw danych jest ukryty w interfejsie użytkownika i dostępny za pośrednictwem zestawu SDK. |
exist_ok
Wymagane
|
Jeśli wartość True, metoda zwraca zestaw danych, jeśli już istnieje w danym obszarze roboczym, inny błąd. |
update_if_exist
Wymagane
|
Jeśli |
Zwraca
Typ | Opis |
---|---|
Zarejestrowany obiekt Zestawu danych w obszarze roboczym. |
sample
Wygeneruj nowy przykład na podstawie źródłowego zestawu danych przy użyciu podanej strategii próbkowania i parametrów.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając take_sample metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parametry
Nazwa | Opis |
---|---|
sample_strategy
Wymagane
|
Przykładowa strategia do użycia. Akceptowane wartości to "top_n", "simple_random" lub "stratified". |
arguments
Wymagane
|
Słownik z kluczami z "Argumentu opcjonalnego" na powyższej liście oraz wartości z kolumny "Type" (Typ). Można używać tylko argumentów z odpowiedniej metody próbkowania. Na przykład w przypadku typu próbki "simple_random" można określić tylko słownik z kluczami "probability" i "seed". |
Zwraca
Typ | Opis |
---|---|
Obiekt zestawu danych jako próbka oryginalnego zestawu danych. |
Uwagi
Przykłady są generowane przez wykonanie potoku przekształcania zdefiniowanego przez ten zestaw danych, a następnie zastosowanie strategii próbkowania i parametrów do danych wyjściowych. Każda metoda próbkowania obsługuje następujące opcjonalne argumenty:
top_n
Argumenty opcjonalne
- n, wpisz liczbę całkowitą. Wybierz pierwsze N wierszy jako przykład.
simple_random
Argumenty opcjonalne
prawdopodobieństwo, typ zmiennoprzecinkowy. Proste losowe próbkowanie, w którym każdy wiersz ma równe prawdopodobieństwo wybrania. Prawdopodobieństwo powinno być liczbą z zakresu od 0 do 1.
nasion, wpisz float. Używany przez generator liczb losowych. Służy do powtarzalności.
stratyfikowane
Argumenty opcjonalne
columns, type list[str]. Lista kolumn warstw w danych.
nasion, wpisz float. Używany przez generator liczb losowych. Służy do powtarzalności.
ułamki, typ dykt[krotka, liczba zmiennoprzecinkowa]. Krotka: wartości kolumn definiujące warstwę muszą być w tej samej kolejności co nazwy kolumn. Zmiennoprzecinkowy: waga dołączona do warstwy podczas próbkowania.
Poniższe fragmenty kodu to przykładowe wzorce projektowe dla różnych przykładowych metod.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Utwórz ramkę danych biblioteki Pandas, wykonując potok przekształcania zdefiniowany przez tę definicję zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_pandas_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Zwraca
Typ | Opis |
---|---|
Ramka danych biblioteki Pandas. |
Uwagi
Zwróć w pełni zmaterializowaną ramkę danych Biblioteki Pandas w pamięci.
to_spark_dataframe
Utwórz ramkę danych platformy Spark, która może wykonać potok przekształcania zdefiniowany przez tę definicję zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Utwórz element TabularDataset , wywołując metody statyczne w pliku Dataset.Tabular i używając to_spark_dataframe metody . Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Zwraca
Typ | Opis |
---|---|
Ramka danych platformy Spark. |
Uwagi
Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są obliczane z opóźnieniem.
update
Zaktualizuj atrybuty modyfikowalne zestawu danych w obszarze roboczym i zwróć zaktualizowany zestaw danych z obszaru roboczego.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parametry
Nazwa | Opis |
---|---|
name
Wymagane
|
Nazwa zestawu danych w obszarze roboczym. |
description
Wymagane
|
Opis danych. |
tags
Wymagane
|
Tagi do skojarzenia zestawu danych z. |
visible
Wymagane
|
Wskazuje, czy zestaw danych jest widoczny w interfejsie użytkownika. |
Zwraca
Typ | Opis |
---|---|
Zaktualizowany obiekt Zestawu danych z obszaru roboczego. |
update_definition
Zaktualizuj definicję zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parametry
Nazwa | Opis |
---|---|
definition
Wymagane
|
Nowa definicja tego zestawu danych. |
definition_update_message
Wymagane
|
Komunikat o aktualizacji definicji. |
Zwraca
Typ | Opis |
---|---|
Zaktualizowany obiekt Zestawu danych z obszaru roboczego. |
Uwagi
Aby korzystać ze zaktualizowanego zestawu danych, użyj obiektu zwróconego przez tę metodę.
Atrybuty
definition
Zwróć bieżącą definicję zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Zwraca
Typ | Opis |
---|---|
Definicja zestawu danych. |
Uwagi
Definicja zestawu danych to seria kroków określających sposób odczytywania i przekształcania danych.
Zestaw danych zarejestrowany w obszarze roboczym usługi AzureML może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Posiadanie wielu definicji umożliwia wprowadzanie zmian w istniejących zestawach danych bez przerywania modeli i potoków, które zależą od starszej definicji.
W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.
definition_version
Zwróć wersję bieżącej definicji zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Zwraca
Typ | Opis |
---|---|
Wersja definicji zestawu danych. |
Uwagi
Definicja zestawu danych to seria kroków określających sposób odczytywania i przekształcania danych.
Zestaw danych zarejestrowany w obszarze roboczym usługi AzureML może zawierać wiele definicji, z których każda została utworzona przez wywołanie metody update_definition. Każda definicja ma unikatowy identyfikator. Bieżąca definicja jest najnowszą utworzoną, której identyfikator jest zwracany przez tę wartość.
W przypadku niezarejestrowanych zestawów danych istnieje tylko jedna definicja.
description
Zwróć opis zestawu danych.
Zwraca
Typ | Opis |
---|---|
Opis zestawu danych. |
Uwagi
Określenie opisu danych w zestawie danych umożliwia użytkownikom obszaru roboczego zrozumienie, co reprezentuje dane, oraz sposób ich używania.
id
Jeśli zestaw danych został zarejestrowany w obszarze roboczym, zwróć identyfikator zestawu danych. W przeciwnym razie zwróć wartość None.
Zwraca
Typ | Opis |
---|---|
Identyfikator zestawu danych. |
is_visible
Kontrolowanie widoczności zarejestrowanego zestawu danych w interfejsie użytkownika obszaru roboczego usługi Azure ML.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Zwraca
Typ | Opis |
---|---|
Widoczność zestawu danych. |
Uwagi
Zwrócone wartości:
Prawda: zestaw danych jest widoczny w interfejsie użytkownika obszaru roboczego. Domyślne.
Fałsz: zestaw danych jest ukryty w interfejsie użytkownika obszaru roboczego.
Nie ma wpływu na niezarejestrowane zestawy danych.
name
state
Zwróć stan zestawu danych.
Uwaga
Ta metoda jest przestarzała i nie będzie już obsługiwana.
Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Zwraca
Typ | Opis |
---|---|
Stan zestawu danych. |
Uwagi
Znaczenie i efekt stanów są następujące:
Aktywne. Aktywne definicje są dokładnie takie, jak brzmią, wszystkie akcje można wykonywać na aktywnych definicjach.
Przestarzałe. Można użyć przestarzałej definicji, ale spowoduje zalogowanie się w dziennikach za każdym razem, gdy dostęp do danych bazowych będzie uzyskiwany.
Archiwizowane. Nie można użyć zarchiwizowanej definicji do wykonania żadnej akcji. Aby wykonać akcje w zarchiwizowanej definicji, należy ją ponownie uaktywnić.
tags
workspace
Jeśli zestaw danych został zarejestrowany w obszarze roboczym, zwróć go. W przeciwnym razie zwróć wartość None.
Zwraca
Typ | Opis |
---|---|
Obszar roboczy. |