PipelineOutputFileDataset Sınıf

Başvuru

Azure Machine Learning Dosya Veri Kümesine yükseltilen ara işlem hattı verilerini temsil eder.

Ara veriler Azure Machine Learning Veri Kümesine yükseltildikten sonra, sonraki adımlarda DataReference yerine Veri Kümesi olarak da kullanılır.

Azure Machine Learning Veri Kümesine yükseltilecek bir ara veri oluşturun.

Devralma: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Oluşturucu

PipelineOutputFileDataset(pipeline_data)

Parametreler

pipeline_data: PipelineData

Gerekli

Bir Veri Kümesine yükseltilecek ara çıkışı temsil eden PipelineData.

pipeline_data: PipelineData

Gerekli

Bir Veri Kümesine yükseltilecek ara çıkışı temsil eden PipelineData.

Yöntemler

as_direct	Veri kümesinin tüketim modunu yönlendirmek için girişi ayarlayın. Bu modda, veri kümesinin kimliğini alırsınız ve betiğinizde veri kümesini almak için Dataset.get_by_id çağırabilirsiniz. run.input_datasets['{dataset_name}'] Veri Kümesini döndürür.
as_download	İndirilmesi için veri kümesinin tüketim modunu ayarlayın.
as_mount	Bağlanacak veri kümesinin tüketim modunu ayarlayın.
parse_delimited_files	Ara dosya veri kümesini tablosal veri kümesine dönüştürün. Tablosal veri kümesi, ara çıkış tarafından işaret edilen sınırlandırılmış dosyalar ayrıştırılarak oluşturulur.
parse_parquet_files	Ara dosya veri kümesini tablosal veri kümesine dönüştürün. Tablosal veri kümesi, ara çıktının işaret ettiği parquet dosyaları ayrıştırılarak oluşturulur.

as_direct

Veri kümesinin tüketim modunu yönlendirmek için girişi ayarlayın.

Bu modda, veri kümesinin kimliğini alırsınız ve betiğinizde veri kümesini almak için Dataset.get_by_id çağırabilirsiniz. run.input_datasets['{dataset_name}'] Veri Kümesini döndürür.

as_direct()

Döndürülenler

Değiştirilen PipelineOutputDataset.

Dönüş türü

PipelineOutputFileDataset

as_download

İndirilmesi için veri kümesinin tüketim modunu ayarlayın.

as_download(path_on_compute=None)

Parametreler

path_on_compute: str

varsayılan değer: None

Veri kümesinin indirilmesi için işlemdeki yol. Varsayılan değer Yok'tur. Bu, Azure Machine Learning'in sizin için bir yol seçtiği anlamına gelir.

Döndürülenler

Değiştirilen PipelineOutputDataset.

Dönüş türü

PipelineOutputFileDataset

as_mount

Bağlanacak veri kümesinin tüketim modunu ayarlayın.

as_mount(path_on_compute=None)

Parametreler

path_on_compute: str

varsayılan değer: None

Veri kümesinin bağlanacak işlemdeki yolu. Varsayılan değer Yok'tur. Bu, Azure Machine Learning'in sizin için bir yol seçtiği anlamına gelir.

Döndürülenler

Değiştirilen PipelineOutputDataset.

Dönüş türü

PipelineOutputFileDataset

parse_delimited_files

Ara dosya veri kümesini tablosal veri kümesine dönüştürün.

Tablosal veri kümesi, ara çıkış tarafından işaret edilen sınırlandırılmış dosyalar ayrıştırılarak oluşturulur.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametreler

include_path: bool

varsayılan değer: False

Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

separator: str

varsayılan değer: ,

Sütunları bölmek için kullanılan ayırıcı.

header: PromoteHeadersBehavior

varsayılan değer: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir olduğunu denetler. Varsayılan olarak tüm dosyaların aynı üst bilgisine sahip olduğunu varsayar.

partition_format: str

varsayılan değer: None

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'; burada bölüm bölüm adına ve saatlerine göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' değeri 'Hesaplar' ve '2019-01-01' değerine sahip bir tarih saat sütunu olan 'PartitionDate'.

file_extension: str

Gerekli

Okunacak dosyaların dosya uzantısı. Dizinden yalnızca bu uzantıya sahip dosyalar okunur. Ayırıcı ',' olduğunda varsayılan değer '.csv' ve ayırıcı sekme olduğunda '.tsv', aksi halde Yok'tır. Hiçbiri geçirilirse, uzantılarından (veya uzantı eksikliğinden) bağımsız olarak tüm dosyalar okunur.

set_column_types: dict[str, DataType]

varsayılan değer: None

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. Sözlükte olmayan sütunlar dize türünde kalır. Hiçbiri geçirilmesi dönüştürmeye neden olmaz. Kaynak verilerde bulunmayan sütunların girdileri hataya neden olmaz ve yoksayılır.

quoted_line_breaks: bool

varsayılan değer: False

Tırnak içinde yeni satır karakterlerinin işlenip işlenmeyeceği. Bu seçenek performansı etkileyebilir.

Döndürülenler

Tablosal veri kümesi olacak bir ara veri döndürür.

Dönüş türü

PipelineOutputTabularDataset

Açıklamalar

Bu dönüştürme yalnızca ara veriler sonraki adımın girişi olarak kullanıldığında uygulanır. Çıkışa geçirilse bile çıkış üzerinde hiçbir etkisi yoktur.

parse_parquet_files

Ara dosya veri kümesini tablosal veri kümesine dönüştürün.

Tablosal veri kümesi, ara çıktının işaret ettiği parquet dosyaları ayrıştırılarak oluşturulur.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametreler

include_path: bool

varsayılan değer: False

partition_format: str

varsayılan değer: None

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet' burada bölüm bölüm adı ve zamanına göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet', 'Accounts' değeriyle 'Department' dize sütunu ve '2019-01-01' değerine sahip bir tarih saat sütunu 'PartitionDate' oluşturur.

file_extension: str

varsayılan değer: .parquet

Okunacak dosyaların dosya uzantısı. Dizinden yalnızca bu uzantıya sahip dosyalar okunur. Varsayılan değer :'.parquet'. Bu Hiçbiri olarak ayarlanırsa, uzantıları ne olursa olsun (veya uzantı eksikliğinden) tüm dosyalar okunur.

set_column_types: dict[str, DataType]

varsayılan değer: None

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. Sözlükte olmayan sütunlar parquet dosyasından yüklenen türde kalır. Hiçbiri geçirilmesi dönüştürmeye neden olmaz. Kaynak verilerde bulunmayan sütunların girdileri hataya neden olmaz ve yoksayılır.

Döndürülenler

Tablosal veri kümesi olacak bir ara veri döndürür.

Dönüş türü

PipelineOutputTabularDataset

Açıklamalar

Bu dönüştürme yalnızca ara veriler sonraki adımın girişi olarak kullanıldığında uygulanır. Çıkışa geçirilse bile çıkış üzerinde hiçbir etkisi yoktur.

Aracılığıyla paylaş

PipelineOutputFileDataset Sınıf

Oluşturucu

Parametreler

Yöntemler

as_direct

Döndürülenler

Dönüş türü

as_download

Parametreler

Döndürülenler

Dönüş türü

as_mount

Parametreler

Döndürülenler

Dönüş türü

parse_delimited_files

Parametreler

Döndürülenler

Dönüş türü

Açıklamalar

parse_parquet_files

Parametreler

Döndürülenler

Dönüş türü

Açıklamalar

Geri Bildirim

Geri Bildirim

Ek kaynaklar