Aracılığıyla paylaş


PipelineOutputFileDataset Sınıf

Azure Machine Learning Dosya Veri Kümesine yükseltilen ara işlem hattı verilerini temsil eder.

Ara veriler Azure Machine Learning Veri Kümesine yükseltildikten sonra, sonraki adımlarda DataReference yerine Veri Kümesi olarak da kullanılır.

Azure Machine Learning Veri Kümesine yükseltilecek bir ara veri oluşturun.

Devralma
PipelineOutputFileDataset

Oluşturucu

PipelineOutputFileDataset(pipeline_data)

Parametreler

pipeline_data
PipelineData
Gerekli

Bir Veri Kümesine yükseltilecek ara çıkışı temsil eden PipelineData.

pipeline_data
PipelineData
Gerekli

Bir Veri Kümesine yükseltilecek ara çıkışı temsil eden PipelineData.

Yöntemler

as_direct

Veri kümesinin tüketim modunu yönlendirmek için girişi ayarlayın.

Bu modda, veri kümesinin kimliğini alırsınız ve betiğinizde veri kümesini almak için Dataset.get_by_id çağırabilirsiniz. run.input_datasets['{dataset_name}'] Veri Kümesini döndürür.

as_download

İndirilmesi için veri kümesinin tüketim modunu ayarlayın.

as_mount

Bağlanacak veri kümesinin tüketim modunu ayarlayın.

parse_delimited_files

Ara dosya veri kümesini tablosal veri kümesine dönüştürün.

Tablosal veri kümesi, ara çıkış tarafından işaret edilen sınırlandırılmış dosyalar ayrıştırılarak oluşturulur.

parse_parquet_files

Ara dosya veri kümesini tablosal veri kümesine dönüştürün.

Tablosal veri kümesi, ara çıktının işaret ettiği parquet dosyaları ayrıştırılarak oluşturulur.

as_direct

Veri kümesinin tüketim modunu yönlendirmek için girişi ayarlayın.

Bu modda, veri kümesinin kimliğini alırsınız ve betiğinizde veri kümesini almak için Dataset.get_by_id çağırabilirsiniz. run.input_datasets['{dataset_name}'] Veri Kümesini döndürür.

as_direct()

Döndürülenler

Değiştirilen PipelineOutputDataset.

Dönüş türü

as_download

İndirilmesi için veri kümesinin tüketim modunu ayarlayın.

as_download(path_on_compute=None)

Parametreler

path_on_compute
str
varsayılan değer: None

Veri kümesinin indirilmesi için işlemdeki yol. Varsayılan değer Yok'tur. Bu, Azure Machine Learning'in sizin için bir yol seçtiği anlamına gelir.

Döndürülenler

Değiştirilen PipelineOutputDataset.

Dönüş türü

as_mount

Bağlanacak veri kümesinin tüketim modunu ayarlayın.

as_mount(path_on_compute=None)

Parametreler

path_on_compute
str
varsayılan değer: None

Veri kümesinin bağlanacak işlemdeki yolu. Varsayılan değer Yok'tur. Bu, Azure Machine Learning'in sizin için bir yol seçtiği anlamına gelir.

Döndürülenler

Değiştirilen PipelineOutputDataset.

Dönüş türü

parse_delimited_files

Ara dosya veri kümesini tablosal veri kümesine dönüştürün.

Tablosal veri kümesi, ara çıkış tarafından işaret edilen sınırlandırılmış dosyalar ayrıştırılarak oluşturulur.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametreler

include_path
bool
varsayılan değer: False

Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

separator
str
varsayılan değer: ,

Sütunları bölmek için kullanılan ayırıcı.

header
PromoteHeadersBehavior
varsayılan değer: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir olduğunu denetler. Varsayılan olarak tüm dosyaların aynı üst bilgisine sahip olduğunu varsayar.

partition_format
str
varsayılan değer: None

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'; burada bölüm bölüm adına ve saatlerine göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' değeri 'Hesaplar' ve '2019-01-01' değerine sahip bir tarih saat sütunu olan 'PartitionDate'.

file_extension
str
Gerekli

Okunacak dosyaların dosya uzantısı. Dizinden yalnızca bu uzantıya sahip dosyalar okunur. Ayırıcı ',' olduğunda varsayılan değer '.csv' ve ayırıcı sekme olduğunda '.tsv', aksi halde Yok'tır. Hiçbiri geçirilirse, uzantılarından (veya uzantı eksikliğinden) bağımsız olarak tüm dosyalar okunur.

set_column_types
dict[str, DataType]
varsayılan değer: None

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. Sözlükte olmayan sütunlar dize türünde kalır. Hiçbiri geçirilmesi dönüştürmeye neden olmaz. Kaynak verilerde bulunmayan sütunların girdileri hataya neden olmaz ve yoksayılır.

quoted_line_breaks
bool
varsayılan değer: False

Tırnak içinde yeni satır karakterlerinin işlenip işlenmeyeceği. Bu seçenek performansı etkileyebilir.

Döndürülenler

Tablosal veri kümesi olacak bir ara veri döndürür.

Dönüş türü

Açıklamalar

Bu dönüştürme yalnızca ara veriler sonraki adımın girişi olarak kullanıldığında uygulanır. Çıkışa geçirilse bile çıkış üzerinde hiçbir etkisi yoktur.

parse_parquet_files

Ara dosya veri kümesini tablosal veri kümesine dönüştürün.

Tablosal veri kümesi, ara çıktının işaret ettiği parquet dosyaları ayrıştırılarak oluşturulur.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametreler

include_path
bool
varsayılan değer: False

Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

partition_format
str
varsayılan değer: None

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet' burada bölüm bölüm adı ve zamanına göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet', 'Accounts' değeriyle 'Department' dize sütunu ve '2019-01-01' değerine sahip bir tarih saat sütunu 'PartitionDate' oluşturur.

file_extension
str
varsayılan değer: .parquet

Okunacak dosyaların dosya uzantısı. Dizinden yalnızca bu uzantıya sahip dosyalar okunur. Varsayılan değer :'.parquet'. Bu Hiçbiri olarak ayarlanırsa, uzantıları ne olursa olsun (veya uzantı eksikliğinden) tüm dosyalar okunur.

set_column_types
dict[str, DataType]
varsayılan değer: None

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. Sözlükte olmayan sütunlar parquet dosyasından yüklenen türde kalır. Hiçbiri geçirilmesi dönüştürmeye neden olmaz. Kaynak verilerde bulunmayan sütunların girdileri hataya neden olmaz ve yoksayılır.

Döndürülenler

Tablosal veri kümesi olacak bir ara veri döndürür.

Dönüş türü

Açıklamalar

Bu dönüştürme yalnızca ara veriler sonraki adımın girişi olarak kullanıldığında uygulanır. Çıkışa geçirilse bile çıkış üzerinde hiçbir etkisi yoktur.