PipelineOutputFileDataset Sınıf
Azure Machine Learning Dosya Veri Kümesine yükseltilen ara işlem hattı verilerini temsil eder.
Ara veriler Azure Machine Learning Veri Kümesine yükseltildikten sonra, sonraki adımlarda DataReference yerine Veri Kümesi olarak da kullanılır.
Azure Machine Learning Veri Kümesine yükseltilecek bir ara veri oluşturun.
- Devralma
-
PipelineOutputFileDataset
Oluşturucu
PipelineOutputFileDataset(pipeline_data)
Parametreler
- pipeline_data
- PipelineData
Bir Veri Kümesine yükseltilecek ara çıkışı temsil eden PipelineData.
- pipeline_data
- PipelineData
Bir Veri Kümesine yükseltilecek ara çıkışı temsil eden PipelineData.
Yöntemler
as_direct |
Veri kümesinin tüketim modunu yönlendirmek için girişi ayarlayın. Bu modda, veri kümesinin kimliğini alırsınız ve betiğinizde veri kümesini almak için Dataset.get_by_id çağırabilirsiniz. run.input_datasets['{dataset_name}'] Veri Kümesini döndürür. |
as_download |
İndirilmesi için veri kümesinin tüketim modunu ayarlayın. |
as_mount |
Bağlanacak veri kümesinin tüketim modunu ayarlayın. |
parse_delimited_files |
Ara dosya veri kümesini tablosal veri kümesine dönüştürün. Tablosal veri kümesi, ara çıkış tarafından işaret edilen sınırlandırılmış dosyalar ayrıştırılarak oluşturulur. |
parse_parquet_files |
Ara dosya veri kümesini tablosal veri kümesine dönüştürün. Tablosal veri kümesi, ara çıktının işaret ettiği parquet dosyaları ayrıştırılarak oluşturulur. |
as_direct
Veri kümesinin tüketim modunu yönlendirmek için girişi ayarlayın.
Bu modda, veri kümesinin kimliğini alırsınız ve betiğinizde veri kümesini almak için Dataset.get_by_id çağırabilirsiniz. run.input_datasets['{dataset_name}'] Veri Kümesini döndürür.
as_direct()
Döndürülenler
Değiştirilen PipelineOutputDataset.
Dönüş türü
as_download
İndirilmesi için veri kümesinin tüketim modunu ayarlayın.
as_download(path_on_compute=None)
Parametreler
- path_on_compute
- str
Veri kümesinin indirilmesi için işlemdeki yol. Varsayılan değer Yok'tur. Bu, Azure Machine Learning'in sizin için bir yol seçtiği anlamına gelir.
Döndürülenler
Değiştirilen PipelineOutputDataset.
Dönüş türü
as_mount
Bağlanacak veri kümesinin tüketim modunu ayarlayın.
as_mount(path_on_compute=None)
Parametreler
- path_on_compute
- str
Veri kümesinin bağlanacak işlemdeki yolu. Varsayılan değer Yok'tur. Bu, Azure Machine Learning'in sizin için bir yol seçtiği anlamına gelir.
Döndürülenler
Değiştirilen PipelineOutputDataset.
Dönüş türü
parse_delimited_files
Ara dosya veri kümesini tablosal veri kümesine dönüştürün.
Tablosal veri kümesi, ara çıkış tarafından işaret edilen sınırlandırılmış dosyalar ayrıştırılarak oluşturulur.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parametreler
- include_path
- bool
Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.
- header
- PromoteHeadersBehavior
Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir olduğunu denetler. Varsayılan olarak tüm dosyaların aynı üst bilgisine sahip olduğunu varsayar.
- partition_format
- str
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'; burada bölüm bölüm adına ve saatlerine göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' değeri 'Hesaplar' ve '2019-01-01' değerine sahip bir tarih saat sütunu olan 'PartitionDate'.
- file_extension
- str
Okunacak dosyaların dosya uzantısı. Dizinden yalnızca bu uzantıya sahip dosyalar okunur. Ayırıcı ',' olduğunda varsayılan değer '.csv' ve ayırıcı sekme olduğunda '.tsv', aksi halde Yok'tır. Hiçbiri geçirilirse, uzantılarından (veya uzantı eksikliğinden) bağımsız olarak tüm dosyalar okunur.
Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. Sözlükte olmayan sütunlar dize türünde kalır. Hiçbiri geçirilmesi dönüştürmeye neden olmaz. Kaynak verilerde bulunmayan sütunların girdileri hataya neden olmaz ve yoksayılır.
- quoted_line_breaks
- bool
Tırnak içinde yeni satır karakterlerinin işlenip işlenmeyeceği. Bu seçenek performansı etkileyebilir.
Döndürülenler
Tablosal veri kümesi olacak bir ara veri döndürür.
Dönüş türü
Açıklamalar
Bu dönüştürme yalnızca ara veriler sonraki adımın girişi olarak kullanıldığında uygulanır. Çıkışa geçirilse bile çıkış üzerinde hiçbir etkisi yoktur.
parse_parquet_files
Ara dosya veri kümesini tablosal veri kümesine dönüştürün.
Tablosal veri kümesi, ara çıktının işaret ettiği parquet dosyaları ayrıştırılarak oluşturulur.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parametreler
- include_path
- bool
Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.
- partition_format
- str
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet' burada bölüm bölüm adı ve zamanına göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet', 'Accounts' değeriyle 'Department' dize sütunu ve '2019-01-01' değerine sahip bir tarih saat sütunu 'PartitionDate' oluşturur.
- file_extension
- str
Okunacak dosyaların dosya uzantısı. Dizinden yalnızca bu uzantıya sahip dosyalar okunur. Varsayılan değer :'.parquet'. Bu Hiçbiri olarak ayarlanırsa, uzantıları ne olursa olsun (veya uzantı eksikliğinden) tüm dosyalar okunur.
Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. Sözlükte olmayan sütunlar parquet dosyasından yüklenen türde kalır. Hiçbiri geçirilmesi dönüştürmeye neden olmaz. Kaynak verilerde bulunmayan sütunların girdileri hataya neden olmaz ve yoksayılır.
Döndürülenler
Tablosal veri kümesi olacak bir ara veri döndürür.
Dönüş türü
Açıklamalar
Bu dönüştürme yalnızca ara veriler sonraki adımın girişi olarak kullanıldığında uygulanır. Çıkışa geçirilse bile çıkış üzerinde hiçbir etkisi yoktur.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin