FileDataset Kelas

Referensi

Mewakili kumpulan referensi file di penyimpanan data atau URL publik yang akan digunakan dalam Azure Machine Learning.

FileDataset mendefinisikan serangkaian operasi yang dievaluasi dengan lamban dan tidak dapat diubah untuk memuat data dari sumber data ke dalam aliran file. Data tidak dimuat dari sumber hingga FileDataset diminta untuk mengirimkan data.

FileDataset dibuat menggunakan metode from_files dari kelas FileDatasetFactory.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data file, lihat https://aka.ms/filedataset-samplenotebook.

Inisialisasi objek FileDataset.

Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan FileDatasetFactory kelas .

Warisan: AbstractDataset

FileDataset

Konstruktor

FileDataset()

Keterangan

FileDataset dapat digunakan sebagai input dari percobaan yang dijalankan. Ini juga dapat didaftarkan ke ruang kerja dengan nama tertentu dan diambil dengan nama tersebut.

FileDataset dapat disubset dengan menerapkan berbagai metode subsetting yang tersedia pada kelas ini. Hasil subsetting selalu FileDataset baru.

Pemuatan data aktual terjadi ketika FileDataset diminta untuk mengirimkan data ke mekanisme penyimpanan lain (misalnya file yang diunduh atau dipasang ke jalur lokal).

Metode

as_cache	Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.
as_download	Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh. Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input. # Given a run submitted with dataset input like this: dataset_input = dataset.as_download() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The download location can be retrieved from argument values import sys download_location = sys.argv[1] # The download location can also be retrieved from input_datasets of the run context. from azureml.core import Run download_location = Run.get_context().input_datasets['input_1']
as_hdfs	Atur mode ke hdfs. Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_hdfs() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The hdfs path can be retrieved from argument values import sys hdfs_path = sys.argv[1] # The hdfs path can also be retrieved from input_datasets of the run context. import os hdfs_path = os.environ['input_<hash>']`
as_mount	Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang. Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_mount() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The mount point can be retrieved from argument values import sys mount_point = sys.argv[1] # The mount point can also be retrieved from input_datasets of the run context. from azureml.core import Run mount_point = Run.get_context().input_datasets['input_1']`
download	Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.
file_metadata	Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata. Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek
filter	Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.
hydrate	Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.
mount	Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.
random_split	Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan. Himpunan data pertama yang dikembalikan berisi kira-kira `percentage` dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.
skip	Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.
take	Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.
take_sample	Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.
to_path	Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.

as_cache

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.

as_cache(datacache_store)

Parameter

Nama	Deskripsi
datacache_store Diperlukan	DatacacheStore datacachestore yang akan digunakan untuk menghidrasi.

Mengembalikan

Jenis	Deskripsi
DatacacheConsumptionConfig	Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi.

as_download

Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parameter

Nama	Deskripsi
path_on_compute	str Jalur target pada komputasi untuk menyediakan data. nilai default: None

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']

as_hdfs()

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.

as_mount

Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang.

Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parameter

Nama	Deskripsi
path_on_compute	str Jalur target pada komputasi untuk menyediakan data. nilai default: None

Keterangan

Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.

download

Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parameter

Nama	Deskripsi
target_path Diperlukan	str Direktori lokal untuk mengunduh file. Jika Tidak Ada, data akan diunduh ke direktori sementara.
overwrite Diperlukan	bool Menunjukkan apakah akan menimpa file yang ada. Defaultnya adalah False. File yang ada akan ditimpa jika overwrite diatur ke True; jika tidak, pengecualian akan diajukan.
ignore_not_found Diperlukan	bool Menunjukkan apakah unduhan akan gagal jika beberapa file yang ditunjukkan oleh himpunan data tidak ditemukan. Defaultnya adalah False. Unduhan akan gagal jika unduhan file gagal karena alasan apa pun jika ignore_not_found diatur ke False; jika tidak, peringatan akan dicatat untuk kesalahan tidak ditemukan dan unduhan akan berhasil selama tidak ada jenis kesalahan lain yang ditemukan.

Mengembalikan

Jenis	Deskripsi
list(str)	Mengembalikan array jalur file untuk setiap file yang diunduh.

Keterangan

Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.

file_metadata

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata.

Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek

file_metadata(col)

Parameter

Nama	Deskripsi
col Diperlukan	str Nama kolom

Mengembalikan

Jenis	Deskripsi
<xref:azureml.dataprep.api.expression.RecordFieldExpression>	Menampilkan ekspresi yang mengambil nilai dalam kolom yang ditentukan.

filter

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.

filter(expression)

Parameter

Nama	Deskripsi
expression Diperlukan	<xref:azureml.dataprep.api.expression.Expression> Ekspresi yang akan dievaluasi.

Mengembalikan

Jenis	Deskripsi
FileDataset	Himpunan data yang dimodifikasi (tidak terdaftar).

Keterangan

Ekspresi dimulai dengan mengindeks Dataset dengan nama kolom. Ekspresi mendukung berbagai fungsi dan operator dan dapat digabungkan menggunakan operator logis. Ekspresi yang dihasilkan akan dievaluasi dengan lambat untuk setiap baris ketika terjadi penarikan data dan bukan di tempat yang ditentukan.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.

hydrate(datacache_store, replica_count=None)

Parameter

Nama	Deskripsi
datacache_store Diperlukan	DatacacheStore datacachestore yang akan digunakan untuk menghidrasi.
replica_count Diperlukan	<xref:Int>, <xref:optional> Jumlah replika yang akan dihidrasi.

Mengembalikan

Jenis	Deskripsi
DatacacheHydrationTracker	Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi.

mount

Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.

mount(mount_point=None, **kwargs)

Parameter

Nama	Deskripsi
mount_point Diperlukan	str Direktori lokal untuk memasang file ke. Jika Tidak Ada, data akan dipasang ke direktori sementara, yang dapat Anda temukan melalui panggilan metode instans MountContext.mount_point.

Mengembalikan

Jenis	Deskripsi
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>	Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan.

Jenis

Deskripsi

<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>

Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan.

Keterangan

Manajer konteks akan dikembalikan untuk mengelola siklus hidup pemasangan. Untuk memasang, Anda harus memasukkan manajer konteks dan melepas pemasangan, keluar dari manajer konteks.

Pemasangan hanya didukung pada sistem operasi Unix atau mirip Unix yang terpasang paket asli libfuse. Jika Anda menjalankannya di dalam kontainer docker, kontainer docker tersebut harus diawali dengan bendera --privileged atau dengan --cap-add SYS_ADMIN --device /dev/fuse.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

random_split

Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.

Himpunan data pertama yang dikembalikan berisi kira-kira percentage dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.

random_split(percentage, seed=None)

Parameter

Nama	Deskripsi
percentage Diperlukan	float Persentase perkiraan untuk membagi himpunan data. Ini harus berupa angka antara 0,0 dan 1,0.
seed Diperlukan	int Nilai awal opsional yang digunakan untuk generator acak.

Mengembalikan

Jenis	Deskripsi
(FileDataset, FileDataset)	Mengembalikan tuple objek FileDataset baru yang mewakili dua himpunan data setelah pemisahan.

skip

Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.

skip(count)

Parameter

Nama	Deskripsi
count Diperlukan	int Jumlah aliran file yang akan dilewati.

Mengembalikan

Jenis	Deskripsi
FileDataset	Mengembalikan objek FileDataset baru yang mewakili himpunan data dengan aliran file dilewati.

take

Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.

take(count)

Parameter

Nama	Deskripsi
count Diperlukan	int Jumlah aliran file yang akan diambil.

Mengembalikan

Jenis	Deskripsi
FileDataset	Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel.

take_sample

Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.

take_sample(probability, seed=None)

Parameter

Nama	Deskripsi
probability Diperlukan	float Peluang aliran file yang disertakan dalam sampel.
seed Diperlukan	int Nilai awal opsional yang digunakan untuk generator acak.

Mengembalikan

Jenis	Deskripsi
FileDataset	Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel.

to_path

Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.

to_path()

Mengembalikan

Jenis	Deskripsi
list(str)	Mengembalikan array jalur file.

Keterangan

Jalur file adalah jalur relatif untuk file lokal saat aliran file diunduh atau dipasang.

Awalan umum akan dihapus dari jalur file berdasarkan cara sumber data ditentukan untuk membuat himpunan data. Contohnya:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']

Bagikan melalui

FileDataset Kelas

Konstruktor

Keterangan

Metode

as_cache

Parameter

Mengembalikan

as_download

Parameter

Keterangan

as_hdfs

Keterangan

as_mount

Parameter

Keterangan

download

Parameter

Mengembalikan

Keterangan

file_metadata

Parameter

Mengembalikan

filter

Parameter

Mengembalikan

Keterangan

hydrate

Parameter

Mengembalikan

mount

Parameter

Mengembalikan

Keterangan

random_split

Parameter

Mengembalikan

skip

Parameter

Mengembalikan

take

Parameter

Mengembalikan

take_sample

Parameter

Mengembalikan

to_path

Mengembalikan

Keterangan

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: