FileDataset Kelas

Mewakili kumpulan referensi file di penyimpanan data atau URL publik yang akan digunakan dalam Azure Machine Learning.

FileDataset mendefinisikan serangkaian operasi yang dievaluasi dengan lamban dan tidak dapat diubah untuk memuat data dari sumber data ke dalam aliran file. Data tidak dimuat dari sumber hingga FileDataset diminta untuk mengirimkan data.

FileDataset dibuat menggunakan metode from_files dari kelas FileDatasetFactory.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data file, lihat https://aka.ms/filedataset-samplenotebook.

Inisialisasi objek FileDataset.

Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan FileDatasetFactory kelas .

Warisan
FileDataset

Konstruktor

FileDataset()

Keterangan

FileDataset dapat digunakan sebagai input dari percobaan yang dijalankan. Ini juga dapat didaftarkan ke ruang kerja dengan nama tertentu dan diambil dengan nama tersebut.

FileDataset dapat disubset dengan menerapkan berbagai metode subsetting yang tersedia pada kelas ini. Hasil subsetting selalu FileDataset baru.

Pemuatan data aktual terjadi ketika FileDataset diminta untuk mengirimkan data ke mekanisme penyimpanan lain (misalnya file yang diunduh atau dipasang ke jalur lokal).

Metode

as_cache

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.

as_download

Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_mount

Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang.

Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
download

Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.

file_metadata

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata.

Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek

filter

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.

hydrate

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.

mount

Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.

random_split

Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.

Himpunan data pertama yang dikembalikan berisi kira-kira percentage dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.

skip

Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.

take

Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.

take_sample

Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.

to_path

Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.

as_cache

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.

as_cache(datacache_store)

Parameter

datacache_store
DatacacheStore
Diperlukan

datacachestore yang akan digunakan untuk menghidrasi.

Mengembalikan

Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi.

Tipe hasil

as_download

Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parameter

path_on_compute
str
nilai default: None

Jalur target pada komputasi untuk menyediakan data.

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_hdfs()

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.

as_mount

Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang.

Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parameter

path_on_compute
str
nilai default: None

Jalur target pada komputasi untuk menyediakan data.

Keterangan

Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

download

Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parameter

target_path
str
Diperlukan

Direktori lokal untuk mengunduh file. Jika Tidak Ada, data akan diunduh ke direktori sementara.

overwrite
bool
Diperlukan

Menunjukkan apakah akan menimpa file yang ada. Defaultnya adalah False. File yang ada akan ditimpa jika overwrite diatur ke True; jika tidak, pengecualian akan diajukan.

ignore_not_found
bool
Diperlukan

Menunjukkan apakah unduhan akan gagal jika beberapa file yang ditunjukkan oleh himpunan data tidak ditemukan. Defaultnya adalah False. Unduhan akan gagal jika unduhan file gagal karena alasan apa pun jika ignore_not_found diatur ke False; jika tidak, peringatan akan dicatat untuk kesalahan tidak ditemukan dan unduhan akan berhasil selama tidak ada jenis kesalahan lain yang ditemukan.

Mengembalikan

Mengembalikan array jalur file untuk setiap file yang diunduh.

Tipe hasil

Keterangan

Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.

file_metadata

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata.

Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek

file_metadata(col)

Parameter

col
str
Diperlukan

Nama kolom

Mengembalikan

Menampilkan ekspresi yang mengambil nilai dalam kolom yang ditentukan.

Tipe hasil

<xref:azureml.dataprep.api.expression.RecordFieldExpression>

filter

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.

filter(expression)

Parameter

expression
<xref:azureml.dataprep.api.expression.Expression>
Diperlukan

Ekspresi yang akan dievaluasi.

Mengembalikan

Himpunan data yang dimodifikasi (tidak terdaftar).

Tipe hasil

Keterangan

Ekspresi dimulai dengan mengindeks Dataset dengan nama kolom. Ekspresi mendukung berbagai fungsi dan operator dan dapat digabungkan menggunakan operator logis. Ekspresi yang dihasilkan akan dievaluasi dengan lambat untuk setiap baris ketika terjadi penarikan data dan bukan di tempat yang ditentukan.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.

hydrate(datacache_store, replica_count=None)

Parameter

datacache_store
DatacacheStore
Diperlukan

datacachestore yang akan digunakan untuk menghidrasi.

replica_count
<xref:Int>, <xref:optional>
Diperlukan

Jumlah replika yang akan dihidrasi.

Mengembalikan

Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi.

Tipe hasil

mount

Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.

mount(mount_point=None, **kwargs)

Parameter

mount_point
str
Diperlukan

Direktori lokal untuk memasang file ke. Jika Tidak Ada, data akan dipasang ke direktori sementara, yang dapat Anda temukan melalui panggilan metode instans MountContext.mount_point.

Mengembalikan

Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan.

Tipe hasil

<xref:<xref:MountContext: the context manager. Upon entering the context manager>, <xref:the dataflow will bemounted to the mount_point. Upon exit>, <xref:it will remove the mount point and clean up the daemon processused to mount the dataflow.>>

Keterangan

Manajer konteks akan dikembalikan untuk mengelola siklus hidup pemasangan. Untuk memasang, Anda harus memasukkan manajer konteks dan melepas pemasangan, keluar dari manajer konteks.

Pemasangan hanya didukung pada sistem operasi Unix atau mirip Unix yang terpasang paket asli libfuse. Jika Anda menjalankannya di dalam kontainer docker, kontainer docker tersebut harus diawali dengan bendera --privileged atau dengan --cap-add SYS_ADMIN --device /dev/fuse.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.

random_split

Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.

Himpunan data pertama yang dikembalikan berisi kira-kira percentage dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.

random_split(percentage, seed=None)

Parameter

percentage
float
Diperlukan

Persentase perkiraan untuk membagi himpunan data. Ini harus berupa angka antara 0,0 dan 1,0.

seed
int
Diperlukan

Nilai awal opsional yang digunakan untuk generator acak.

Mengembalikan

Mengembalikan tuple objek FileDataset baru yang mewakili dua himpunan data setelah pemisahan.

Tipe hasil

skip

Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.

skip(count)

Parameter

count
int
Diperlukan

Jumlah aliran file yang akan dilewati.

Mengembalikan

Mengembalikan objek FileDataset baru yang mewakili himpunan data dengan aliran file dilewati.

Tipe hasil

take

Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.

take(count)

Parameter

count
int
Diperlukan

Jumlah aliran file yang akan diambil.

Mengembalikan

Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel.

Tipe hasil

take_sample

Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.

take_sample(probability, seed=None)

Parameter

probability
float
Diperlukan

Peluang aliran file yang disertakan dalam sampel.

seed
int
Diperlukan

Nilai awal opsional yang digunakan untuk generator acak.

Mengembalikan

Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel.

Tipe hasil

to_path

Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.

to_path()

Mengembalikan

Mengembalikan array jalur file.

Tipe hasil

Keterangan

Jalur file adalah jalur relatif untuk file lokal saat aliran file diunduh atau dipasang.

Awalan umum akan dihapus dari jalur file berdasarkan cara sumber data ditentukan untuk membuat himpunan data. Contohnya:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']