FileDataset Kelas
Mewakili kumpulan referensi file di penyimpanan data atau URL publik yang akan digunakan dalam Azure Machine Learning.
FileDataset mendefinisikan serangkaian operasi yang dievaluasi dengan lamban dan tidak dapat diubah untuk memuat data dari sumber data ke dalam aliran file. Data tidak dimuat dari sumber hingga FileDataset diminta untuk mengirimkan data.
FileDataset dibuat menggunakan metode from_files dari kelas FileDatasetFactory.
Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data file, lihat https://aka.ms/filedataset-samplenotebook.
Inisialisasi objek FileDataset.
Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan FileDatasetFactory kelas .
- Warisan
-
FileDataset
Konstruktor
FileDataset()
Keterangan
FileDataset dapat digunakan sebagai input dari percobaan yang dijalankan. Ini juga dapat didaftarkan ke ruang kerja dengan nama tertentu dan diambil dengan nama tersebut.
FileDataset dapat disubset dengan menerapkan berbagai metode subsetting yang tersedia pada kelas ini. Hasil subsetting selalu FileDataset baru.
Pemuatan data aktual terjadi ketika FileDataset diminta untuk mengirimkan data ke mekanisme penyimpanan lain (misalnya file yang diunduh atau dipasang ke jalur lokal).
Metode
as_cache |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data. |
as_download |
Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh. Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.
|
as_hdfs |
Atur mode ke hdfs. Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.
|
as_mount |
Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang. Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.
|
download |
Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal. |
file_metadata |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata. Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek |
filter |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja. |
hydrate |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store. |
mount |
Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal. |
random_split |
Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan. Himpunan data pertama yang dikembalikan berisi kira-kira |
skip |
Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan. |
take |
Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan. |
take_sample |
Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan. |
to_path |
Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data. |
as_cache
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.
as_cache(datacache_store)
Parameter
Nama | Deskripsi |
---|---|
datacache_store
Diperlukan
|
datacachestore yang akan digunakan untuk menghidrasi. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi. |
as_download
Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh.
Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.
# Given a run submitted with dataset input like this:
dataset_input = dataset.as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parameter
Nama | Deskripsi |
---|---|
path_on_compute
|
Jalur target pada komputasi untuk menyediakan data. Nilai default: None
|
Keterangan
Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.
Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.
as_hdfs
Atur mode ke hdfs.
Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.
# Given a run submitted with dataset input like this:
dataset_input = dataset.as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_<hash>']
as_hdfs()
Keterangan
Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.
as_mount
Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang.
Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.
# Given a run submitted with dataset input like this:
dataset_input = dataset.as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parameter
Nama | Deskripsi |
---|---|
path_on_compute
|
Jalur target pada komputasi untuk menyediakan data. Nilai default: None
|
Keterangan
Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.
Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.
download
Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.
download(target_path=None, overwrite=False, ignore_not_found=False)
Parameter
Nama | Deskripsi |
---|---|
target_path
Diperlukan
|
Direktori lokal untuk mengunduh file. Jika Tidak Ada, data akan diunduh ke direktori sementara. |
overwrite
Diperlukan
|
Menunjukkan apakah akan menimpa file yang ada. Defaultnya adalah False. File yang ada akan ditimpa jika overwrite diatur ke True; jika tidak, pengecualian akan diajukan. |
ignore_not_found
Diperlukan
|
Menunjukkan apakah unduhan akan gagal jika beberapa file yang ditunjukkan oleh himpunan data tidak ditemukan. Defaultnya adalah False. Unduhan akan gagal jika unduhan file gagal karena alasan apa pun jika ignore_not_found diatur ke False; jika tidak, peringatan akan dicatat untuk kesalahan tidak ditemukan dan unduhan akan berhasil selama tidak ada jenis kesalahan lain yang ditemukan. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan array jalur file untuk setiap file yang diunduh. |
Keterangan
Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.
file_metadata
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata.
Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek
file_metadata(col)
Parameter
Nama | Deskripsi |
---|---|
col
Diperlukan
|
Nama kolom |
Mengembalikan
Jenis | Deskripsi |
---|---|
<xref:azureml.dataprep.api.expression.RecordFieldExpression>
|
Menampilkan ekspresi yang mengambil nilai dalam kolom yang ditentukan. |
filter
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.
filter(expression)
Parameter
Nama | Deskripsi |
---|---|
expression
Diperlukan
|
<xref:azureml.dataprep.api.expression.Expression>
Ekspresi yang akan dievaluasi. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Himpunan data yang dimodifikasi (tidak terdaftar). |
Keterangan
Ekspresi dimulai dengan mengindeks Dataset dengan nama kolom. Ekspresi mendukung berbagai fungsi dan operator dan dapat digabungkan menggunakan operator logis. Ekspresi yang dihasilkan akan dievaluasi dengan lambat untuk setiap baris ketika terjadi penarikan data dan bukan di tempat yang ditentukan.
(dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
dataset.file_metadata('Extension').starts_with('j')
hydrate
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.
hydrate(datacache_store, replica_count=None)
Parameter
Nama | Deskripsi |
---|---|
datacache_store
Diperlukan
|
datacachestore yang akan digunakan untuk menghidrasi. |
replica_count
Diperlukan
|
<xref:Int>, <xref:optional>
Jumlah replika yang akan dihidrasi. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi. |
mount
Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.
mount(mount_point=None, **kwargs)
Parameter
Nama | Deskripsi |
---|---|
mount_point
Diperlukan
|
Direktori lokal untuk memasang file ke. Jika Tidak Ada, data akan dipasang ke direktori sementara, yang dapat Anda temukan melalui panggilan metode instans MountContext.mount_point. |
Mengembalikan
Jenis | Deskripsi |
---|---|
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>
|
Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan. |
Keterangan
Manajer konteks akan dikembalikan untuk mengelola siklus hidup pemasangan. Untuk memasang, Anda harus memasukkan manajer konteks dan melepas pemasangan, keluar dari manajer konteks.
Pemasangan hanya didukung pada sistem operasi Unix atau mirip Unix yang terpasang paket asli libfuse. Jika Anda menjalankannya di dalam kontainer docker, kontainer docker tersebut harus diawali dengan bendera --privileged atau dengan --cap-add SYS_ADMIN --device /dev/fuse.
datastore = Datastore.get(workspace, 'workspaceblobstore')
dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
with dataset.mount() as mount_context:
# list top level mounted files and folders in the dataset
os.listdir(mount_context.mount_point)
# You can also use the start and stop methods
mount_context = dataset.mount()
mount_context.start() # this will mount the file streams
mount_context.stop() # this will unmount the file streams
Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.
random_split
Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.
Himpunan data pertama yang dikembalikan berisi kira-kira percentage
dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.
random_split(percentage, seed=None)
Parameter
Nama | Deskripsi |
---|---|
percentage
Diperlukan
|
Persentase perkiraan untuk membagi himpunan data. Ini harus berupa angka antara 0,0 dan 1,0. |
seed
Diperlukan
|
Nilai awal opsional yang digunakan untuk generator acak. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan tuple objek FileDataset baru yang mewakili dua himpunan data setelah pemisahan. |
skip
Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.
skip(count)
Parameter
Nama | Deskripsi |
---|---|
count
Diperlukan
|
Jumlah aliran file yang akan dilewati. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek FileDataset baru yang mewakili himpunan data dengan aliran file dilewati. |
take
Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.
take(count)
Parameter
Nama | Deskripsi |
---|---|
count
Diperlukan
|
Jumlah aliran file yang akan diambil. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel. |
take_sample
Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.
take_sample(probability, seed=None)
Parameter
Nama | Deskripsi |
---|---|
probability
Diperlukan
|
Peluang aliran file yang disertakan dalam sampel. |
seed
Diperlukan
|
Nilai awal opsional yang digunakan untuk generator acak. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel. |
to_path
Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.
to_path()
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan array jalur file. |
Keterangan
Jalur file adalah jalur relatif untuk file lokal saat aliran file diunduh atau dipasang.
Awalan umum akan dihapus dari jalur file berdasarkan cara sumber data ditentukan untuk membuat himpunan data. Contohnya:
datastore = Datastore.get(workspace, 'workspaceblobstore')
dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
print(dataset.to_path())
# ['year-2018/1.jpg'
# 'year-2018/2.jpg'
# 'year-2019/1.jpg']
dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')
print(dataset.to_path())
# ['/green_tripdata_2013-08.csv']