FileDatasetFactory Kelas
Berisi metode guna membuat himpunan data file untuk Azure Machine Learning.
FileDataset dibuat dari metode from_files yang ditentukan di kelas ini.
Untuk informasi selengkapnya tentang bekerja dengan himpunan data file, lihat buku catatan https://aka.ms/filedataset-samplenotebook.
- Warisan
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Metode
from_files |
Membuat FileDataset untuk mewakili aliran file. |
upload_directory |
Buat himpunan data dari direktori sumber. |
from_files
Membuat FileDataset untuk mewakili aliran file.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parameter
Jalur ke file sumber, yang dapat berupa nilai tunggal atau daftar string url (http[s]|abfs[s]|wasb[s]), DataPath objek, atau tuple dari Datastore dan jalur relatif. Perhatikan bahwa daftar jalur tidak dapat menyertakan url dan datastore secara bersamaan.
- validate
- bool
Menunjukkan apakah akan memvalidasi jika data dapat dimuat dari himpunan data yang dikembalikan. Default ke True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini.
- partition_format
- str
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.jsonl' di mana partisi tersebut menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '01-01-2019'.
- is_file
- bool
Menunjukkan apakah semua jalur input mengarah ke file. Mesin himpunan data secara default mencoba memeriksa apakah jalur input mengarah ke file. Atur tanda ini ke True ketika semua jalur input adalah File untuk mempercepat pembuatan Dataset.
Mengembalikan
Objek FileDataset.
Tipe hasil
Keterangan
from_files membuat objek kelas FileDataset, yang menentukan operasi untuk memuat aliran file dari jalur yang disediakan.
Agar data dapat diakses oleh Azure Machine Learning, file yang ditentukan oleh path
harus terletak di Datastore atau dapat diakses dengan URL web publik atau url Blob, ADLS Gen1, dan ADLS Gen2.
Token AAD pengguna akan digunakan dalam buku catatan atau program python lokal jika langsung memanggil salah satu fungsi ini: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identitas target komputasi akan digunakan dalam pekerjaan yang dikirimkan oleh Experiment.submit untuk autentikasi akses data. Pelajari selengkapnya:https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Buat himpunan data dari direktori sumber.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parameter
Diperlukan, jalur penyimpanan data tempat file akan diunggah.
- pattern
- str
Opsional, Jika disediakan, akan memfilter semua nama jalur yang cocok dengan pola yang diberikan, mirip dengan paket glob Python, mendukung '*', '?', dan rentang karakter yang diekspresikan dengan [].
- show_progress
- bool
Opsional, menunjukkan apakah akan menampilkan progres unggahan di konsol. Defaultnya diatur ke True.
Mengembalikan
Himpunan data yang terdaftar.
Tipe hasil
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk