TabularDatasetFactory Kelas

Berisi metode untuk membuat himpunan data tabular untuk Azure Machine Learning.

TabularDataset dibuat menggunakan metode from_* di kelas ini, misalnya, metode from_delimited_files.

Untuk informasi selengkapnya tentang bekerja dengan himpunan data tabular, lihat buku catatan https://aka.ms/tabulardataset-samplenotebook.

Warisan
builtins.object
TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Metode

from_delimited_files

Buat TabularDataset untuk mewakili data tabular dalam file pemisah (misalnya.CSV dan TSV).

from_json_lines_files

Buat TabularDataset untuk mewakili data tabular dalam file JSON Lines (http://jsonlines.org/).

from_parquet_files

Buat TabularDataset untuk mewakili data tabular dalam file Parquet.

from_sql_query

Buat TabularDataset untuk mewakili data tabular dalam database SQL.

register_dask_dataframe

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Membuat himpunan data dari kerangka data dask.

register_pandas_dataframe

Membuat himpunan data dari kerangka data pandas.

register_spark_dataframe

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Membuat himpunan data dari kerangka data spark.

from_delimited_files

Buat TabularDataset untuk mewakili data tabular dalam file pemisah (misalnya.CSV dan TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Diperlukan

Jalur ke file sumber, yang dapat berupa nilai tunggal atau daftar string url (http[s]|abfs[s]|wasb[s]), DataPath objek, atau tuple dari Datastore dan jalur relatif. Perhatikan bahwa daftar jalur tidak dapat menyertakan url dan datastore secara bersamaan.

validate
bool
Diperlukan

Boolean untuk memvalidasi apakah data dapat dimuat dari himpunan data yang dikembalikan. Default ke True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. Untuk menonaktifkan validasi, "infer_column_types" juga perlu diatur ke False.

include_path
bool
Diperlukan

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari catatan tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

infer_column_types
bool
Diperlukan

Boolean untuk menyimpulkan jenis data kolom. Default ke True. Inferensi jenis mengharuskan sumber data dapat diakses dari komputasi saat ini. Saat ini inferensi jenis hanya akan menarik 200 baris pertama. Jika data berisi beberapa jenis nilai, lebih baik menyediakan jenis yang diinginkan untuk mengambil alih melalui argumen set_column_types. Periksa bagian Komentar untuk sampel kode tentang set_column_types.

set_column_types
dict[str, DataType]
Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType.

separator
str
Diperlukan

Pemisah digunakan untuk membagi kolom.

header
bool atau PromoteHeadersBehavior
Diperlukan

Mengontrol cara header kolom dipromosikan saat membaca dari file. Default ke True untuk semua file yang memiliki header yang sama. File akan dibaca sebagai tidak memiliki header Saat header=False. Opsi lain dapat ditentukan dengan menggunakan nilai enumerasi PromoteHeadersBehavior.

partition_format
str
Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.csv' partisinya menurut nama dan waktu departemen, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

support_multi_line
bool
Diperlukan

Secara default (support_multi_line=False), semua ganti baris, termasuk nilai bidang kuotasi, akan diinterpretasikan sebagai pemisah rekaman. Membaca data dengan cara ini lebih cepat dan lebih dioptimalkan untuk eksekusi bersamaan pada beberapa inti CPU. Namun, ini dapat mengakibatkan diam-diam menghasilkan lebih banyak rekaman dengan nilai bidang yang tidak sejajar. Ini harus diatur ke True ketika file yang dibatasi diketahui berisi ganti baris yang dikutip.

Mengingat file csv ini misalnya, data akan dibaca secara berbeda berdasarkan support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Diperlukan

Tentukan apakah nilai bidang kosong harus dimuat sebagai untai (karakter) kosong. Default (False) akan membaca nilai bidang kosong sebagai null. Meneruskan ini sebagai True akan membaca nilai bidang kosong sebagai untai (karakter) kosong. Jika nilai dikonversi ke numerik atau tanggalwaktu maka ini tidak berpengaruh, karena nilai kosong akan dikonversi menjadi null.

encoding
str
Diperlukan

Tentukan pengodean file. Pengodean yang didukung adalah 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' and 'windows1252'

Mengembalikan

Kembalikan objek TabularDataset.

Tipe hasil

Keterangan

from_delimited_files memuat objek kelasTabularDataset, yang mendefinisikan operasi untuk memuat data dari file pemisah ke dalam representasi tabular.

Agar data dapat diakses oleh Azure Machine Learning, file yang dibatasi yang ditentukan oleh jalur harus terletak di atau di Datastore belakang url web publik atau url Blob, ADLS Gen1, dan ADLS Gen2. Token AAD pengguna akan digunakan dalam buku catatan atau program python lokal jika langsung memanggil salah satu fungsi ini: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identitas target komputasi akan digunakan dalam pekerjaan yang dikirimkan oleh Experiment.submit untuk autentikasi akses data. Pelajari selengkapnya:https://aka.ms/data-access

Jenis data kolom secara default disimpulkan dari data di file pemisah. Memberikan set_column_types akan mengambil alih jenis data untuk kolom yang ditentukan di TabularDataset yang dikembalikan.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Buat TabularDataset untuk mewakili data tabular dalam file JSON Lines (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Diperlukan

Jalur ke file sumber, yang dapat berupa nilai tunggal atau daftar string url (http[s]|abfs[s]|wasb[s]), DataPath objek, atau tuple dari Datastore dan jalur relatif. Perhatikan bahwa daftar jalur tidak dapat menyertakan url dan datastore secara bersamaan.

validate
bool
Diperlukan

Boolean untuk memvalidasi apakah data dapat dimuat dari himpunan data yang dikembalikan. Default ke True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini.

include_path
bool
Diperlukan

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari catatan tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

set_column_types
dict[str, DataType]
Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType

partition_format
str
Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.jsonl' partisinya adalah menurut nama dan waktu departemen, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

invalid_lines
str
Diperlukan

Cara menangani baris yang merupakan json tidak valid. Nilai yang didukung adalah 'error' dan 'drop'.

encoding
str
Diperlukan

Tentukan pengodean file. Pengodean yang didukung adalah 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' and 'windows1252'

Mengembalikan

Kembalikan objek TabularDataset.

Tipe hasil

Keterangan

from_json_lines_files membuat objek kelas TabularDataset, yang mendefinisikan operasi untuk memuat data dari file JSON Lines ke dalam representasi tabular.

Agar data dapat diakses oleh Azure Machine Learning, file JSON Lines yang ditentukan oleh jalur harus berada di atau di Datastore belakang url web publik atau url Blob, ADLS Gen1, dan ADLS Gen2. Token AAD pengguna akan digunakan dalam buku catatan atau program python lokal jika langsung memanggil salah satu fungsi ini: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identitas target komputasi akan digunakan dalam pekerjaan yang dikirimkan oleh Experiment.submit untuk autentikasi akses data. Pelajari selengkapnya:https://aka.ms/data-access

Jenis data kolom dibaca dari jenis data yang disimpan data file JSON Lines. Memberikan set_column_types akan mengambil alih jenis data untuk kolom yang ditentukan di TabularDataset yang dikembalikan.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Buat TabularDataset untuk mewakili data tabular dalam file Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Diperlukan

Jalur ke file sumber, yang dapat berupa nilai tunggal atau daftar string url (http[s]|abfs[s]|wasb[s]), DataPath objek, atau tuple dari Datastore dan jalur relatif. Perhatikan bahwa daftar jalur tidak dapat menyertakan url dan datastore secara bersamaan.

validate
bool
Diperlukan

Boolean untuk memvalidasi apakah data dapat dimuat dari himpunan data yang dikembalikan. Default ke True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini.

include_path
bool
Diperlukan

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari catatan tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

set_column_types
dict[str, DataType]
Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType.

partition_format
str
Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

Mengembalikan

Kembalikan objek TabularDataset.

Tipe hasil

Keterangan

from_parquet_files membuat objek kelas TabularDataset, yang mendefinisikan operasi untuk memuat data dari file Parquet ke dalam representasi tabular.

Agar data dapat diakses oleh Azure Machine Learning, file Parquet yang ditentukan oleh jalur harus terletak di atau di Datastore belakang url web publik atau url Blob, ADLS Gen1, dan ADLS Gen2. Token AAD pengguna akan digunakan dalam buku catatan atau program python lokal jika langsung memanggil salah satu fungsi ini: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identitas target komputasi akan digunakan dalam pekerjaan yang dikirimkan oleh Experiment.submit untuk autentikasi akses data. Pelajari selengkapnya:https://aka.ms/data-access

Jenis data kolom dibaca dari jenis data yang disimpan dalam file Parquet. Memberikan set_column_types akan mengambil alih jenis data untuk kolom yang ditentukan di TabularDataset yang dikembalikan.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Buat TabularDataset untuk mewakili data tabular dalam database SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parameter

query
Union[DataPath, (Datastore, str)]
Diperlukan

Penyimpanan data jenis SQL dan kueri.

validate
bool
Diperlukan

Boolean untuk memvalidasi apakah data dapat dimuat dari himpunan data yang dikembalikan. Default ke True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini.

set_column_types
dict[str, DataType]
Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType.

query_timeout
Diperlukan

Atur waktu tunggu (dalam detik) sebelum menghentikan upaya untuk mengeksekusi perintah dan menghasilkan kesalahan. Defaultnya adalah 30 detik.

Mengembalikan

Kembalikan objek TabularDataset.

Tipe hasil

Keterangan

from_sql_query membuat objek kelas TabularDataset, yang mendefinisikan operasi untuk memuat data dari database SQL ke dalam representasi tabular. Saat ini, kami hanya mendukung MSSQLDataSource.

Agar data dapat diakses oleh Azure Machine Learning, database SQL yang ditentukan oleh query harus berada di Datastore dan jenis penyimpanan data harus dari jenis SQL.

Jenis data kolom dibaca dari jenis data dalam hasil kueri SQL. Menyediakan set_column_types akan mengambil alih jenis data untuk kolom yang ditentukan dalam TabularDataset yang dikembalikan.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Membuat himpunan data dari kerangka data dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameter

dataframe
<xref:dask.dataframe.core.DataFrame>
Diperlukan

Diperlukan, dask kerangka data yang akan diunggah.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Diperlukan

Diperlukan, jalur datastore tempat tujuan data kerangka data parquet akan diunggah. Folder panduan akan dibuat di bawah jalur target untuk menghindari konflik.

name
str
Diperlukan

Diperlukan, nama himpunan data yang terdaftar.

description
str
Diperlukan

Opsional. Deskripsi teks himpunan data. Default ke None.

tags
dict[str, str]
Diperlukan

Opsional. Kamus tag nilai kunci untuk memberikan himpunan data. Default ke None.

show_progress
bool
Diperlukan

Opsional, menunjukkan apakah akan menampilkan kemajuan unggahan di konsol. Defaultnya diatur ke True.

Mengembalikan

Himpunan data yang terdaftar.

Tipe hasil

register_pandas_dataframe

Membuat himpunan data dari kerangka data pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parameter

dataframe
DataFrame
Diperlukan

Diperlukan, dalam kerangka data memori yang akan diunggah.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Diperlukan

Diperlukan, jalur datastore tempat tujuan data kerangka data parquet akan diunggah. Folder panduan akan dibuat di bawah jalur target untuk menghindari konflik.

name
str
Diperlukan

Diperlukan, nama himpunan data yang terdaftar.

description
int
Diperlukan

Opsional. Deskripsi teks himpunan data. Default ke None.

tags
dict[str, str]
Diperlukan

Opsional. Kamus tag nilai kunci untuk memberikan himpunan data. Default ke None.

show_progress
bool
Diperlukan

Opsional, menunjukkan apakah akan menampilkan kemajuan unggahan di konsol. Defaultnya diatur ke True.

row_group_size
Diperlukan

Pilihan. Ukuran maksimum grup baris yang akan digunakan saat menulis file parket. Default ke Tidak Ada.

make_target_path_unique
Diperlukan

Opsional, menunjukkan apakah subfolder unik harus dibuat di target. Defaultnya diatur ke True.

Mengembalikan

Himpunan data terdaftar.

Tipe hasil

register_spark_dataframe

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Membuat himpunan data dari kerangka data spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameter

dataframe
DataFrame
Diperlukan

Diperlukan, dalam kerangka data memori yang akan diunggah.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Diperlukan

Diperlukan, jalur datastore tempat tujuan data kerangka data parquet akan diunggah. Folder panduan akan dibuat di bawah jalur target untuk menghindari konflik.

name
str
Diperlukan

Diperlukan, nama himpunan data yang terdaftar.

description
str
Diperlukan

Opsional. Deskripsi teks himpunan data. Default ke None.

tags
dict[str, str]
Diperlukan

Opsional. Kamus tag nilai kunci untuk memberikan himpunan data. Default ke None.

show_progress
bool
Diperlukan

Opsional, menunjukkan apakah akan menampilkan kemajuan unggahan di konsol. Defaultnya diatur ke True.

Mengembalikan

Himpunan data yang terdaftar.

Tipe hasil