Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Berlaku untuk:✅ Warehouse di Microsoft Fabric
Fungsi OPENROWSET memungkinkan Anda membaca konten file Parquet atau CSV dan mengembalikan data sebagai sekumpulan baris. File dapat disimpan di Azure Blob Storage, Azure Data Lake Storage, atau Fabric OneLake.
Important
Membaca file dari penyimpanan Fabric OneLake menggunakan fungsi OPENROWSET saat ini dalam pratinjau.
Anda dapat menggunakan fitur ini untuk memeriksa konten file sebelum memuatnya ke dalam tabel gudang data Anda. Dengan OPENROWSET, Anda dapat dengan mudah menjelajahi file yang Anda serap ke dalam Fabric Warehouse Anda, memahami kolom yang Anda serap, dan menentukan jenisnya.
Untuk informasi dan contoh selengkapnya tentang mengkueri data eksternal, lihat Mengkueri file data lake eksternal dengan menggunakan Fabric Data Warehouse atau titik akhir analitik SQL.
Setelah memahami data, Anda dapat membuat tabel yang akan digunakan untuk menyimpan konten file yang diserap.
Telusuri file Parquet menggunakan fungsi OPENROWSET
Dalam contoh pertama, kami melakukan pemeriksaan data dari sumber Parquet.
Gunakan skrip berikut untuk membaca data sampel dari sebuah file dengan menggunakan fungsi OPENROWSET(BULK) dari sumber Parquet:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet') AS data
Karena data ini tersedia untuk umum dan tidak memerlukan autentikasi, Anda dapat dengan mudah menyalin kueri ini ke gudang Fabric Anda dan menjalankannya tanpa perubahan apa pun.
Tidak diperlukan detail autentikasi.
Anda tidak perlu menentukan opsi FORMAT, karena fungsi OPENROWSET mengasumsikan Anda membaca format Parquet berdasarkan ekstensi file .parquet di URI.
Telusuri file CSV menggunakan fungsi OPENROWSET
Dalam contoh kedua, kami memeriksa data dari file CSV. Gunakan kode berikut untuk membaca data sampel dari file CSV menggunakan fungsi OPENROWSET(BULK):
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv') AS data
Karena data ini tersedia untuk umum dan tidak memerlukan autentikasi, Anda dapat dengan mudah menyalin kueri ini ke gudang Fabric Anda dan menjalankannya tanpa perubahan apa pun. Tidak diperlukan detail autentikasi.
Anda tidak perlu menentukan FORMAT opsi , karena OPENROWSET fungsi mengasumsikan Anda membaca CSV format berdasarkan .csv ekstensi file di URI.
Note
Dalam hasilnya, Anda mungkin melihat bahwa baris pertama dalam file ini berisi nama kolom alih-alih data. Dalam hal ini, Anda harus mengubah kueri menggunakan opsi HEADER_ROW untuk melewati baris dan menggunakannya hanya untuk nama kolom. Ini adalah bagian dari proses eksplorasi data, saat Anda secara bertahap menyesuaikan file hingga cocok dengan data yang mendasar.
Menelusuri file JSONL menggunakan fungsi OPENROWSET
Fungsi ini OPENROWSET(BULK) memungkinkan Anda menelusuri file JSON dalam format yang dibatasi baris:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.jsonl') AS data
Jika file berisi teks yang dibatasi baris di mana setiap baris mewakili dokumen JSON yang valid, OPENROWSET fungsi dapat digunakan untuk membacanya secara langsung.
Anda tidak perlu menentukan FORMAT opsi secara eksplisit.
OPENROWSET akan secara otomatis menyimpulkan format JSONL berdasarkan ekstensi file umum seperti .jsonl, , .ldjsonatau .ndjson di URI. Namun, jika Anda menggunakan ekstensi file yang berbeda untuk format ini, Anda harus menentukan FORMAT = 'jsonl' untuk memastikan penguraian yang benar.
Membaca file di Fabric OneLake
Fungsi ini OPENROWSET(BULK) memungkinkan Anda membaca file yang disimpan di Fabric OneLake. Jika file Anda disimpan di bagian File di lakehouse, Anda dapat membaca file ini menggunakan sintaks berikut:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://onelake.dfs.fabric.microsoft.com/<workspaceId>/<lakehouseId>/Files/latest/bing_covid-19_data.jsonl') AS data
Ganti <workspaceId> dan <lakehouseId> dengan GUID ruang kerja dan lakehouse yang dapat Anda temukan di URI ruang kerja Fabric. Pastikan Anda merujuk file pada bagian /Files di dalam lakehouse.
Important
Membaca file dari penyimpanan Fabric OneLake menggunakan fungsi OPENROWSET saat ini dalam pratinjau. Lihat batasan yang berlaku baik untuk COPY INTO dan OPENROWSET(BULK).
Membaca file teks khusus
Fungsi ini OPENROWSET(BULK) memungkinkan Anda menentukan berbagai opsi untuk membaca file teks kustom.
Misalnya, Anda dapat menentukan nilai untuk ROWTERMINATOR dan FIELDTERMINATOR untuk menunjukkan format file yang mendasar.
select *
from OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv',
FORMAT='CSV',
HEADER_ROW=True,
ROWTERMINATOR='\n',
FIELDTERMINATOR=','
) AS data
Dalam contoh ini, kami secara eksplisit menentukan bahwa kami membaca file dalam format CSV di mana setiap baris dipisahkan oleh baris baru dan setiap bidang dipisahkan oleh koma. Baris pertama berisi header, yang akan digunakan untuk nama kolom.
Menjelajahi metadata kolom
Dengan fungsi OPENROWSET, Anda dapat dengan mudah menampilkan kolom file dan jenisnya dengan menggabungkan kueri yang membaca data sampel dengan prosedur sp_describe_first_result_set:
EXEC sp_describe_first_result_set
N'SELECT TOP 0 *
FROM OPENROWSET(BULK ''https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet'') AS data';
Dalam contoh ini, sp_describe_first_result_set prosedur menjalankan kueri dengan OPENROWSET fungsi , yang tidak mengembalikan baris apa pun.
Kemudian, ia mengambil skema kolom dari kueri internal ini dan mengembalikan skema kolom tersebut sebagai hasil dari prosedur.
Anda dapat menggunakan skema kolom ini untuk menentukan struktur tabel tujuan dalam CREATE TABLE pernyataan tempat Anda menyerap data Anda.
Sebagai alternatif, Anda dapat menggunakan hasil ini untuk menentukan jenis yang lebih tepat untuk hasil OPENROWSET fungsi, seperti yang ditunjukkan dalam contoh berikut.
Tentukan skema fungsi OPENROWSET
Fungsi OPENROWSET(BULK) mengembalikan perkiraan jenis kolom berdasarkan sampel data.
Jika sampel tidak representatif, Anda mungkin mendapatkan jenis yang tidak terduga atau ukurannya.
Jika Anda mengetahui jenis kolom dalam file, Anda dapat secara eksplisit menentukan skema kolom menggunakan klausa WITH:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv') AS data
WITH (updated date,
load_time datetime2,
deaths_change smallint,
id int,
confirmed int,
confirmed_change int,
deaths int,
recovered int,
recovered_change int,
latitude float,
longitude float,
iso2 varchar(8000),
iso3 varchar(8000),
country_region varchar(8000),
admin_region_1 varchar(8000),
iso_subdivision varchar(8000),
admin_region_2 varchar(8000)
) AS data;
Alih-alih menebak jenis kolom, fungsi OPENROWSET(BULK) akan secara eksplisit menetapkan jenis yang disediakan dalam klausa WITH.
Dengan cara ini Anda dapat menentukan jenis yang lebih tepat, yang dapat meningkatkan performa kueri Anda.
Langkah selanjutnya
Setelah menyelesaikan eksplorasi file dan membuat tabel tujuan, Anda dapat melanjutkan penyerapan menggunakan salah satu metode berikut: