Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Berlaku untuk:SQL Server
Azure Synapse Analytics
Sistem Platform Analitik (PDW)
PolyBase memungkinkan virtualisasi data untuk SQL Server.
Apa itu PolyBase?
PolyBase memungkinkan instans SQL Server Anda untuk mengkueri data dengan Transact-SQL (T-SQL) langsung dari SQL Server, Oracle, Teradata, MongoDB, kluster Hadoop, Cosmos DB, dan penyimpanan objek yang kompatibel dengan S3 tanpa menginstal perangkat lunak koneksi klien secara terpisah. Anda juga dapat menggunakan konektor ODBC generik untuk terhubung ke penyedia tambahan menggunakan driver ODBC pihak ketiga. PolyBase memungkinkan kueri T-SQL menggabungkan data dari sumber eksternal ke tabel relasional dalam instans SQL Server.
PolyBase juga mendukung kueri format data berbasis file semi terstruktur dan terstruktur seperti file CSV, Parquet, JSON, dan Delta Lake. Ini memungkinkan integrasi data berbasis file yang mulus ke dalam alur kerja T-SQL Anda.
Kasus penggunaan utama untuk virtualisasi data dengan fitur PolyBase adalah untuk memungkinkan data tetap berada di lokasi dan format aslinya. Anda dapat memvirtualisasi data eksternal melalui instans SQL Server, sehingga dapat dikueri di tempat seperti tabel lain di SQL Server. Proses ini meminimalkan kebutuhan proses ETL untuk pergerakan data. Skenario virtualisasi data ini dimungkinkan dengan penggunaan konektor PolyBase.
Produk dan layanan SQL yang didukung
PolyBase menyediakan fungsionalitas yang sama ini untuk produk SQL berikut dari Microsoft:
SQL Server 2016 (13.x) dan versi yang lebih baru (Windows)
SQL Server 2019 (15.x) dan versi yang lebih baru (Windows dan Linux)
Azure SQL Managed Instance, untuk detailnya, tinjau Virtualisasi data dengan Azure SQL Managed Instance
Azure SQL Database, untuk detailnya, tinjau Virtualisasi data dengan Azure SQL Database (Pratinjau)
SQL Server Analytics Platform System (PDW)
Azure Synapse Analytics (untuk kumpulan SQL khusus)
- Virtualisasi data di Azure Synapse Analytics tersedia dalam dua mode, PolyBase dan asli. Untuk informasi selengkapnya, lihat Menggunakan tabel eksternal dengan Synapse SQL.
Penyempurnaan PolyBase pada SQL Server 2025
| Baru pada SQL Server 2025 (17.x) | Detail |
|---|---|
| Dukungan asli untuk CSV, Parquet, & Delta 1 | Penginstalan PolyBase Query Service for External Data tidak lagi diperlukan untuk menggunakan OPENROWSET, , CREATE EXTERNAL TABLEatau CREATE EXTERNAL TABLE AS SELECT dengan jenis data eksternal berikut: Parquet, Delta, Azure Blob Storage (ABS), Azure Data Lake Storage (ADLS), atau S3-Compatible Object Storage. |
| Menggunakan sumber data ODBC generik di Linux | Untuk informasi selengkapnya, lihat Mengonfigurasi PolyBase untuk mengakses data eksternal dengan jenis generik ODBC. |
| Dukungan TDS 8.0 | PolyBase menggunakan konfigurasi aman secara default dengan Driver ODBC untuk SQL Server versi 18 dan Encrypt=Yes (Wajib). Tidak seperti fitur SQL Server lainnya, PolyBase mendukung skenario sertifikat mandiri. Untuk menerapkan TLS 1.3 dan enkripsi ketat dengan TDS 8.0, atur Encrypt=Strict dan TrustServerCertificate=No. Untuk informasi selengkapnya, lihat MEMBUAT SUMBER DATA EKSTERNAL - PILIHAN_KONEKSI. Tinjau Perubahan besar pada fitur Engine Database di SQL Server 2025. |
| Identitas yang Dikelola | Identitas Terkelola tersedia untuk SQL Server yang diaktifkan oleh Azure Arc dan SQL Server 2025 di Azure VM. |
1 Pada SQL Server 2025 (17.x), PolyBase Query Service untuk Data Eksternal masih diperlukan untuk terhubung dengan database lain. Misalnya: SQL Server, Oracle, DB2, Teradata, MongoDB, atau ODBC.
Penyempurnaan PolyBase SQL Server 2022
| Baru menggunakan SQL Server 2022 (16.x) | Detail |
|---|---|
| Penyimpanan objek yang kompatibel dengan S3 | SQL Server 2022 (16.x) menambahkan konektor baru, penyimpanan objek yang kompatibel dengan S3, menggunakan S3 REST API. Anda dapat menggunakan OPENROWSET dan CREATE EXTERNAL TABLE untuk mengkueri file data di penyimpanan objek yang kompatibel dengan S3. |
| Beberapa konektor terpisah dari layanan PolyBase | Konektor penyimpanan objek yang kompatibel dengan S3, ADSL Gen2, dan Azure Blob Storage, tidak lagi bergantung pada layanan PolyBase. Layanan PolyBase masih harus berjalan untuk mendukung konektivitas dengan Oracle, Teradata, MongoDB, dan Generic ODBC. Fitur PolyBase masih harus diinstal pada instans SQL Server Anda. |
| Format file Parquet | PolyBase sekarang mampu mengkueri data dari file Parquet yang disimpan di penyimpanan objek yang kompatibel dengan S3. Untuk informasi selengkapnya, lihat Virtualisasi file parkek di penyimpanan objek yang kompatibel dengan S3 dengan PolyBase. |
| Format tabel Delta | PolyBase sekarang mampu mengkueri data (baca-saja) dari format Tabel Delta yang disimpan pada penyimpanan objek yang kompatibel dengan S3, Akun Azure Storage V2, dan Azure Data Lake Storage Gen2. Untuk informasi selengkapnya, lihat Virtualisasi tabel delta dengan PolyBase |
| Buat Tabel Eksternal sebagai Pilih (CETAS) | PolyBase sekarang dapat menggunakan CETAS untuk membuat tabel eksternal lalu mengekspor, secara paralel, hasil pernyataan Transact-SQL SELECT ke Azure Data Lake Storage Gen2, Azure Storage Account V2, dan penyimpanan objek yang kompatibel dengan S3. Untuk informasi selengkapnya, lihat CREATE EXTERNAL TABLE AS SELECT (CETAS). |
Untuk fitur baru lainnya dari SQL Server 2022 (16.x), lihat Apa yang baru di SQL Server 2022.
Petunjuk / Saran
Untuk tutorial fitur dan kemampuan PolyBase di SQL Server 2022 (16.x), lihat Mulai menggunakan PolyBase di SQL Server 2022.
Konektor PolyBase
Fitur PolyBase menyediakan konektivitas ke sumber data eksternal berikut:
| Sumber data eksternal | SQL Server 2016-2019 dengan PolyBase | SQL Server 2022 (16.x) dengan PolyBase | APS PDW | Azure Synapse Analytics |
|---|---|---|---|---|
| Oracle, MongoDB, Teradata | Baca | Baca | Tidak. | Tidak. |
| Konektivitas Database Terbuka Generik | Baca (Hanya Windows) | Baca (Hanya Windows) | Tidak. | Tidak. |
| Azure Storage | Baca/Tulis | Baca/Tulis | Baca/Tulis | Baca/Tulis |
| Hadoop | Baca/Tulis | Tidak. | Baca/Tulis | Tidak. |
| SQL Server | Baca | Baca | Tidak. | Tidak. |
| Penyimpanan objek yang kompatibel dengan S3 | Tidak. | Baca/Tulis | Tidak. | Tidak. |
- SQL Server 2022 (16.x) dan versi yang lebih baru tidak mendukung Hadoop.
- SQL Server 2016 (13.x) memperkenalkan PolyBase dengan dukungan untuk koneksi ke Hadoop dan Azure Blob Storage.
- SQL Server 2019 (15.x) memperkenalkan lebih banyak konektor, termasuk SQL Server, Oracle, Teradata, dan MongoDB.
- SQL Server 2022 (16.x) memperkenalkan konektor penyimpanan yang kompatibel dengan S3.
- SQL Server 2019 (15.x) Pembaruan kumulatif 19 memperkenalkan dukungan untuk Oracle TNS.
- Pembaruan kumulatif SQL Server 2022 (16.x) 2 memperkenalkan dukungan untuk Oracle TNS.
Contoh konektor eksternal meliputi:
1 PolyBase mendukung dua penyedia Hadoop, Hortonworks Data Platform (HDP) dan Cloudera Distributed Hadoop (CDH), melalui SQL Server 2019. Dukungan SQL Server untuk sumber data eksternal HDFS Cloudera (CDP) dan Hortonworks (HDP) telah dihentikan, dan tidak disertakan dalam SQL Server 2022 (16.x) dan versi yang lebih baru. Untuk informasi selengkapnya, lihat Opsi big data di platform Microsoft SQL Server.
Untuk menggunakan PolyBase dalam instans SQL Server:
- Instal PolyBase di Windows atau Instal PolyBase di Linux.
- Dimulai dengan SQL Server 2019 (15.x), aktifkan PolyBase di sp_configure, jika perlu.
- Buat sumber data eksternal.
- Membuat tabel eksternal.
Integrasi Azure
Dengan bantuan polyBase yang mendasarinya, kueri T-SQL juga dapat mengimpor dan mengekspor data dari Azure Blob Storage. Selanjutnya, PolyBase memungkinkan Azure Synapse Analytics mengimpor dan mengekspor data dari Azure Data Lake Store, dan dari Azure Blob Storage.
Mengapa menggunakan PolyBase?
PolyBase memungkinkan Anda menggabungkan data dari instans SQL Server dengan data eksternal. Sebelum PolyBase mengizinkan menggabungkan data ke sumber data eksternal, Anda dapat:
- Transfer setengah data Anda sehingga semua data berada di satu lokasi.
- Kueri kedua sumber data, lalu tulis logika kueri kustom untuk menggabungkan dan mengintegrasikan data di tingkat klien.
PolyBase memungkinkan Anda menggunakan Transact-SQL untuk menggabungkan data.
PolyBase tidak mengharuskan Anda menginstal perangkat lunak tambahan ke lingkungan Hadoop Anda. Anda mengkueri data eksternal dengan menggunakan sintaks T-SQL yang sama yang digunakan untuk mengkueri tabel database. Tindakan dukungan yang diterapkan oleh PolyBase semuanya terjadi secara transparan. Penulis kueri tidak memerlukan pengetahuan apa pun tentang sumber eksternal.
Penggunaan PolyBase
PolyBase mengaktifkan skenario berikut di SQL Server:
- Akses data tanpa hambatan: Kueri RDBM lain atau file eksternal seperti tabel CSV, Parquet, dan Delta Lake menggunakan T-SQL seolah-olah tabel asli.
- Pemindahan data dingin: Namun tetap mudah diakses.
- Produktivitas yang ditingkatkan: Kurangi waktu dan upaya yang diperlukan untuk mengintegrasikan dan menganalisis data dari berbagai sumber.
- Efisiensi biaya: Minimalkan kebutuhan akan replikasi data dan biaya penyimpanan yang terkait dengan metode integrasi data tradisional.
- Wawasan real-time: Lakukan kueri dan capaian wawasan data secara real-time tanpa penundaan yang disebabkan oleh pergerakan atau sinkronisasi data.
- Keamanan: Gunakan fitur keamanan SQL Server untuk izin terperinci, manajemen kredensial, dan kontrol.
Performa
Tidak ada batasan keras untuk jumlah file atau jumlah data yang dapat dikueri. Performa kueri bergantung pada jumlah data, format data, cara data diatur, dan kompleksitas kueri dan gabungan.
Untuk informasi selengkapnya tentang panduan performa dan rekomendasi untuk PolyBase, lihat Pertimbangan performa di PolyBase untuk SQL Server.
Tingkatkan ke SQL Server 2022
Mulai SQL Server 2022 (16.x) Hortonworks Data Platform (HDP) dan Cloudera Distributed Hadoop (CDH) tidak lagi didukung. Karena perubahan ini, Anda harus secara manual menghilangkan sumber data eksternal PolyBase yang dibuat pada versi SQL Server sebelumnya yang menggunakan TYPE = HADOOP atau Azure Storage sebelum bermigrasi ke SQL Server 2022 (16.x) atau yang lebih baru. Menghilangkan sumber data eksternal juga memerlukan penghapusan objek database terkait, seperti kredensial cakupan database dan tabel eksternal.
Konektor Azure Storage harus diubah berdasarkan tabel referensi berikut:
| Sumber data eksternal | Dari | Untuk |
|---|---|---|
| Azure Blob Storage | wasb[s] |
abs |
| ADLS Gen2 | abfs[s] |
adls |
Memulai
Sebelum menggunakan PolyBase, Anda harus menginstal PolyBase di Windows atau menginstal PolyBase di Linux, dan mengaktifkan PolyBase di sp_configure jika perlu.
Untuk tutorial fitur dan kemampuan PolyBase, lihat Mulai menggunakan PolyBase di SQL Server 2022.
Untuk tutorial selengkapnya tentang berbagai sumber data eksternal, tinjau:
- Hadoop
- Penyimpanan Blob Azure
- SQL Server
- Oracle
- Teradata
- MongoDB
- Jenis generik ODBC
- Penyimpanan objek yang kompatibel dengan S3
- File CSV
- File parquet
- Tabel Delta
Virtualisasi data di platform lain
Fitur virtualisasi data juga tersedia di platform lain:
- Menggunakan tabel eksternal dengan Synapse SQL
- Virtualisasi data dengan Azure SQL Managed Instance
- Virtualisasi data dengan Azure SQL Database (Pratinjau)
Konten terkait
- Mulai menggunakan PolyBase di SQL Server 2022
- OPENROWSET (T-SQL)
- BUAT TABEL EKSTERNAL (Transact-SQL)
- BUAT TABEL EKSTERNAL SEBAGAI PILIH (CETAS) (Transact-SQL)
- Pertimbangan performa di PolyBase untuk SQL Server
- Tanya jawab umum di PolyBase
- Memantau dan memecahkan masalah PolyBase
- Referensi PolyBase Transact-SQL