Sdílet prostřednictvím


Virtualizace dat pomocí PolyBase na SQL Serveru

Platí pro:SQL ServerAzure Synapse AnalyticsAnalytics Platform System (PDW)

PolyBase umožňuje virtualizaci dat pro SQL Server.

Co je PolyBase?

PolyBase umožňuje instanci SQL Serveru dotazovat data pomocí Transact-SQL (T-SQL) přímo z SQL Serveru, Oracle, Teradata, MongoDB, clusterů Hadoop, Cosmos DB a úložiště objektů kompatibilních s S3 bez samostatné instalace softwaru pro připojení klienta. Obecný konektor ODBC můžete také použít k připojení k dalším poskytovatelům pomocí ovladačů ODBC třetích stran. PolyBase umožňuje dotazům T-SQL spojit data z externích zdrojů do relačních tabulek v instanci SQL Serveru.

PolyBase také podporuje dotazování částečně strukturovaných a strukturovaných datových formátů, jako jsou soubory CSV, Parquet, JSON a Delta Lake. To umožňuje bezproblémovou integraci dat založených na souborech do pracovních postupů T-SQL.

Klíčovým případem použití virtualizace dat pomocí funkce PolyBase je umožnit, aby data zůstala v původním umístění a formátu. Externí data můžete virtualizovat prostřednictvím instance SQL Serveru, aby se na ni bylo možné dotazovat stejně jako na jakoukoli jinou tabulku v SQL Serveru. Tento proces minimalizuje potřebu procesů ETL pro přesun dat. Tento scénář virtualizace dat je možný s využitím konektorů PolyBase.

Podporované produkty a služby SQL

PolyBase poskytuje tyto stejné funkce pro následující produkty SQL od Microsoftu:

Vylepšení SQL Serveru 2025 PolyBase

Novinka systému SQL Server 2025 (17.x) Podrobnosti
Nativní podpora pro CSV, Parquet a Delta 1 Služba PolyBase Query Service pro externí data se už nevyžaduje k použití OPENROWSET, CREATE EXTERNAL TABLEnebo CREATE EXTERNAL TABLE AS SELECT s následujícími typy externích dat: Parquet, Delta, Azure Blob Storage (ABS), Azure Data Lake Storage (ADLS) nebo S3-Compatible Object Storage.
Použití obecných zdrojů dat ODBC v Linuxu Další informace naleznete v tématu Konfigurace PolyBase pro přístup k externím datům pomocí obecných typů ODBC.
Podpora TDS 8.0 PolyBase používá ve výchozím nastavení zabezpečenou konfiguraci s ovladačem ODBC pro SQL Server verze 18 a Encrypt=Yes (povinné). Na rozdíl od jiných SQL Server funkcí umožňuje PolyBase TrustServerCertificate=True použití vlastnoručně podepsaných certifikátů. Pokud chcete vynutit šifrování TLS 1.3 a striktní šifrování pomocí TDS 8.0, nastavte Encrypt=Strict a TrustServerCertificate=No. Další informace naleznete v tématu VYTVOŘENÍ EXTERNÍHO ZDROJE DAT – CONNECTION_OPTIONS. Projděte si zásadní změny funkcí databázového stroje v SQL Serveru 2025.
Spravovaná identita Spravovaná identita je k dispozici pro SQL Server s podporou Azure Arc a SQL Serveru 2025 na virtuálních počítačích Azure.

1 V SYSTÉMU SQL Server 2025 (17.x) je služba PolyBase Query Service pro externí data stále nutná pro připojení k jiným databázím. Příklad: SQL Server, Oracle, DB2, Teradata, MongoDB nebo ODBC.

Vylepšení SQL Serveru 2022 PolyBase

Novinka systému SQL Server 2022 (16.x) Podrobnosti
Úložiště objektů kompatibilní s S3 SQL Server 2022 (16.x) přidává nové konektory, úložiště objektů kompatibilní s S3 pomocí rozhraní REST API S3. K dotazování datových souborů v úložišti objektů kompatibilních s S3 můžete použít OPENROWSET i CREATE EXTERNAL TABLE .
Některé konektory oddělené od služeb PolyBase Konektor úložiště objektů kompatibilní s S3, ADSL Gen2 a Azure Blob Storage už nejsou závislé na službách PolyBase. Služby PolyBase musí pořád běžet, aby podporovaly připojení s Oracle, Teradata, MongoDB a generickým rozhraním ODBC. Funkce PolyBase musí být stále nainstalovaná v instanci SQL Serveru.
Formát souboru Parquet PolyBase teď dokáže dotazovat data ze souborů Parquet uložených v úložišti objektů kompatibilním s S3. Další informace naleznete v tématu Virtualizace Parquet souboru v S3-kompatibilním objektovém úložišti pomocí PolyBase.
Formát tabulky Delta PolyBase teď dokáže dotazovat (jen pro čtení) data z formátu Tabulky Delta uloženého v úložišti objektů kompatibilních s S3, účtu Azure Storage V2 a Azure Data Lake Storage Gen2. Další informace najdete v tématu Virtualizace tabulky Delta pomocí PolyBase
Vytvoření externí tabulky pomocí SELECT (CETAS) PolyBase teď může použít CETAS k vytvoření externí tabulky a následnému paralelnímu exportu výsledku příkazu Transact-SQL SELECT do azure Data Lake Storage Gen2, účtu služby Azure Storage V2 a úložiště objektů kompatibilního s S3. Další informace najdete v tématu CREATE EXTERNAL TABLE AS SELECT (CETAS).

Další nové funkce SYSTÉMU SQL Server 2022 (16.x) najdete v tématu Co je nového v SYSTÉMU SQL Server 2022.

Návod

Kurz funkcí a možností PolyBase v SQL Serveru 2022 (16.x) najdete v tématu Začínáme s PolyBase v SQL Serveru 2022.

Konektory PolyBase

Funkce PolyBase poskytuje připojení k následujícím externím zdrojům dat:

Externí zdroje dat SQL Server 2016–2019 s PolyBase SQL Server verze 2022 (16.x) s PolyBase APS PDW Azure Synapse Analytics
Oracle, MongoDB, Teradata Čti Čti Ne Ne
Obecné ODBC Čtení (pouze Windows) Čtení (pouze Windows) Ne Ne
Azure Storage Čtení a zápis Čtení a zápis Čtení a zápis Čtení a zápis
Hadoop Čtení a zápis Ne Čtení a zápis Ne
SQL Server Čti Čti Ne Ne
Úložiště objektů kompatibilní s S3 Ne Čtení a zápis Ne Ne
  • SQL Server 2022 (16.x) a novější verze nepodporují Hadoop.
  • SQL Server 2016 (13.x) zavedl PolyBase s podporou připojení k Hadoopu a Azure Blob Storage.
  • SQL Server 2019 (15.x) zavedl další konektory, včetně SQL Serveru, Oracle, Teradata a MongoDB.
  • SQL Server 2022 (16.x) zavedl konektor úložiště kompatibilní s S3.
  • Kumulativní aktualizace SQL Serveru 2019 (15.x) 19 zavedla podporu pro Oracle TNS.
  • Kumulativní aktualizace SQL Serveru 2022 (16.x) 2 zavedla podporu pro Oracle TNS.

Mezi příklady externích konektorů patří:

1 PolyBase podporuje dva poskytovatele Hadoopu, Hortonworks Data Platform (HDP) a Cloudera Distributed Hadoop (CDH) až SQL Server 2019. Podpora SQL Serveru pro externí zdroje dat HDFS Cloudera (CDP) a Hortonworks (HDP) byla vyřazena a není součástí SQL Serveru 2022 (16.x) a novějších verzí. Další informace najdete v tématu možnosti velkých objemů dat na platformě Microsoft SQL Server.

Použití PolyBase v instanci SQL Serveru:

  1. Nainstalujte PolyBase ve Windows nebo nainstalujte PolyBase v Linuxu.
  2. Počínaje SQL Serverem 2019 (15.x) povolte PolyBase v případě potřeby v sp_configure.
  3. Vytvořte externí zdroj dat.
  4. Vytvořte externí tabulku.

Integrace Azure

Díky základní pomoci PolyBase můžou dotazy T-SQL také importovat a exportovat data ze služby Azure Blob Storage. PolyBase navíc umožňuje službě Azure Synapse Analytics importovat a exportovat data z Azure Data Lake Store a ze služby Azure Blob Storage.

Proč používat PolyBase?

PolyBase umožňuje spojit data z instance SQL Serveru s externími daty. Než PolyBase povolila připojení dat k externím zdrojům dat, mohli byste:

  • Přeneste polovinu dat tak, aby všechna data byla v jednom umístění.
  • Dotazování obou zdrojů dat a následné zápis vlastní logiky dotazu pro spojení a integraci dat na úrovni klienta.

PolyBase umožňuje použít Transact-SQL ke spojení dat.

PolyBase nevyžaduje instalaci dalšího softwaru do prostředí Hadoop. Dotazujete se na externí data pomocí stejné syntaxe T-SQL, která se používá k dotazování na tabulku databáze. Všechny akce podpory implementované PolyBase probíhají transparentně. Autor dotazu nepotřebuje žádné znalosti o externím zdroji.

PolyBase používá

PolyBase umožňuje v SQL Serveru následující scénáře:

  • Bezproblémový přístup k datům: Dotazování na jiné rdBM nebo externí soubory, jako jsou tabulky CSV, Parquet a Delta Lake, pomocí T-SQL, jako by šlo o nativní tabulky.
  • Nenačítá se studená data: Přitom je snadno přístupný.
  • Vyšší produktivita: Zkraťte čas a úsilí potřebné k integraci a analýze dat z více zdrojů.
  • Nákladová efektivita: Minimalizujte potřebu replikace dat a nákladů na úložiště spojených s tradičními metodami integrace dat.
  • Přehledy v reálném čase: Povolte dotazování a přehledy dat v reálném čase bez zpoždění způsobených přesunem nebo synchronizací dat.
  • Bezpečnost: Funkce zabezpečení SQL Serveru slouží k podrobným oprávněním, správě přihlašovacích údajů a řízení.

Výkon

Počet souborů nebo množství dat, které je možné dotazovat, není nijak omezený. Výkon dotazů závisí na množství dat, formátu dat, způsobu uspořádání dat a složitosti dotazů a spojení.

Další informace o pokynech k výkonu a doporučeních pro PolyBase najdete v tématu Aspekty výkonu v PolyBase pro SQL Server.

Upgrade na SQL Server 2022

Od verze SQL Server 2022 (16.x) Hortonworks Data Platform (HDP) a Cloudera Distributed Hadoop (CDH) se už nepodporují. Kvůli těmto změnám musíte před migrací na SQL Server 2022 (16.x) nebo novější ručně odstranit externí zdroje dat PolyBase vytvořené v předchozích verzích SQL Serveru, které používají TYPE = HADOOP nebo Azure Storage. Vyřazení externích zdrojů dat také vyžaduje vyřazení přidružených databázových objektů, jako jsou přihlašovací údaje v oboru databáze a externí tabulky.

Konektory azure Storage je potřeba změnit na základě následující referenční tabulky:

Externí zdroj dat Od Na
Azure Blob Storage wasb[s] abs
ADLS Gen2 abfs[s] adls

Začínáme

Před použitím PolyBase musíte nainstalovat PolyBase ve Windows nebo nainstalovat PolyBase v Linuxu a v případě potřeby povolit PolyBase v sp_configure .

Kurz funkcí a možností PolyBase najdete v tématu Začínáme s PolyBase v SQL Serveru 2022.

Další kurzy o různých externích zdrojích dat najdete v následujících kurzech:

Virtualizace dat na jiných platformách

Funkce virtualizace dat jsou k dispozici také na jiných platformách: