Sdílet prostřednictvím


Virtualizace dat pomocí PolyBase na SQL Serveru

platí pro: SQL Server nepodporuje. Azure SQL Database Azure Synapse Analytics Analytics Platform System (PDW)

PolyBase je funkce virtualizace dat pro SQL Server.

Co je PolyBase?

PolyBase umožňuje instanci SQL Serveru dotazovat data pomocí T-SQL přímo z SQL Serveru, Oracle, Teradata, MongoDB, clusterů Hadoop, Cosmos DB a úložiště objektů kompatibilních s S3 bez samostatné instalace softwaru pro připojení klienta. Obecný konektor ODBC můžete také použít k připojení k dalším poskytovatelům pomocí ovladačů ODBC třetích stran. PolyBase umožňuje dotazům T-SQL spojit data z externích zdrojů do relačních tabulek v instanci SQL Serveru.

Klíčovým případem použití virtualizace dat pomocí funkce PolyBase je umožnit, aby data zůstala v původním umístění a formátu. Externí data můžete virtualizovat prostřednictvím instance SQL Serveru, aby se na ni bylo možné dotazovat stejně jako na jakoukoli jinou tabulku v SQL Serveru. Tento proces minimalizuje potřebu procesů ETL pro přesun dat. Tento scénář virtualizace dat je možný s využitím konektorů PolyBase.

Podporované produkty a služby SQL

PolyBase poskytuje tyto stejné funkce pro následující produkty SQL od Microsoftu:

  • SQL Server 2016 (13.x) a novější verze (Windows)
  • SQL Server 2019 (15.x) a novější verze (Windows a Linux)
  • SQL Server Analytics Platform System (PDW)
  • Azure Synapse Analytics (pro vyhrazené fondy SQL)

Poznámka:

Virtualizace dat je dostupná také pro Azure SQL Managed Instance s oborem dotazování externích dat uložených v souborech ve službě Azure Data Lake Storage (ADLS) Gen2 a Azure Blob Storage. Další informace najdete v tématu Virtualizace dat se službou Azure SQL Managed Instance.

Vylepšení SQL Serveru 2025 PolyBase

Novinka v SQL Serveru 2025 (17.x) Preview Podrobnosti
Nativní podpora pro CSV, Parquet a Delta 1 Službu PolyBase Query Service pro externí data nemusíte instalovat, abyste mohli používat OPENROWSET, CREATE EXTERNAL TABLE nebo CREATE EXTERNAL TABLE AS SELECT s následujícími typy externích dat: Parquet, Delta, Azure Blob Storage (ABS), Azure Data Lake Storage (ADLS) nebo S3-Compatible Object Storage.
Použití obecných zdrojů dat ODBC v Linuxu Další informace naleznete v tématu Konfigurace PolyBase pro přístup k externím datům pomocí obecných typů ODBC.

1 V SYSTÉMU SQL Server 2025 (17.x) Preview je služba PolyBase Query Service pro externí data stále nutná pro připojení k jiným databázím. Příklad: SQL Server, Oracle, DB2, Teradata, MongoDB nebo ODBC.

Vylepšení SQL Serveru 2022 PolyBase

Novinka systému SQL Server 2022 (16.x) Podrobnosti
Úložiště objektů kompatibilní s S3 SQL Server 2022 (16.x) přidává nové konektory, úložiště objektů kompatibilní s S3 pomocí rozhraní REST API S3. K dotazování datových souborů v úložišti objektů kompatibilních s S3 můžete použít OPENROWSET i CREATE EXTERNAL TABLE .
Některé konektory oddělené od služeb PolyBase Konektor úložiště objektů kompatibilní s S3, ADSL Gen2 a Azure Blob Storage už nejsou závislé na službách PolyBase. Služby PolyBase musí pořád běžet, aby podporovaly připojení s Oracle, Teradata, MongoDB a generickým rozhraním ODBC. Funkce PolyBase musí být stále nainstalovaná v instanci SQL Serveru.
Formát souboru Parquet PolyBase teď dokáže dotazovat data ze souborů Parquet uložených v úložišti objektů kompatibilním s S3. Další informace naleznete v tématu Virtualizace Parquet souboru v S3-kompatibilním objektovém úložišti pomocí PolyBase.
Formát tabulky Delta PolyBase teď dokáže dotazovat (jen pro čtení) data z formátu Tabulky Delta uloženého v úložišti objektů kompatibilních s S3, účtu Azure Storage V2 a Azure Data Lake Storage Gen2. Další informace najdete v tématu Virtualizace tabulky Delta pomocí PolyBase
Vytvoření externí tabulky pomocí SELECT (CETAS) PolyBase teď může použít CETAS k vytvoření externí tabulky a následnému paralelnímu exportu výsledku příkazu Transact-SQL SELECT do úložiště objektů kompatibilních s Azure Data Lake Storage Gen2, účtem Azure Storage V2 a úložištěm objektů kompatibilním s S3. Další informace najdete v tématu CREATE EXTERNAL TABLE AS SELECT (CETAS).

Další nové funkce SQL Serveru 2022 (16.x) najdete v tématu Co je nového v SQL Serveru 2022?

Návod

Kurz funkcí a možností PolyBase v SQL Serveru 2022 (16.x) najdete v tématu Začínáme s PolyBase v SQL Serveru 2022.

Konektory PolyBase

Funkce PolyBase poskytuje připojení k následujícím externím zdrojům dat:

Externí zdroje dat SQL Server 2016–2019 s PolyBase SQL Server verze 2022 (16.x) s PolyBase APS PDW Azure Synapse Analytics
Oracle, MongoDB, Teradata Čti Čti Ne Ne
Obecné ODBC Čtení (pouze Windows) Čtení (pouze Windows) Ne Ne
Azure Storage Čtení a zápis Čtení a zápis Čtení a zápis Čtení a zápis
Hadoop Čtení a zápis Ne Čtení a zápis Ne
SQL Server Čti Čti Ne Ne
Úložiště objektů kompatibilní s S3 Ne Čtení a zápis Ne Ne
  • SQL Server 2022 (16.x) nepodporuje Hadoop.
  • SQL Server 2016 (13.x) zavedl PolyBase s podporou připojení k Hadoopu a Azure Blob Storage.
  • SQL Server 2019 (15.x) zavedl další konektory, včetně SQL Serveru, Oracle, Teradata a MongoDB.
  • SQL Server 2022 (16.x) zavedl konektor úložiště kompatibilní s S3.
  • Kumulativní aktualizace SQL Serveru 2019 (15.x) 19 zavedla podporu pro Oracle TNS.
  • Kumulativní aktualizace SQL Serveru 2022 (16.x) 2 zavedla podporu pro Oracle TNS.

Mezi příklady externích konektorů patří:

* PolyBase podporuje dva poskytovatele Hadoop, Hortonworks Data Platform (HDP) a Cloudera Distributed Hadoop (CDH), prostřednictvím SQL Serveru 2019. Podpora SQL Serveru pro externí zdroje dat HDFS Cloudera (CDP) a Hortonworks (HDP) byla vyřazena a není součástí SQL Serveru 2022 (16.x) a novějších verzí. Další informace najdete v tématu možnosti velkých objemů dat na platformě Microsoft SQL Server.

Použití PolyBase v instanci SQL Serveru:

  1. Nainstalujte PolyBase ve Windows nebo nainstalujte PolyBase v Linuxu.
  2. Počínaje SQL Serverem 2019 (15.x) povolte PolyBase v případě potřeby v sp_configure.
  3. Vytvořte externí zdroj dat.
  4. Vytvořte externí tabulku.

Integrace Azure

Díky základní pomoci PolyBase můžou dotazy T-SQL také importovat a exportovat data ze služby Azure Blob Storage. PolyBase navíc umožňuje službě Azure Synapse Analytics importovat a exportovat data z Azure Data Lake Store a ze služby Azure Blob Storage.

Proč používat PolyBase?

PolyBase umožňuje spojit data z instance SQL Serveru s externími daty. Než PolyBase povolila připojení dat k externím zdrojům dat, mohli byste:

  • Přeneste polovinu dat tak, aby všechna data byla v jednom umístění.
  • Dotazování obou zdrojů dat a následné zápis vlastní logiky dotazu pro spojení a integraci dat na úrovni klienta.

PolyBase umožňuje použít Transact-SQL ke spojení dat.

PolyBase nevyžaduje instalaci dalšího softwaru do prostředí Hadoop. Dotazujete se na externí data pomocí stejné syntaxe T-SQL, která se používá k dotazování na tabulku databáze. Všechny akce podpory implementované PolyBase probíhají transparentně. Autor dotazu nepotřebuje žádné znalosti o externím zdroji.

PolyBase používá

PolyBase umožňuje v SQL Serveru následující scénáře:

  • Dotazování dat uložených ve službě Azure Blob Storage Azure Blob Storage je vhodné místo pro ukládání dat pro použití službami Azure. PolyBase usnadňuje přístup k datům pomocí T-SQL.

  • Dotazování dat uložených v Hadoopu z instance SQL Serveru nebo PDW Uživatelé ukládají data do nákladově efektivních distribuovaných a škálovatelných systémů, jako je Hadoop. PolyBase usnadňuje dotazování dat pomocí T-SQL.

  • Importujte data z Hadoopu, Azure Blob Storage nebo Azure Data Lake Store. Využijte rychlost technologie columnstore a možností analýzy Microsoft SQL importem dat z Hadoopu, Azure Blob Storage nebo Azure Data Lake Store do relačních tabulek. Není potřeba použít samostatný nástroj ETL ani import.

  • Exportujte data do Hadoopu, Azure Blob Storage nebo Azure Data Lake Store. Archivace dat do Hadoopu, Azure Blob Storage nebo Azure Data Lake Store za účelem dosažení nákladově efektivního úložiště a zajištění online přístupu.

  • Integrace s nástroji BI Použijte PolyBase se sadou nástrojů pro business intelligence a analýzu od Microsoftu, nebo použijte nástroje třetích stran, které jsou kompatibilní s SQL Serverem.

Výkon

Počet souborů nebo množství dat, které je možné dotazovat, není nijak omezený. Výkon dotazů závisí na množství dat, formátu dat, způsobu uspořádání dat a složitosti dotazů a spojení.

Další informace o pokynech k výkonu a doporučeních pro PolyBase najdete v tématu Aspekty výkonu v PolyBase pro SQL Server.

Upgrade na SQL Server 2022

Od verze SQL Server 2022 (16.x) Hortonworks Data Platform (HDP) a Cloudera Distributed Hadoop (CDH) se už nepodporují. Kvůli těmto změnám je nutné ručně odstranit externí zdroje dat PolyBase vytvořené v předchozích verzích SQL Serveru, které používají TYPE = HADOOP nebo Azure Storage, před migrací na SQL Server 2022 (16.x). Vyřazení externích zdrojů dat také vyžaduje vyřazení přidružených databázových objektů, jako jsou přihlašovací údaje v oboru databáze a externí tabulky.

Konektory azure Storage je potřeba změnit na základě následující referenční tabulky:

Externí zdroj dat Od Na
Azure Blob Storage wasb[s] břišní svaly
ADLS Gen2 abfs[s] adls

Začínáme

Před použitím PolyBase musíte nainstalovat PolyBase ve Windows nebo nainstalovat PolyBase v Linuxu a v případě potřeby povolit PolyBase v sp_configure .

Kurz funkcí a možností PolyBase najdete v tématu Začínáme s PolyBase v SQL Serveru 2022.

Další kurzy o různých externích zdrojích dat najdete v následujících kurzech:

Virtualizace dat na jiných platformách

Funkce virtualizace dat jsou k dispozici také na jiných platformách: