Sdílet prostřednictvím


Možnosti velkých objemů dat na platformě Microsoft SQL Serveru

platí pro: SQL Server 2019 (15.x) a novější verze

28. února 2025 byly ukončeny SQL Server 2019 big data clustery. Další informace najdete v blogovém příspěvku s oznámením.

Změny podpory PolyBase na SQL Serveru

V souvislosti s ukončením podpory clusterů s velkými objemy dat SQL Serveru 2019 jsou některé funkce spojené s rozšířením kapacity dotazů.

Funkce škálovacích skupin PolyBase v systému Microsoft SQL Server byla vyřazena. Funkce skupiny pro škálování je odebrána z produktu SQL Server 2022 (16.x). Verze SQL Serveru 2019, SQL Serveru 2017 a SQL Serveru 2016 na trhu nadále podporují funkce až do konce životnosti těchto produktů. Virtualizace dat PolyBase se stále plně podporuje jako funkce vertikálního navýšení kapacity na SQL Serveru.

Externí zdroje dat Hadoop (Cloudera (CDP) a Hortonworks (HDP) budou také vyřazeny pro všechny verze SQL Serveru na trhu a nejsou součástí SQL Serveru 2022. Podpora externích datových zdrojů je omezena na verze produktu, které jsou v hlavním podporovaném období příslušným dodavatelem. Doporučujeme používat novou integraci úložiště objektů dostupnou v SQL Serveru 2022 (16.x).

V SQL Serveru 2022 (16.x) a novějších verzích musí uživatelé nakonfigurovat své externí zdroje dat tak, aby při připojování ke službě Azure Storage používaly nové konektory. Následující tabulka shrnuje změnu:

Externí zdroj dat From To
Azure Blob Storage wasb[s] abs
ADLS Gen2 abfs[s] adls

Note

Azure Blob Storage (abs) bude vyžadovat použití sdíleného přístupového podpisu (SAS) pro tajný klíč v přihlašovacích údajích v oboru databáze. V SQL Serveru 2019 a starších verzích konektor wasb[s] použil klíč účtu úložiště s přihlašovacími údaji s oborem databáze pro autentizaci k účtu Azure Storage.

Vysvětlení architektury clusterů s velkými objemy dat pro nahrazení a migraci

Pokud chcete vytvořit náhradní řešení pro systém ukládání a zpracování velkých objemů dat, je důležité pochopit, jaké clustery s velkými objemy dat SQL Server 2019 poskytuje, a její architektura vám může pomoct informovat vaše volby. Architektura clusteru s velkými objemy dat byla:

Diagram znázorňující přehled architektury clusterů s velkými objemy dat SQL Serveru 2019

Tato architektura poskytovala následující mapování funkcí:

Component Benefit
Kubernetes Open source orchestrátor pro nasazování a správu kontejnerových aplikací ve velkém měřítku. Poskytuje deklarativní metodu pro vytváření a řízení odolnosti, redundance a přenositelnosti pro celé prostředí s elastickým škálováním.
Kontroler clusterů pro velké objemy dat Poskytuje správu a zabezpečení clusteru. Obsahuje řídicí službu, úložiště konfigurace a další služby na úrovni clusteru, jako jsou Kibana, Grafana a Elastic Search.
Výpočetní fond Poskytuje výpočetní prostředky do clusteru. Obsahuje uzly s SQL Serverem na podech Linuxu. Pody ve výpočetním fondu jsou rozdělené do instancí služby SQL Compute pro konkrétní úlohy zpracování. Tato komponenta také poskytuje virtualizaci dat pomocí PolyBase k dotazování externích zdrojů dat bez přesunutí nebo kopírování dat.
Fond dat Poskytuje trvalost dat pro cluster. Fond dat se skládá z jednoho nebo více podů se systémem SQL Server v Linuxu. Používá se k ingestování dat z dotazů SQL nebo úloh Sparku.
Fond úložiště Fond úložiště se skládá z podů fondu úložiště, které se skládají z SQL Serveru v Linuxu, Sparku a HDFS. Všechny uzly úložiště v clusteru s velkými objemy dat jsou členy clusteru HDFS.
Fond aplikací Umožňuje nasazení aplikací do clusteru s velkými objemy dat tím, že poskytuje rozhraní pro vytváření, správu a spouštění aplikací.

Další informace o těchto funkcích najdete v tématu Představení clusterů s velkými objemy dat SQL Serveru.

Možnosti nahrazení funkcí pro velké objemy dat a SQL Server

Funkci provozních dat, kterou SQL Server usnadňuje uvnitř clusterů s velkými objemy dat, je možné nahradit SQL Serverem místně v hybridní konfiguraci nebo pomocí platformy Microsoft Azure. Microsoft Azure nabízí výběr plně spravovaných relačních databází, NoSQL a databází v paměti, které pokrývají proprietární a opensourcové moduly, aby vyhovovaly potřebám moderních vývojářů aplikací. Správa infrastruktury – včetně škálovatelnosti, dostupnosti a zabezpečení – je automatizovaná, šetří vám čas a peníze a umožňuje zaměřit se na vytváření aplikací, zatímco databáze spravované Azure usnadňují práci díky zpřístupnění přehledů výkonu prostřednictvím vložených inteligentních funkcí, škálování bez omezení a správy bezpečnostních hrozeb. Další informace najdete v tématu Databáze Azure.

Dalším rozhodovacím bodem je umístění výpočetních prostředků a úložiště dat pro analýzy. Dvě volby architektury jsou cloudové a hybridní nasazení. Většinu analytických úloh je možné migrovat na platformu Microsoft Azure. Data "narozené v cloudu" (pocházející z cloudových aplikací) jsou hlavními kandidáty pro tyto technologie a služby pro přesun dat můžou bezpečně a rychle migrovat rozsáhlá místní data. Další informace o možnostech přesunu dat najdete v tématu Řešení přenosu dat.

Microsoft Azure má systémy a certifikace, které umožňují zabezpečené zpracování dat a dat v různých nástrojích. Další informace o těchto certifikacích najdete v Centru zabezpečení.

Note

Platforma Microsoft Azure poskytuje velmi vysokou úroveň zabezpečení, více certifikací pro různá odvětví a respektuje suverenitu dat pro požadavky státní správy. Microsoft Azure má také vyhrazenou cloudovou platformu pro úlohy státní správy. Zabezpečení by nemělo být primárním rozhodovacím bodem pro místní systémy. Před rozhodnutím o zachování řešení pro velké objemy dat v místním prostředí byste měli pečlivě vyhodnotit úroveň zabezpečení, kterou poskytuje Microsoft Azure.

V možnosti architektury v cloudu se všechny komponenty nacházejí v Microsoft Azure. Vaše zodpovědnost spočívá v datech a kódu, které vytváříte pro ukládání a zpracování vašich úloh. Tyto možnosti jsou podrobněji popsané v tomto článku.

  • Tato možnost je nejvhodnější pro širokou škálu komponent pro ukládání a zpracování dat a v případě, že se chcete soustředit na konstrukce dat a zpracování, nikoli na infrastrukturu.

V možnostech hybridní architektury se některé komponenty zachovají místně a jiné se umístí do poskytovatele cloudových služeb. Připojení mezi těmito dvěma je navrženo pro nejlepší umístění zpracování v závislosti na datech.

  • Tato možnost funguje nejlépe, když máte značné investice do místních technologií a architektur, ale chcete použít nabídky Microsoft Azure, nebo když máte cíle zpracování a aplikací umístěné místně nebo pro celosvětovou cílovou skupinu.

Další informace o vytváření škálovatelných architektur najdete v tématu Vytvoření škálovatelného systému pro masivní data.

In-cloud

Azure SQL se službou Synapse

Funkce clusterů s velkými objemy dat SQL Serveru můžete nahradit pomocí jedné nebo více možností databáze Azure SQL pro provozní data a Microsoft Azure Synapse pro analytické úlohy.

Microsoft Azure Synapse je podniková analytická služba, která zrychluje přehled napříč datovými sklady, a systémy pro velké objemy dat pomocí distribuovaného zpracování a datových struktur. Azure Synapse spojuje technologie SQL používané v podnikových datových skladech, technologie Sparku používané pro velké objemy dat, kanály pro integraci dat a ETL/ELT a hlubokou integraci s dalšími službami Azure, jako jsou Power BI, Cosmos DB a Azure Machine Learning.

Pokud potřebujete, použijte Microsoft Azure Synapse jako náhradu za clustery s velkými objemy dat SQL Serveru 2019:

  • Používejte bezserverové i vyhrazené modely prostředků. Pokud potřebujete předvídatelný výkon a náklady, vytvoříte vyhrazené fondy SQL, kterými si rezervujete výkon pro data uložená v tabulkách SQL.
  • Zpracování neplánovaných nebo "nárazových" úloh, přístup k vždy dostupnému bezserverovém koncovému bodu SQL
  • Využijte integrované funkce streamování k importu dat z cloudových zdrojů do tabulek SQL.
  • Integrujte AI s SQL pomocí modelů strojového učení k určení skóre dat pomocí funkce T-SQL PREDICT.
  • Používejte modely ML s algoritmy SparkML a integrací Azure Machine Learning pro Apache Spark 2.4, který je podporován pro Linux Foundation Delta Lake.
  • Použijte zjednodušený model prostředků, který vás osvobodí od nutnosti starat se o správu clusterů.
  • Zpracování dat, která vyžadují rychlé spuštění Sparku a agresivní automatické škálování
  • Zpracovávejte data pomocí .NET pro Spark, abyste mohli opakovaně využívat své znalosti jazyka C# a existující kód .NET v rámci aplikace Spark.
  • Pracujte s tabulkami definovanými na souborech v datovém jezeře, které bezproblémově využívá Spark nebo Hive.
  • Pomocí SQL se Sparkem můžete přímo zkoumat a analyzovat soubory Parquet, CSV, TSV a JSON uložené v datovém jezeře.
  • Umožňuje rychlé a škálovatelné načítání dat mezi databázemi SQL a Spark.
  • Příjem dat z více než 90 zdrojů
  • Povolte ETL bez kódu s aktivitami toku dat.
  • Orchestrace poznámkových bloků, úloh Sparku, uložených procedur, skriptů SQL a dalších.
  • Monitorujte prostředky, využití a uživatele napříč SQL a Sparkem.
  • Použití řízení přístupu na základě role ke zjednodušení přístupu k analytickým prostředkům.
  • Psaní kódu SQL nebo Sparku a integrace s podnikovými procesy CI/CD

Architektura Microsoft Azure Synapse je následující:

Diagram znázorňující přehled architektury Azure Synapse

Další informace o Službě Microsoft Azure Synapse najdete v tématu Co je Azure Synapse Analytics?

Azure SQL a Azure Machine Learning

Funkce clusterů s velkými objemy dat SQL Serveru můžete nahradit pomocí jedné nebo více možností databáze Azure SQL pro provozní data a Microsoft Azure Machine Learning pro prediktivní úlohy.

Azure Machine Learning je cloudová služba, která se dá použít pro jakýkoli druh strojového učení, od klasického STROJOVÉho učení po hluboké učení, pod dohledem a učení bez dohledu. Bez ohledu na to, jestli dáváte přednost psaní kódu Pythonu nebo R pomocí sady SDK nebo práce s možnostmi bez kódu nebo nízkého kódu v sadě Studio, můžete vytvářet, trénovat a sledovat modely strojového učení a hlubokého učení v pracovním prostoru Azure Machine Learning. Pomocí služby Azure Machine Learning můžete začít trénovat na místním počítači a pak škálovat na cloud. Služba také spolupracuje s oblíbenými opensource nástroji pro hluboké a posilované učení, jako jsou PyTorch, TensorFlow, scikit-learn a Ray RLlib.

Pokud potřebujete, použijte Microsoft Azure Machine Learning jako náhradu za clustery s velkými objemy dat SQL Serveru 2019:

  • Webové prostředí navržené návrhářem pro strojové učení: přetažením modulů vytvoříte experimenty a poté nasadíte kanály v prostředí pro nízké úrovně kódování.
  • Poznámkové bloky Jupyter: Použijte naše ukázkové poznámkové bloky nebo si vytvořte vlastní poznámkové bloky, abyste pro své strojové učení použili naši sadu SDK pro pythonové ukázky.
  • Skripty jazyka R nebo poznámkové bloky, ve kterých pomocí sady SDK pro jazyk R napíšete vlastní kód nebo použijete moduly jazyka R v návrháři.
  • Akcelerátor řešení mnoha modelů vychází ze služby Azure Machine Learning a umožňuje trénovat, provozovat a spravovat stovky nebo dokonce tisíce modelů strojového učení.
  • Rozšíření strojového učení pro Visual Studio Code (Preview) poskytují plnohodnotné vývojové prostředí pro vytváření a správu projektů strojového učení.
  • Azure Machine Learning Command-Line Interface (CLI) zahrnuje rozšíření Azure CLI, které poskytuje příkazy pro správu s prostředky Azure Machine Learning z příkazového řádku.
  • Integrace s open-source architekturami, jako jsou PyTorch, TensorFlow, scikit-learn a mnoho dalších pro trénování, nasazování a správu kompletního procesu strojového učení.
  • Posilované učení s Ray RLlib.
  • MLflow ke sledování metrik a nasazení modelů nebo Kubeflow pro stavbu kompletních pracovních postupů od začátku do konce.

Architektura nasazení Microsoft Azure Machine Learning je následující:

Diagram znázorňující architekturu Azure Machine Learning pracovního prostoru a jejích komponent

Další informace o službě Microsoft Azure Machine Learning najdete v tématu Fungování služby Azure Machine Learning.

Azure SQL z Databricks

Funkce clusterů s velkými objemy dat SQL Serveru můžete nahradit pomocí jedné nebo více možností databáze Azure SQL pro provozní data a Microsoft Azure Databricks pro analytické úlohy.

Azure Databricks je platforma pro analýzu dat optimalizovaná pro platformu cloudových služeb Microsoft Azure. Azure Databricks nabízí dvě prostředí pro vývoj aplikací náročných na data: Azure Databricks SQL Analytics a pracovní prostor Azure Databricks.

Azure Databricks SQL Analytics poskytuje snadno použitelnou platformu pro analytiky, kteří chtějí spouštět dotazy SQL na datovém jezeře, vytvářet více typů vizualizací pro zkoumání výsledků dotazů z různých perspektiv a vytvářet a sdílet řídicí panely.

Pracovní prostor Azure Databricks poskytuje interaktivní pracovní prostor, který umožňuje spolupráci mezi datovými inženýry, datovými vědci a inženýry strojového učení. V případě kanálu pro velké objemy dat se data (nezpracovaná nebo strukturovaná) ingestují do Azure prostřednictvím služby Azure Data Factory v dávkách nebo streamují téměř v reálném čase pomocí Apache Kafka, Event Hubs nebo IoT Hubu. Tato data se nachází v datovém jezeře pro dlouhodobé trvalé úložiště ve službě Azure Blob Storage nebo Azure Data Lake Storage. V rámci pracovního postupu analýzy můžete pomocí Azure Databricks číst data z více zdrojů dat a převést je na převratné přehledy pomocí Sparku.

Pokud potřebujete, použijte Microsoft Azure Databricks jako náhradu za clustery s velkými objemy dat SQL Serveru 2019:

  • Plně spravované clustery Spark s využitím Spark SQL a datových rámců
  • Streamování pro zpracování a analýzu dat v reálném čase pro analytické a interaktivní aplikace, integraci s HDFS, Flume a Kafka
  • Přístup k knihovně MLlib, která se skládá z běžných algoritmů učení a nástrojů, včetně klasifikace, regrese, clusteringu, filtrování spolupráce, redukce dimenzí a základních primitiv optimalizace.
  • Dokumentace vašeho pokroku v poznámkových blocích v jazyce R, Python, Scala nebo SQL.
  • Vizualizace dat v několika krocích pomocí známých nástrojů, jako jsou Matplotlib, ggplot nebo d3.
  • Interaktivní řídicí panely pro vytváření dynamických reportů.
  • GraphX, pro grafy a výpočty grafů pro širokou škálu případů použití od kognitivní analýzy po zkoumání dat.
  • Vytváření clusterů v sekundách s dynamickým automatickým škálováním clusterů a jejich sdílením napříč týmy
  • Programový přístup ke clusteru pomocí rozhraní REST API
  • Okamžitý přístup k nejnovějším funkcím Apache Sparku s každou verzí
  • Rozhraní Spark Core API: Zahrnuje podporu pro R, SQL, Python, Scala a Javu.
  • Interaktivní pracovní prostor pro zkoumání a vizualizaci
  • Plně spravované koncové body SQL v cloudu
  • Dotazy SQL, které běží na plně spravovaných koncových bodech SQL, mají velikost podle latence dotazů a počtu souběžných uživatelů.
  • Integrace s Microsoft Entra ID (dříve Azure Active Directory).
  • Přístup na základě role pro jemně odstupňovaná uživatelská oprávnění pro poznámkové bloky, clustery, úlohy a data.
  • Smlouvy SLA na podnikové úrovni
  • Řídicí panely pro sdílení přehledů, kombinování vizualizací a textu za účelem sdílení přehledů získaných z dotazů
  • Výstrahy pomáhají monitorovat a integrovat a upozorňují, když pole vrácené dotazem splňuje prahovou hodnotu. Pomocí výstrah můžete monitorovat své podnikání nebo je můžete integrovat s nástroji a spouštět pracovní postupy, jako například onboarding uživatelů nebo lístky podpory.
  • Zabezpečení podniku, včetně integrace Microsoft Entra ID, ovládacích prvků založených na rolích a smluv SLA, které chrání vaše data a vaši firmu.
  • Integrace se službami Azure a databázemi a úložišti Azure, včetně Synapse Analytics, Cosmos DB, Data Lake Store a Blob Storage.
  • Integrace s Power BI a dalšími nástroji BI, jako je Tableau Software.

Architektura nasazení Microsoft Azure Databricks je následující:

Diagram: Architektura pracovního prostoru Azure Databricks a jejích komponent a toků dat od lidí po aplikace

Další informace o Microsoft Azure Databricks najdete v tématu Co je Databricks Data Science &Engineering?

Hybrid

Zrcadlení v Microsoft Fabric

Zrcadlení databáze ve Fabric je jako prostředí replikace dat nízkonákladové řešení s nízkou latencí, které spojuje data z různých systémů do jedné analytické platformy. Stávající datová aktiva můžete průběžně replikovat přímo do OneLake služby Fabric, včetně dat z SQL Serveru 2016+, Azure SQL Database, Azure SQL Managed Instance, Oracle, Snowflake, Cosmos DB a dalších.

Díky nejaktuálnějším datům v dotazovatelném formátu v OneLake teď můžete používat všechny různé služby ve Fabricu, jako je provádění analýz pomocí Sparku, spouštění poznámkových bloků, datové inženýrství, vizualizace v sestavách Power BI a další.

Zrcadlení ve Fabric poskytuje snadné prostředí pro zrychlení času k získání přehledů a rozhodnutí a odstranění datových sil mezi technologickými řešeními, aniž by bylo nutné vyvíjet nákladné procesy na extrakci, transformaci a načítání (ETL) pro přesun dat.

Díky Mirroringu ve Fabric nemusíte skládat dohromady různé služby od několika dodavatelů. Místo toho si můžete vychutnat vysoce integrovaný, ucelený a snadno použitelný produkt, který je navržený tak, aby zjednodušil vaše potřeby analýzy, a byl vytvořen pro otevřenost a spolupráci mezi technologickými řešeními, která můžou číst opensourcový formát tabulky Delta Lake.

Další informace najdete tady:

Microsoft SQL Server ve Windows, Apache Sparku a místním úložišti objektů

SQL Server můžete nainstalovat ve Windows nebo Linuxu a vertikálně navýšit kapacitu hardwarové architektury pomocí funkce dotazu úložiště objektů (16.x) SQL Serveru 2022 a funkce PolyBase, která umožňuje dotazy napříč všemi daty ve vašem systému.

Instalace a konfigurace platformy se škálováním na více systémů, jako je Apache Hadoop nebo Apache Spark, umožňuje dotazování nerelačních dat ve velkém měřítku. Použití centrální sady systémů Object-Storage, které podporují S3-API umožňuje sql Serveru 2022 (16.x) i Sparku přistupovat ke stejné sadě dat ve všech systémech.

Pro nasazení můžete také použít systém orchestrace kontejnerů Kubernetes. To umožňuje deklarativní architekturu, která může běžet místně nebo v libovolném cloudu, která podporuje Kubernetes nebo platformu Red Hat OpenShift. Další informace o nasazení SQL Serveru do prostředí Kubernetes najdete v tématu Nasazení clusteru kontejnerů SQL Serveru v Azure nebo sledování nasazení SQL Serveru 2019 v Kubernetes.

Použijte SQL Server a prostředí Hadoop/Spark on-premises jako náhradu za SQL Server 2019 Big Data Clusters, když potřebujete:

  • Zachování celého místního řešení
  • Použití vyhrazeného hardwaru pro všechny části řešení
  • Přístup k relačním i nerelačním datům ze stejné architektury v obou směrech
  • Sdílení jedné sady nerelačních dat mezi SQL Serverem a nerelačním systémem se škálováním na více systémů

Provedení migrace

Jakmile vyberete umístění (In-Cloud nebo hybridní) pro migraci, měli byste zvážit výpadky a vektory nákladů, abyste zjistili, jestli spustíte nový systém a přesunete data z předchozího systému do nového v reálném čase (souběžná migrace) nebo zálohování a obnovení nebo nový začátek systému ze stávajících zdrojů dat (místní migrace).

Vaším dalším rozhodnutím je přepsat aktuální funkce v systému pomocí nové volby architektury nebo přesunout co nejvíce kódu do nového systému. I když první volba může trvat déle, umožňuje používat nové metody, koncepty a výhody, které nová architektura poskytuje. V takovém případě jsou mapy přístupu k datům a funkcí primárním plánováním, na které byste se měli zaměřit.

Pokud plánujete migrovat aktuální systém s co nejmenší změnou kódu, je kompatibilita jazyka vaším hlavním cílem pro plánování.

Migrace kódu

Dalším krokem je auditovat kód, který aktuální systém používá a jaké změny se musí spouštět v novém prostředí.

Existují dva primární vektory pro migraci kódu, které je potřeba vzít v úvahu:

  1. Zdroje a jímky
  2. Migrace funkcí

Zdroje a jímky

Prvním úkolem migrace kódu je identifikovat metody připojení ke zdroji dat, řetězce nebo rozhraní API, které kód používá pro přístup k importovaným datům, jeho cestě a konečnému cíli. Zdokumentujte tyto zdroje a vytvořte mapu na umístění nové architektury.

  • Pokud aktuální řešení používá systém kanálů k přesouvání dat v systému, namapujte nové zdroje architektury, kroky a jímky na komponenty kanálu.
  • Pokud nové řešení nahrazuje také architekturu kanálu , zacházejte se se systémem jako s novou instalací pro účely plánování, i když znovu používáte hardware nebo cloudovou platformu jako náhradu.

Migrace funkcí

Nejsložitější prací potřebnou k migraci je odkazování, aktualizace nebo vytvoření dokumentace k funkcím aktuálního systému. Pokud plánujete místní upgrade a snažíte se co nejvíce snížit množství přepsání kódu, tento krok trvá nejvíce času.

Migrace z předchozí technologie je ale často optimálním časem informovat se o nejnovějších pokrocích v technologiích a využít výhod nástrojů, které poskytuje. Často můžete získat větší zabezpečení, výkon, volby funkcí a dokonce i optimalizace nákladů přepsáním aktuálního systému.

V obou případech máte při migraci dva hlavní faktory: kód a jazyky, které nový systém podporuje, a volby související s přesunem dat. Obvykle byste měli být schopni změnit připojovací řetězce z aktuálního clusteru pro velké objemy dat na instanci SQL Serveru a prostředí Spark. Jakékoli informace o datovém připojení a přechod kódu by měly být co nejmenší.

Pokud si představujete přepsání aktuálních funkcí, namapujte nové knihovny, balíčky a knihovny DLL na architekturu, kterou jste zvolili pro migraci. Seznam všech knihoven, jazyků a funkcí, které každé řešení nabízí, najdete v referenčních informacích k dokumentaci, které jsou uvedené v předchozích částech. Namapujte všechny podezřelé nebo nepodporované jazyky a naplánujte jejich nahrazení vybranou architekturou.

Možnosti migrace dat

V rozsáhlém analytickém systému existují dva běžné přístupy k přesunu dat. Prvním krokem je vytvoření procesu přechodu, kdy původní systém pokračuje ve zpracování dat a tato data jsou shrnuta do menší sady agregovaného zdroje dat pro sestavy. Nový systém pak začne s čerstvými daty a použije se od data migrace.

V některých případech se všechna data musí přesunout ze starší verze systému do nového systému. V takovém případě můžete připojit původní úložiště souborů z clusterů SQL Serveru pro velké objemy dat, pokud ho nový systém podporuje, a pak je zkopírovat do nového systému, nebo můžete vytvořit fyzický přesun.

Migrace aktuálních dat z clusterů s velkými objemy dat SQL Serveru 2019 do jiného systému je vysoce závislá na dvou faktorech: umístění aktuálních dat a cíl, který je místní nebo cloudový.

Migrace místních dat

Při místních migracích můžete migrovat data SQL Serveru pomocí strategie zálohování a obnovení, nebo nastavit replikaci pro přesun některých nebo všech vašich relačních dat. Sql Server Integration Services lze také použít ke kopírování dat z SQL Serveru do jiného umístění. Další informace o přesouvání dat pomocí služby SSIS najdete v tématu SQL Server Integration Services.

U dat HDFS v aktuálním prostředí clusteru SQL Server pro velké objemy dat je standardním přístupem připojení dat k samostatnému clusteru Spark a buď pomocí procesu Úložiště objektů přesuňte data tak, aby k ní instance SQL Serveru 2022 (16.x) přistupovala, nebo ji nechala as-is a dál je zpracovávat pomocí úloh Sparku.

Migrace dat v cloudu

Pro data umístěná v cloudovém úložišti nebo v místním prostředí můžete použít Službu Azure Data Factory, která má více než 90 konektorů pro úplný kanál přenosu, s plánováním, monitorováním, upozorňováním a dalšími službami. Další informace o službě Azure Data Factory najdete v tématu Co je Azure Data Factory?

Pokud chcete bezpečně a rychle přesunout velké objemy dat z místních datových aktiv do Microsoft Azure, můžete použít službu Azure Import/Export. Služba Azure Import/Export slouží k bezpečnému importu velkých objemů dat do úložiště objektů blob v Azure a souborů Azure odesláním diskových jednotek do datacentra Azure. Pomocí této služby je také možné přenést data ze služby Azure Blob Storage na diskové jednotky a odeslat je do místních lokalit. Data z jedné nebo více diskových jednotek je možné importovat buď do služby Azure Blob Storage, nebo do služby Azure Files. Pro extrémně velké objemy dat může být použití této služby nejrychlejší cestou.

Pokud chcete přenášet data pomocí diskových jednotek poskytovaných Microsoftem, můžete data do Azure importovat pomocí Azure Data Box Disku. Další informace najdete v tématu Co je služba Azure Import/Export?

Další informace o těchto možnostech a rozhodnutích, která je doprovází, najdete v tématu Použití Azure Data Lake Storage Gen1 pro požadavky na velké objemy dat.