Big data-beállítások a Microsoft SQL Server platformon

A következőkre vonatkozik: SQL Server 2019 (15.x) és újabb verziók

2025. február 28-án nyugdíjazásra került az SQL Server 2019 Big Data-fürtök szolgáltatása. További információkért lásd a közlemény blogbejegyzését.

PolyBase-támogatás módosítása az SQL Serverben

Az SQL Server 2019 Big Data-fürtök kivonásához kapcsolódó funkciók a lekérdezések vertikális felskálázásához kapcsolódnak.

A Microsoft SQL Server PolyBase kibővített csoportok funkciója ki lett vonva. A kibővített csoportfunkciók el lesznek távolítva a termékből az SQL Server 2022-ben (16.x). Az SQL Server 2019, az SQL Server 2017 és az SQL Server 2016 piaci verziói továbbra is támogatják a funkcionalitást a termékek élettartamának végéig. A PolyBase adatvirtualizálása továbbra is teljes mértékben támogatott az SQL Server vertikális felskálázási funkciójaként.

A Cloudera (CDP) és a Hortonworks (HDP) Hadoop külső adatforrásai szintén ki lesznek vonva az SQL Server összes piaci verziójából, és nem szerepelnek az SQL Server 2022-ben. A külső adatforrások támogatása a termékverziókra korlátozódik, amelyeket az adott gyártó támogat. Javasoljuk, hogy használja az SQL Server 2022-ben elérhető új objektumtároló-integrációt (16.x).

Az SQL Server 2022 (16.x) és újabb verzióiban a felhasználóknak konfigurálniuk kell külső adatforrásaikat, hogy új összekötőket használjanak az Azure Storage-hoz való csatlakozáskor. Az alábbi táblázat összefoglalja a módosítást:

Külső adatforrás	From	To
Azure Blob Storage	`wasb[s]`	`abs`
ADLS Gen 2	`abfs[s]`	`adls`

Note

Az Azure Blob Storage (abs) megköveteli a közös hozzáférésű jogosultságkód (SAS) használatát az adatbázis hatókörébe tartozó hitelesítő adatok TITKOS kódjához. Az SQL Server 2019-ben és korábbi verzióiban az összekötő adatbázis-hatókörű wasb[s] hitelesítő adatokkal rendelkező tárfiókkulcsot használt az Azure Storage-fiókhoz való hitelesítéskor.

A Big Data fürtök architektúrájának megértése a csere és migrációs lehetőségek érdekében

A Big Data-tároló és -feldolgozó rendszerek helyettesítő megoldásának létrehozásához fontos tisztában lenni azzal, hogy milyen SQL Server 2019 Big Data-fürtök biztosítottak, és az architektúra segíthet a választási lehetőségek tájékoztatásában. A big data klaszter architektúrája a következő volt:

Ez az architektúra a következő funkcióleképezést biztosította:

Component	Benefit
Kubernetes	Nyílt forráskódú vezénylő tárolóalapú alkalmazások nagy léptékű üzembe helyezéséhez és kezeléséhez. Deklaratív módszert biztosít a rugalmasság, a redundancia és a hordozhatóság létrehozására és szabályozására a teljes környezet számára rugalmas skálázással.
Big Data-fürtök vezérlője	A fürt felügyeletét és biztonságát biztosítja. Tartalmazza a vezérlőszolgáltatást, a konfigurációs tárolót és más fürtszintű szolgáltatásokat, például a Kibana, a Grafana és az Elastic Search szolgáltatást.
Számítási készlet	Számítási erőforrásokat biztosít a fürt számára. Linux-podokon futó SQL Servert futtató csomópontokat tartalmaz. A számítási készlet podjai SQL Compute-példányokra vannak osztva adott feldolgozási feladatokhoz. Ez az összetevő adatvirtualizálást is biztosít a PolyBase használatával külső adatforrások lekérdezéséhez az adatok áthelyezése és másolása nélkül.
Adatkészlet	Az adatállandóságot biztosítja a fürt számára. Az adatkészlet egy vagy több, linuxos SQL Servert futtató podból áll. Sql-lekérdezésekből vagy Spark-feladatokból származó adatok betöltésére szolgál.
Tárolókészlet	A tárolókészlet a Linuxon, Sparkon és HDFS-en futó SQL Serverből álló tárolókészlet-podokból áll. A big data fürt összes tárolási csomópontja egy HDFS-fürt része.
Alkalmazáskészlet	Lehetővé teszi az alkalmazások big data-fürtön való üzembe helyezését azáltal, hogy interfészeket biztosít az alkalmazások létrehozásához, kezeléséhez és futtatásához.

Ezekről a függvényekről további információt az SQL Server Big Data-fürtök bemutatása című témakörben talál.

A Big Data és az SQL Server funkcióváltási lehetőségei

Az SQL Server által a Big Data-fürtökben biztosított operatív adatfunkciót a helyi SQL Server helyettesítheti hibrid konfigurációban, vagy a Microsoft Azure platformat használva. A Microsoft Azure teljes körűen felügyelt relációs, NoSQL- és memórián belüli adatbázisokat kínál, védett és nyílt forráskódú motorokkal, a modern alkalmazásfejlesztők igényeinek megfelelően. Az infrastruktúra-kezelés – beleértve a méretezhetőséget, a rendelkezésre állást és a biztonságot – automatizált, időt és pénzt takarít meg, és lehetővé teszi, hogy az alkalmazások létrehozására összpontosítson, míg az Azure által felügyelt adatbázisok egyszerűbbé teszik a feladatát azáltal, hogy beágyazott intelligenciával, korlátok nélküli skálázással és a biztonsági fenyegetések kezelésével teszi egyszerűbbé a feladatát. További információ: Azure-adatbázisok.

A következő döntési pont a számítási és adattárolási helyek az elemzéshez. A két architektúraváltozat a felhőalapú és a hibrid telepítési lehetőségek. A legtöbb elemzési számítási feladat migrálható a Microsoft Azure platformra. A "felhőben született" (felhőalapú alkalmazásokból származó) adatok ezen technológiák elsődleges jelöltjei, és az adatáthelyezési szolgáltatások biztonságosan és gyorsan migrálhatják a nagy méretű helyszíni adatokat. További információ az adatátviteli lehetőségekről: Adatátviteli megoldások.

A Microsoft Azure olyan rendszerekkel és tanúsítványokkal rendelkezik, amelyek lehetővé teszik az adatok és adatfeldolgozás biztonságossá tételét különböző eszközökben. A minősítésekkel kapcsolatos további információkért tekintse meg az adatvédelmi központot.

Note

A Microsoft Azure platform rendkívül magas szintű biztonságot, több tanúsítványt biztosít a különböző iparágak számára, és tiszteletben tartja a kormányzati követelményeknek megfelelő adatelkülönítést. A Microsoft Azure dedikált felhőplatformot is kínál a kormányzati számítási feladatokhoz. A helyszíni rendszerek elsődleges döntési pontja nem a biztonság lehet. A helyszíni big data-megoldások megtartása előtt alaposan ki kell értékelnie a Microsoft Azure által biztosított biztonsági szintet.

A felhőbeli architektúra lehetőségben az összes összetevő a Microsoft Azure-ban található. Az Ön felelőssége az adatokkal és kóddal kapcsolatos, amelyeket a számítási feladatok tárolása és feldolgozása céljából hoz létre. Ezekről a lehetőségekről részletesebben ebben a cikkben olvashat.

Ez a beállítás az adatok tárolására és feldolgozására szolgáló összetevők széles körében működik a legjobban, és ha az infrastruktúra helyett az adatokra és a feldolgozó szerkezetekre szeretne összpontosítani.

A hibrid architektúra beállításaiban egyes összetevők a helyszínen maradnak meg, míg mások egy felhőszolgáltatóba kerülnek. A kettő közötti konnektivitás arra lett tervezve, hogy optimálisan helyezze el az adatok feldolgozását.

Ez a lehetőség akkor működik a legjobban, ha jelentős befektetéssel rendelkezik a helyszíni technológiákba és architektúrákba, de a Microsoft Azure ajánlatait szeretné használni, vagy ha a feldolgozási és alkalmazáscélok a helyszínen vagy egy globális közönség számára vannak tárolva.

A méretezhető architektúrák készítésével kapcsolatos további információkért lásd: Méretezhető rendszer létrehozása nagy méretű adatokhoz.

In-cloud

Azure SQL és Synapse

A működési adatok esetén az SQL Server Big Data-fürtök funkcióinak szolgáltatásait lecserélheti egy vagy több Azure SQL-adatbázis opcióval, az analitikus számítási feladatokhoz pedig használhatja a Microsoft Azure Synapse-t.

A Microsoft Azure Synapse egy nagyvállalati elemzési szolgáltatás, amely az elosztott feldolgozási és adatszerkezetek használatával felgyorsítja az adattárházak és big data rendszerek áttekintésének idejét. Az Azure Synapse egyesíti a nagyvállalati adattárházakban használt SQL-technológiákat, a big data-hoz használt Spark-technológiákat, az adatintegrálási folyamatokat és az ETL/ELT-t, valamint a többi Azure-szolgáltatással, például a Power BI-val, a Cosmos DB-vel és az Azure Machine Learningkel való mély integrációt.

Az SQL Server 2019 Big Data-fürtök helyett használja a Microsoft Azure Synapse-t, amikor a következőkre van szüksége:

Kiszolgáló nélküli és dedikált erőforrásmodelleket is használjon. A kiszámítható teljesítmény és a költséghatékonyság érdekében hozzon létre dedikált SQL-készleteket az SQL-táblákban tárolt adatok hatékony feldolgozásához.
Feldolgozhatja a nem tervezett vagy "kipukkasztott" számítási feladatokat, és hozzáférhet egy mindig elérhető, kiszolgáló nélküli SQL-végponthoz.
A beépített streamelési képességek használatával felhőbeli adatforrásokból származó adatokat helyezhet sql-táblákba.
Integrálja az AI-t az SQL-vel gépi tanulási modellek használatával az adatok pontozásához a T-SQL PREDICT függvény használatával.
Ml-modellek használata SparkML-algoritmusokkal és Azure Machine Learning-integrációval a Linux Foundation Delta Lake-hez támogatott Apache Spark 2.4-hez.
Használjon olyan egyszerűsített erőforrásmodellt, amely megszabadítja a fürtök kezelésével kapcsolatos aggodalmaktól.
Gyors Spark-indítást és agresszív automatikus skálázást igénylő adatok feldolgozása.
.NET segítségével feldolgozhatja az adatait a Spark alkalmazásokban, így újra felhasználhatja C#-szakértelmét és meglévő .NET-kódját.
Dolgozzon az adattóban található fájlokon definiált táblákkal, amelyeket a Spark vagy a Hive zökkenőmentesen kezel.
Az SQL és a Spark használatával közvetlenül feltárhatja és elemezheti a data lake-ben tárolt Parquet-, CSV-, TSV- és JSON-fájlokat.
Gyors, méretezhető adatbetöltés engedélyezése AZ SQL és a Spark-adatbázisok között.
Adatok betöltése több mint 90 adatforrásból.
Engedélyezze a "Kód nélküli" ETL-t adatfolyam-tevékenységekkel.
Jegyzetfüzetek, Spark-feladatok, tárolt eljárások, SQL-szkriptek és egyebek vezénylése.
Erőforrások, használat és felhasználók monitorozása az SQL-ben és a Sparkban.
Szerepköralapú hozzáférés-vezérléssel egyszerűsítheti az elemzési erőforrásokhoz való hozzáférést.
SQL- vagy Spark-kódot írhat, és integrálható a vállalati CI-/CD-folyamatokkal.

A Microsoft Azure Synapse architektúrája a következő:

További információ a Microsoft Azure Synapse-ról: Mi az Az Azure Synapse Analytics?

Azure SQL és Azure Machine Learning

Az SQL Server Big Data-fürtök funkcióit lecserélheti az operatív adatokhoz egy vagy több Azure SQL Database-opció használatával, a Microsoft Azure Machine Learning pedig a prediktív számítási feladatokhoz.

Az Azure Machine Learning egy felhőalapú szolgáltatás, amely bármilyen gépi tanuláshoz használható, a klasszikus gépi tanulástól a mély tanulásig, a felügyelt és a felügyelet nélküli tanulásig. Akár Python- vagy R-kódot szeretne írni az SDK-val, akár kód nélküli/alacsony kódszámú lehetőségekkel dolgozik a studióban, létrehozhat, taníthat és követhet gépi tanulási és mélytanulási modelleket egy Azure Machine Learning-munkaterületen. Az Azure Machine Learning segítségével megkezdheti a betanítást a helyi gépen, majd vertikálisan felskálázhatja a felhőt. A szolgáltatás olyan népszerű mélytanulási és megerősítési nyílt forráskódú eszközökkel is együttműködik, mint a PyTorch, a TensorFlow, a scikit-learn és a Ray RLlib.

A Microsoft Azure Machine Learning használata az SQL Server 2019 Big Data-fürtök helyettesítésére, amikor szüksége van rá:

Tervezőalapú webes környezet a Machine Learninghez: drag-n-drop modulok a kísérletek létrehozásához, majd folyamatok alacsony kódszámú környezetben való üzembe helyezéséhez.
Jupyter-jegyzetfüzetek: használja példajegyzetfüzeteinket, vagy hozzon létre saját jegyzetfüzeteket a Python-mintákhoz készült SDK gépi tanuláshoz való használatához.
R-szkriptek vagy jegyzetfüzetek, amelyekben az SDK for R használatával saját kódot ír, vagy az R-modulokat használja a tervezőben.
A Számos modell megoldásgyorsítója az Azure Machine Learningre épül, és lehetővé teszi több száz vagy akár több ezer gépi tanulási modell betanítását, üzemeltetését és kezelését.
A Visual Studio Code gépi tanulási bővítményei (előzetes verzió) teljes körű fejlesztési környezetet biztosítanak a gépi tanulási projektek létrehozásához és kezeléséhez.
Az Azure Machine Learning Command-Line Interface (CLI) egy Azure CLI-bővítményt tartalmaz, amely parancsokat biztosít az Azure Machine Learning-erőforrások parancssorból való kezeléséhez.
Integráció nyílt forráskódú keretrendszerekkel, például a PyTorch, a TensorFlow és a scikit-learn és még sok más, a gépi tanulási folyamat betanításához, üzembe helyezéséhez és kezeléséhez.
Megerősítési tanulás Ray RLlib-lel.
MLflow a metrikák nyomon követéséhez és modellek üzembe helyezéséhez, vagy Kubeflow a végpontok közötti munkafolyamatok létrehozásához.

A Microsoft Azure Machine Learning üzembe helyezésének architektúrája a következő:

Egy munkaterület és összetevői Azure Machine Learning-architektúráját bemutató ábra.

A Microsoft Azure Machine Learningről további információt az Azure Machine Learning működése című témakörben talál.

Azure SQL a Databricksből

Az SQL Server Big Data-fürtök funkcióit lecserélheti egy vagy több Azure SQL adatbázis-opcióval az operatív adatok kezelésére, a Microsoft Azure Databricks használatával az analitikus számítási feladatokhoz.

Az Azure Databricks a Microsoft Azure felhőszolgáltatási platformra optimalizált adatelemzési platform. Az Azure Databricks két környezetet kínál az adatigényes alkalmazások fejlesztéséhez: az Azure Databricks SQL Analytics és az Azure Databricks Workspace.

Az Azure Databricks SQL Analytics egy könnyen használható platformot biztosít azoknak az elemzőknek, akik SQL-lekérdezéseket szeretnének futtatni a data lake-en, több vizualizációtípust hoznak létre a különböző perspektívákból származó lekérdezési eredmények megismeréséhez, valamint irányítópultok készítéséhez és megosztásához.

Az Azure Databricks Workspace egy interaktív munkaterületet biztosít, amely lehetővé teszi az adatmérnökök, adattudósok és gépi tanulási mérnökök közötti együttműködést. Big Data-folyamatok esetén az adatok (nyers vagy strukturált) az Azure Data Factoryn keresztül kötegekben kerülnek be az Azure-ba, vagy közel valós időben streamelhetők az Apache Kafka, az Event Hubs vagy az IoT Hub használatával. Ezek az adatok hosszú távú tartós tárolás céljából egy data lake-ben, az Azure Blob Storage-ban vagy az Azure Data Lake Storage-ban tárolódnak. Az elemzési munkafolyamat részeként az Azure Databricks használatával több adatforrásból származó adatokat olvashat be, és a Spark használatával áttörést jelentő megállapításokká alakíthatja őket.

Az SQL Server 2019 Big Data-fürtök helyett használja a Microsoft Azure Databricks-et, amikor az alábbiakra van szüksége:

Teljes körűen felügyelt Spark-fürtök Spark SQL-vel és DataFrame-ekkel.
Valós idejű adatfeldolgozáshoz és elemzéshez streamelés elemző és interaktív alkalmazások számára, integráció a HDFS-sel, a Flume-mal és a Kafkával.
Hozzáférés az MLlib-kódtárhoz, amely általános tanulási algoritmusokból és segédprogramokból áll, beleértve a besorolást, a regressziót, a fürtözést, az együttműködésen alapuló szűrést, a dimenziócsökkentést és az alapul szolgáló optimalizálási primitíveket.
Az ön előrehaladásának dokumentációja R, Python, Scala vagy SQL jegyzetfüzetekben.
Adatok vizualizációja néhány lépésben, olyan ismerős eszközökkel, mint a Matplotlib, a ggplot vagy a d3.
Interaktív irányítópultok dinamikus jelentések létrehozásához.
GraphX, gráfokhoz és gráfszámításhoz a használati esetek széles köréhez a kognitív elemzéstől az adatfeltárásig.
A fürtök létrehozása másodpercek alatt, dinamikus automatikus skálázási fürtekkel, a csoportok közötti megosztással.
Programozott fürthozzáférés REST API-k használatával.
Azonnali hozzáférés a legújabb Apache Spark-funkciókhoz minden kiadással.
Spark Core API: Támogatja az R, AZ SQL, a Python, a Scala és a Java használatát.
Interaktív munkaterület feltáráshoz és vizualizációhoz.
Teljes körűen felügyelt SQL-végpontok a felhőben.
Olyan SQL-lekérdezések, amelyek teljes mértékben felügyelt SQL-végpontokon futnak, a lekérdezés késése és az egyidejű felhasználók száma alapján.
Integráció a Microsoft Entra ID-val (korábban Azure Active Directory).
Szerepköralapú hozzáférés a jegyzetfüzetekhez, fürtökhöz, feladatokhoz és adatokhoz tartozó részletes felhasználói engedélyekhez.
Nagyvállalati szintű SLA-k.
Irányítópultok az elemzések megosztásához, vizualizációk és szövegek kombinálásával a lekérdezésekből kinyert elemzések megosztásához.
A riasztások segítségével figyelheti és integrálhatja, valamint értesítést kaphat arról, ha egy lekérdezés által visszaadott mező eléri a küszöbértéket. A riasztásokkal monitorozhatja vállalkozását, vagy eszközökkel integrálhatja őket munkafolyamatok elindításához, például a felhasználók beléptetéséhez vagy támogatási jegyek létrehozásához.
Nagyvállalati biztonság, beleértve a Microsoft Entra ID-integrációt, a szerepköralapú vezérlőket és az adatok és a vállalat védelmét biztosító SLA-kat.
Integráció azure-szolgáltatásokkal és Azure-adatbázisokkal és -tárolókkal, beleértve a Synapse Analyticset, a Cosmos DB-t, a Data Lake Store-t és a Blob Storage-t.
Integráció a Power BI-val és más BI-eszközökkel, például a Tableau Software-lel.

A Microsoft Azure Databricks üzembe helyezésének architektúrája a következő:

Ábra: Egy Azure Databricks-munkaterület architektúrája és összetevői és adatfolyamai személyektől alkalmazásokig.

További információ a Microsoft Azure Databricksről: Mi az a Databricks Data Science > Engineering?

Hybrid

Tükrözés a Microsoft Fabricben

Adatreplikációs élményként az Adatbázis-tükrözés a Hálóban egy alacsony költségű és alacsony késésű megoldás, a különböző rendszerekből származó adatok egyetlen elemzési platformba való összehozásához. Meglévő adattulajdonát folyamatosan replikálhatja közvetlenül a Fabric OneLake-be, beleértve az SQL Server 2016+, az Azure SQL Database, az Azure SQL Managed Instance, az Oracle, a Snowflake, a Cosmos DB stb. adatait is.

A OneLake-ben lekérdezhető formátumban elérhető legfrissebb adatokkal mostantól a Fabric összes szolgáltatását használhatja, például elemzéseket futtathat a Sparkkal, jegyzetfüzeteket hajthat végre, adatelemzést végezhet, Power BI-jelentéseken keresztül vizualizálhat stb.

A Hálóban való tükrözés egyszerű élményt nyújt az elemzések és döntések idő-érték arányának felgyorsításához, valamint az adatsilók technológiai megoldások közötti lebontásához anélkül, hogy költséges kinyerési, átalakítási és betöltési (ETL-) folyamatokat fejlesztenek az adatok áthelyezéséhez.

A Mirroring in Fabric segítségével nem szükséges különböző gyártók szolgáltatásait összeillesztenie. Ehelyett élvezheti a nagymértékben integrált, végpontok közötti és könnyen használható terméket, amely leegyszerűsíti az elemzési igényeket, és a nyílt forráskódú Delta Lake táblaformátumot olvasó technológiai megoldások közötti nyitottságra és együttműködésre épül.

További információkért lásd:

Microsoft SQL Server a Windowson, az Apache Sparkon és a helyszíni objektumtárolón

Az SQL Servert Windows vagy Linux rendszeren telepítheti, és vertikálisan felskálázhatja a hardverarchitektúrát az SQL Server 2022 (16.x) objektumtárolási lekérdezési funkciójával és a PolyBase funkcióval, hogy a rendszer összes adatában engedélyezze a lekérdezéseket.

Az olyan horizontálisan kiskálázott platformok telepítése és konfigurálása, mint az Apache Hadoop vagy az Apache Spark lehetővé teszi a nem relációs adatok nagy léptékű lekérdezését. A S3-API támogató Object-Storage rendszerek központi készletének használatával az SQL Server 2022 (16.x) és a Spark egyaránt hozzáférhet ugyanahhoz az adatkészlethez az összes rendszeren.

Az üzembe helyezéshez használhatja a Kubernetes tárolóvezénylési rendszerét is. Ez lehetővé teszi a deklaratív architektúrát, amely a helyszínen vagy bármely olyan felhőben futtatható, amely támogatja a Kubernetes-t vagy a Red Hat OpenShift platformot. Az SQL Server Kubernetes-környezetben való üzembe helyezéséről további információt az SQL Server-tárolófürt üzembe helyezése az Azure-ban vagy az SQL Server 2019 Kubernetesben való üzembe helyezéséről szóló cikkben talál.

Az SQL Server és a Hadoop/Spark helyszíni használata az SQL Server 2019 Big Data-fürtök helyett, ha a következőkre van szüksége:

A teljes megoldás megőrzése a helyszínen
Dedikált hardver használata a megoldás minden részére
Relációs és nem relációs adatok elérése ugyanabból az architektúrából, mindkét irányban
Nem relációs adatok egyetlen készletének megosztása az SQL Server és a kibővített, nem relációs rendszer között

A migrálás végrehajtása

Miután kiválaszt egy helyet (In-Cloud vagy hibridet) az áttelepítéshez, mérlegelnie kell az állásidőt és a költségvektorokat annak megállapításához, hogy új rendszert futtat-e, és az előző rendszer adatait valós időben (egymás mellett történő migrálás) vagy biztonsági mentéssel és visszaállítással, vagy a meglévő adatforrásokból (helyszíni migrálással) helyezi át az adatokat az újba.

A következő döntés az, hogy vagy átírja a rendszer aktuális funkcióit az új architektúra választásával, vagy a kód lehető legnagyobb részét áthelyezi az új rendszerbe. Bár a korábbi választás hosszabb időt is igénybe vehet, lehetővé teszi az új architektúra által biztosított új módszerek, fogalmak és előnyök használatát. Ebben az esetben az adathozzáférés és a funkciótérképek az elsődleges tervezési erőfeszítések, amelyekre összpontosítania kell.

Ha a lehető legkevesebb kódmódosítással szeretné migrálni az aktuális rendszert, a tervezéshez a nyelvi kompatibilitás az elsődleges szempont.

Kódmigrálás

A következő lépés a jelenlegi rendszer által használt kód és az új környezeten való futtatáshoz szükséges módosítások naplózása.

A kódmigrálásnak két elsődleges vektora van:

Források és nyelők
Funkciók migrálása

Források és nyelők

A kódmigrálás első feladata az adatforrás-kapcsolati módszerek, sztringek vagy API-k azonosítása, amelyeket a kód az importált adatok eléréséhez, elérési útjának és végső céljának eléréséhez használ. Dokumentálja ezeket a forrásokat, és hozzon létre egy térképet az új architektúra helyéhez.

Ha a jelenlegi megoldás csővezeték-rendszert használ az adatok mozgatásához a rendszeren keresztül, térképezze fel az új architektúra forrásait, lépéseit és gyűjtőpontjait a csővezeték összetevőihez.
Ha az új megoldás a folyamatarchitektúrát is lecseréli, tervezési célokra kezelje a rendszert új telepítésként, még akkor is, ha a hardvert vagy a felhőplatformot használja újra csereként.

Funkciók migrálása

A migrálás során a legösszetettebb feladat az aktuális rendszer funkcióinak dokumentációjának hivatkozása, frissítése vagy létrehozása. Ha helyszíni frissítést tervez, és a lehető legnagyobb mértékben próbálja csökkenteni az átírt kód mennyiségét, ez a lépés a legtöbb időt veszi igénybe.

A korábbi technológiából való migrálás azonban gyakran optimális alkalom arra, hogy frissítse magát a technológia legújabb fejlődéséről, és kihasználja az általa nyújtott szerkezeteket. A jelenlegi rendszer újraírásával gyakran nagyobb biztonságot, teljesítményt, funkcióválasztást és akár költségoptimalizálást is kaphat.

Mindkét esetben két elsődleges tényező van a migrálásban: az új rendszer által támogatott kód és nyelvek, valamint az adatáthelyezéssel kapcsolatos lehetőségek. Általában lehetősége van a kapcsolati láncok módosítására az aktuális big data-fürtről az SQL Server-példányra és a Spark-környezetre. Az adatkapcsolati információknak és a kód átállásának minimálisnak kell lennie.

Ha átírja az aktuális funkciókat, az új kódtárakat, csomagokat és DLL-eket az áttelepítéshez választott architektúrához rendelje hozzá. Az egyes megoldások által kínált kódtárak, nyelvek és függvények listáját az előző szakaszokban bemutatott dokumentációs hivatkozásokban találja. Képezze ki a gyanús vagy nem támogatott nyelveket, és tervezze meg a választott architektúra cseréjét.

Adatmigrálási lehetőségek

A nagy léptékű elemzési rendszerekben az adatáthelyezésnek két gyakori megközelítése van. Az első egy "átállásos" folyamat létrehozása, amelyben az eredeti rendszer folytatja az adatok feldolgozását, és az adatok kisebb összesített jelentés-adatforrásokká lesznek összesítve. Az új rendszer ezután friss adatokkal kezdődik, és a migrálási dátumtól kezdve használatos.

Bizonyos esetekben minden adatnak át kell lépnie az örökölt rendszerről az új rendszerre. Ebben az esetben csatlakoztathatja az SQL Server Big Data-fürtök eredeti fájltárolóit az új rendszerhez, ha azt támogatja, majd az adatokat részletekben átviheti az új rendszerbe, vagy fizikailag áthelyezheti az adatokat.

Az SQL Server 2019 Big Data-fürtökben tárolt jelenlegi adatok migrálása egy másik rendszerbe nagyban függ két tényezőtől: az aktuális adatok helyétől és attól, hogy a célhely helyszíni vagy felhőalapú-e.

Helyszíni adatmigrálás

A helyszíni áttelepítésekhez az SQL Server-adatokat biztonsági mentési és visszaállítási stratégiával migrálhatja, vagy beállíthatja a replikációt a relációs adatok egy részének vagy mindegyikének áthelyezéséhez. Az SQL Server Integration Services használatával adatokat is másolhat az SQL Serverről egy másik helyre. Az adatok SSIS-vel való áthelyezéséről további információt az SQL Server Integration Servicesben talál.

Az aktuális SQL Server Big Data Cluster-környezetben lévő HDFS-adatok esetében a szokványos megközelítés az, hogy az adatokat egy önálló Spark fürthöz csatolják, és vagy az Object Storage folyamat használatával áthelyezik azokat, így egy SQL Server 2022 (16.x) példány hozzáférhet hozzájuk, vagy hagyják as-is, és továbbra is Spark-feladatokkal dolgozzák fel őket.

Felhőbeli adatmigrálás

A felhőalapú tárolóban vagy a helyszínen található adatok esetében használhatja az Azure Data Factoryt, amely több mint 90 összekötővel rendelkezik egy teljes átviteli folyamathoz, ütemezéssel, monitorozással, riasztással és egyéb szolgáltatásokkal. További információ az Azure Data Factoryről: Mi az Az Azure Data Factory?

Ha nagy mennyiségű adatot szeretne biztonságosan és gyorsan áthelyezni a helyi adatvagyonból a Microsoft Azure-ba, használhatja az Azure Import/Export szolgáltatást. Az Azure Import/Export szolgáltatással nagy mennyiségű adatot importálhat biztonságosan az Azure Blob Storage-ba és az Azure Filesba lemezmeghajtók Azure-adatközpontba történő szállításával. Ez a szolgáltatás az adatoknak az Azure Blob-tárolóból lemezmeghajtókra való átvitelére, majd saját helyszíni helyeire való eljuttatására is használható. Egy vagy több lemezmeghajtóról származó adatok importálhatók az Azure Blob Storage-ba vagy az Azure Filesba. Rendkívül nagy mennyiségű adat esetén a szolgáltatás használata lehet a leggyorsabb út.

Ha a Microsoft által biztosított lemezmeghajtókkal szeretne adatokat továbbítani, az Azure Data Box Disk használatával adatokat importálhat az Azure-ba. További információ: Mi az Azure Import/Export szolgáltatás?

Ezekről a lehetőségekről és az őket kísérő döntésekről további információt az Azure Data Lake Storage Gen1 használata big data-követelményekhez című témakörben talál.

Visszacsatolás

Hasznos volt ez az oldal?

Last updated on 2025-11-18