Megosztás a következőn keresztül:


Synapse POC forgatókönyv: Data lake-feltárás kiszolgáló nélküli SQL-készlettel az Azure Synapse Analyticsben

Ez a cikk egy magas szintű módszertant mutat be egy hatékony Azure Synapse Analytics-megvalósíthatósági igazolási (POC) projekt előkészítéséhez és futtatásához a kiszolgáló nélküli SQL-készlethez.

Megjegyzés

Ez a cikk az Azure Synapse fogalmi forgatókönyv-sorozatának részét képezi. A sorozat áttekintéséhez tekintse meg az Azure Synapse megvalósíthatósági forgatókönyvét.

Felkészülés a POC-ra

A POC-projektek segítségével megalapozott üzleti döntést hozhat egy big data- és fejlett elemzési környezet felhőalapú platformon történő implementálásáról, amely az Azure Synapse kiszolgáló nélküli SQL-készletét használja. Ha a data lake-ben lévő adatokból kell elemzéseket szereznie, vagy optimalizálnia kell a meglévő adatátalakítási folyamatot, kihasználhatja a kiszolgáló nélküli SQL-készlet használatát. A következő forgatókönyvekhez használható:

  • Alapszintű felderítés és feltárás: Gyors következtetések levonása a data lake-ben különböző formátumokban (Parquet, CSV, JSON) tárolt adatokból, így megtervezheti, hogyan nyerhet belőle betekintést.
  • Logikai adattárház: Relációs absztrakciót hozhat létre a nyers vagy különálló adatokon anélkül, hogy áthelyezi vagy átalakítja azokat, így mindig up-to-date nézetet biztosít az adatokhoz.
  • Adatátalakítás: Futtasson egyszerű, méretezhető és nagy teljesítményű data lake-lekérdezéseket a T-SQL használatával. A lekérdezési eredményeket üzletiintelligencia-(BI)-eszközökre táplálhatja, vagy betöltheti őket egy relációs adatbázisba. A célrendszerek tartalmazhatnak dedikált Azure Synapse SQL-készleteket vagy Azure SQL Database-t.

A különböző professzionális szerepkörök kihasználhatják a kiszolgáló nélküli SQL-készlet előnyeit:

  • Az adatmérnökök felfedezhetik a data lake-t, átalakíthatják és előkészíthetik az adatokat kiszolgáló nélküli SQL-készlet használatával, és egyszerűsíthetik az adatátalakítási folyamataikat.
  • Az adattudósok az OPENROWSET T-SQL függvény és az automatikus sémakövető függvény használatával gyorsan meg tudják indokolni a data lake-ben tárolt adatok tartalmát és szerkezetét.
  • Az adatelemzők T-SQL-lekérdezéseket írhatnak az előnyben részesített lekérdezési eszközeikben, amelyek kiszolgáló nélküli SQL-készlethez csatlakozhatnak. Az adattudósok vagy adatmérnökök által létrehozott külső Spark-táblákban lévő adatokat vizsgálhatják meg.
  • A BI-szakemberek gyorsan létrehozhatnak Olyan Power BI-jelentéseket, amelyek data lake- vagy Spark-táblákhoz csatlakoznak.

A kiszolgáló nélküli SQL-készlet POC-projektje azonosítja a kiszolgáló nélküli SQL-készlet által támogatott fő célokat és üzleti illesztőprogramokat. Emellett teszteli a főbb funkciókat, és metrikákat gyűjt a megvalósítási döntések támogatásához. A POC-t nem éles környezetben való üzembe helyezésre tervezték. Inkább egy rövid távú projekt, amely a legfontosabb kérdésekre összpontosít, és az eredmény elvethető.

A kiszolgáló nélküli SQL Pool POC-projekt megtervezése előtt:

  • Azonosítsa a szervezet által az adatok felhőbe való áthelyezésével kapcsolatos korlátozásokat vagy irányelveket.
  • A big data- és speciális elemzési platformprojektek vezetői vagy üzleti támogatóinak azonosítása. A felhőbe való migrálás támogatásának biztosítása.
  • A technikai szakértők és az üzleti felhasználók rendelkezésre állásának azonosítása a POC végrehajtása során.

Mielőtt elkezdené a POC-projekt előkészítését, javasoljuk, hogy először olvassa el a kiszolgáló nélküli SQL-készlet dokumentációját.

Jótanács

Ha még nem használja a kiszolgáló nélküli SQL-készleteket, javasoljuk, hogy az Azure Synapse kiszolgáló nélküli SQL-készleteinek képzési tervével dolgozza át az adatelemzési megoldásokat .

A célok megadása

A sikeres POC-projektek tervezést igényelnek. Első lépésként állapítsa meg, hogy miért végez POC-t a valódi motivációk teljes megértéséhez. A motivációk közé tartozhat a modernizáció, a költségmegtakarítás, a teljesítmény javítása vagy az integrált élmény. Mindenképpen dokumentálja a POC egyértelmű céljait és a sikerességét meghatározó feltételeket. Tegye fel magának a következő kérdéseket:

  • Mit szeretne a POC kimeneteként?
  • Mit fog tenni ezekkel a kimenetekkel?
  • Ki fogja használni a kimeneteket?
  • Mi határozza meg a sikeres POC-t?

Ne feledje, hogy a POC-nek rövid és koncentrált erőfeszítésnek kell lennie, hogy gyorsan bizonyítsa a fogalmak és képességek korlátozott készletét. Ezeknek a fogalmaknak és képességeknek reprezentatívnak kell lenniük a teljes számítási feladatra. Ha az elemek hosszú listáját kell bizonyítania, érdemes lehet több POC-t tervezni. Ebben az esetben határozza meg a kapukat a POC-k között, hogy eldöntse, folytatnia kell-e a következő dologgal. A kiszolgáló nélküli SQL-készletet különböző szakmai szerepkörök használhatják, és különféle forgatókönyveket támogat. Ennek megfelelően dönthet úgy, hogy több különböző POC-t hajt végre. Egy POC például az adatelemzői szerepkör követelményeire összpontosíthat, például az adatok különböző formátumban történő felderítésére és feltárására. Egy másik lehetőség az adatmérnöki szerepkör követelményeire összpontosíthat, például az adatátalakításra és a logikai adattárház létrehozására.

Ha figyelembe veszi a POC céljait, tegye fel magának a következő kérdéseket, amelyek segítenek a célok alakításában:

  • Migrál egy meglévő big data- és fejlett elemzési platformról (helyszíni vagy felhőből)?
  • Migrál, de a lehető legkevesebb módosítást szeretné elvégezni a meglévő betöltési és adatfeldolgozási folyamaton?
  • Migrál, de jelentős fejlesztéseket szeretne végezni az út során?
  • Teljesen új big data- és fejlett elemzési platformot (zöldmezős projektet) épít?
  • Mik a jelenlegi fájdalompontjai? Például méretezhetőség, teljesítmény vagy rugalmasság.
  • Milyen új üzleti követelményeket kell támogatnia?
  • Milyen SLA-knak kell megfelelnie?
  • Mik lesznek a számítási feladatok? Például különböző adatformátumok adatfeltárása, alapszintű feltárás, logikai adattárház, adatelőkészítés és/vagy átalakítás, T-SQL interaktív elemzés, Spark-táblák T-SQL-lekérdezése vagy a data lake-en keresztüli lekérdezések jelentése.
  • Milyen készségekkel rendelkezik a projekt tulajdonosa (a POC-t végre kell hajtani)?

Íme néhány példa a POC célbeállítására:

  • Miért POC-t csinálunk?
    • Tudnunk kell, hogy meg tudjuk-e vizsgálni a kiszolgáló nélküli SQL-készlet használatával tárolt összes nyers fájlformátumot.
    • Tudnunk kell, hogy az adatszakértők képesek-e gyorsan kiértékelni az új adatcsatornákat.
    • Tudnunk kell, hogy a Data Lake-lekérdezés teljesítménye kiszolgáló nélküli SQL-készlet használatával megfelel-e az adatfeltárási követelményeknek.
    • Tudnunk kell, hogy a kiszolgáló nélküli SQL-készlet jó választás-e néhány vizualizációhoz és jelentéskészítési követelményhez.
    • Tudnunk kell, hogy a kiszolgáló nélküli SQL-készlet jó választás-e az adatbetöltési és feldolgozási követelmények némelyikéhez.
    • Tudnunk kell, hogy az Azure Synapse-be való áttérés megfelel-e a költségvetésünknek.
  • Ennek a poC-nak a végén:
    • Az adatokkal azonosítjuk a kiszolgáló nélküli SQL-készlethez jól illeszkedő adatátalakításokat.
    • Az adatok alapján megállapíthatjuk, hogy mikor használható a kiszolgáló nélküli SQL-készlet az adatvizualizáció során.
    • Az adatokból megtudhatjuk, milyen könnyedén használhatják az adatszakértők és az adattudósok az új platformot.
    • Betekintést nyerhettünk a megvalósítási vagy migrálási projekt végrehajtásához szükséges erőfeszítések jobb becsléséhez.
    • Olyan elemek listáját fogjuk felsorolni, amelyek további tesztelést igényelhetnek.
    • A POC sikeres lesz, ha rendelkezünk a szükséges adatokkal, és befejeztük az azonosított tesztelést annak meghatározására, hogy a kiszolgáló nélküli SQL-készlet hogyan támogatja a felhőalapú big data-t és az előzetes elemzési platformot.
    • Eldöntjük, hogy továbbléphetünk-e a következő fázisra, vagy több POC-tesztelésre van szükség a döntés véglegesítéséhez.
    • A konkrét adatpontok által támogatott megbízható üzleti döntést hozhatjuk meg.

A projekt megtervezése

A célokat konkrét tesztek azonosítására és az azonosított kimenetek biztosítására használhatja. Fontos, hogy legalább egy teszttel támogassa az egyes célokat és a várt kimeneteket. Emellett konkrét adatfeltárási és elemzési feladatokat, konkrét átalakításokat és konkrét tesztelni kívánt meglévő feldolgozásokat is azonosíthat. Azonosítsa a használni kívánt adatkészletet és kódbázist.

Íme egy példa a tervezéshez szükséges specifikussági szintre:

  • Cél: Tudnunk kell, hogy az adatmérnökök el tudják-e érni a "Daily Batch Raw File Validation" nevű meglévő ETL-folyamat egyenértékű feldolgozását a szükséges SLA-ban.
  • Hozam: Rendelkezünk az adatokkal annak megállapításához, hogy T-SQL-lekérdezésekkel végrehajthatjuk-e a "Napi batch nyers fájlérvényesítés" ETL-folyamatot a szükséges SLA-ban.
  • Teszt: Az A, B és C érvényesítési lekérdezéseket az adatmérnökség azonosítja, és ezek az általános adatfeldolgozási igényeket képviselik. Hasonlítsa össze ezeknek a lekérdezéseknek a teljesítményét a meglévő rendszerből beszerzett viszonyítási alaptal.

A POC-adatkészlet kiértékelése

Az azonosított tesztek használatával válasszon ki egy adatkészletet a tesztek támogatásához. Szánjon időt az adathalmaz áttekintésére. Ellenőriznie kell, hogy az adathalmaz megfelelően képviseli-e a jövőbeli feldolgozást tartalom, összetettség és skálázás szempontjából. Ne használjon túl kicsi adathalmazt, mert nem nyújt reprezentatív teljesítményt. Ezzel szemben ne használjon túl nagy adathalmazt, mert a POC nem válhat teljes adatmigrálássá. Ügyeljen arra, hogy a meglévő rendszerekből szerezze be a megfelelő teljesítményteszteket, hogy teljesítmény-összehasonlításhoz használhassa őket.

Fontos

Mielőtt bármilyen adatot a felhőbe helyezne át, mindenképpen kérdezze meg a cégtulajdonosokat, hogy vannak-e blokkolók. Azonosítsa azokat a biztonsági vagy adatvédelmi problémákat, illetve az adatok elhomályosításának igényét, amelyeket az adatok felhőbe való áthelyezése előtt el kell végezni.

Magas szintű architektúra létrehozása

A javasolt jövőbeli állapotarchitektúra magas szintű architektúrája alapján azonosítsa a POC részét képező összetevőket. A magas szintű jövőbeli állapotarchitektúra valószínűleg számos adatforrást, számos adatfelhasználót, big data-összetevőt, esetleg gépi tanulási és mesterségesintelligencia-adatfogyasztót tartalmaz. A POC-architektúrának kifejezetten meg kell határoznia azokat az összetevőket, amelyek a POC részét képezik. Fontos, hogy azonosítsa azokat az összetevőket, amelyek nem részei a POC-tesztelésnek.

Ha már használja az Azure-t, azonosítsa a már meglévő erőforrásokat (Microsoft Entra ID, ExpressRoute és mások), amelyeket a POC során használhat. Azonosítsa a szervezet által használt Azure-régiókat is. Most nagyszerű alkalom arra, hogy azonosítsa az ExpressRoute-kapcsolat átviteli sebességét, és ellenőrizze más üzleti felhasználókkal, hogy a POC képes-e az átviteli sebesség egy részét felhasználni anélkül, hogy az káros hatással lenne az éles rendszerekre.

POC-erőforrások azonosítása

Konkrétan határozza meg a POC támogatásához szükséges technikai erőforrásokat és idővállalásokat. A POC-nak a következőkre lesz szüksége:

  • Egy üzleti képviselő, aki felügyeli a követelményeket és az eredményeket.
  • Egy alkalmazásadat-szakértő, aki a POC-hoz használja az adatokat, és ismeri a meglévő folyamatokat és logikát.
  • Kiszolgáló nélküli SQL-készlet szakértője.
  • Szakértő tanácsadó, aki optimalizálja a POC-teszteket.
  • A POC-projekt egyes összetevőihez szükséges erőforrások, de nem feltétlenül szükségesek a POC időtartamához. Ezek az erőforrások közé tartozhatnak a hálózati rendszergazdák, az Azure-rendszergazdák, az Active Directory-rendszergazdák, az Azure Portal rendszergazdái és mások.
  • Győződjön meg arról, hogy az összes szükséges Azure-szolgáltatási erőforrás ki van építve, és a szükséges hozzáférési szint biztosított, beleértve a tárfiókokhoz való hozzáférést is.
  • Győződjön meg arról, hogy rendelkezik olyan fiókkal, amely adathozzáférési engedélyekkel rendelkezik az adatok lekéréséhez a POC-hatókörben lévő összes adatforrásból.

Jótanács

Javasoljuk, hogy forduljon szakértő tanácsadóhoz a POC-hez való segítségnyújtáshoz. A Microsoft partnerközössége olyan szakértői tanácsadók globális elérhetőségével rendelkezik, akik segíthetnek az Azure Synapse értékelésében, értékelésében vagy megvalósításában.

Az ütemterv beállítása

Tekintse át a POC tervezési adatait és üzleti igényeit a POC időkeretének azonosításához. Reális becslést készíthet a POC-célok teljesítéséhez szükséges időről. A POC befejezésének idejét befolyásolja a POC-adathalmaz mérete, a tesztek száma és összetettsége, valamint a tesztelni kívánt felületek száma. Ha úgy becsüli, hogy a POC négy hétnél hosszabb ideig fog futni, fontolja meg a POC hatókörének csökkentését, hogy a legmagasabb prioritású célokra összpontosítson. A folytatás előtt mindenképpen szerezze be a jóváhagyást és a kötelezettségvállalást az összes vezető erőforrástól és szponzortól.

A POC gyakorlati használata

Javasoljuk, hogy bármely termelési projekt fegyelmével és szigorával hajtsa végre a POC-projektet. Futtassa a projektet a terv szerint, és kezeljen egy változáskérési folyamatot, hogy megakadályozza a POC hatókörének ellenőrizetlen növekedését.

Íme néhány példa a magas szintű feladatokra:

  1. Hozzon létre egy Synapse-munkaterületet, tárfiókokat és a POC-csomagban azonosított Azure-erőforrásokat.
  2. Állítsa be a hálózatkezelést és a biztonságot a követelményeknek megfelelően.
  3. Adjon megfelelő hozzáférést a POC-csapat tagjainak. Ebből a cikkből megtudhatja, hogy a fájlokhoz közvetlenül az Azure Storage-ból férhet hozzá.
  4. Töltse be a POC-adatkészletet.
  5. Implementálja és konfigurálja a teszteket, és/vagy migrálja a meglévő kódot kiszolgáló nélküli SQL-készlet szkriptjeibe és nézeteibe.
  6. Hajtsa végre a teszteket:
    • Számos teszt párhuzamosan is végrehajtható.
    • Az eredményeket hasznosítható és könnyen érthető formátumban rögzítheti.
  7. Monitorozza a hibaelhárítást és a teljesítményt.
  8. Értékelje ki az eredményeket, és mutassa be az eredményeket.
  9. A projekt következő szakaszának megtervezéséhez együttműködjön a műszaki érdekelt felekkel és a vállalkozással. A következő szakasz lehet egy nyomon követési POC vagy egy éles megvalósítás.

A POC-eredmények értelmezése

Az összes POC-teszt elvégzésekor kiértékeli az eredményeket. Először is értékelje ki, hogy teljesültek-e a POC-célok, és hogy a kívánt kimenetek összegyűjtve lettek-e. Állapítsa meg, hogy további tesztelésre van-e szükség, vagy bármilyen kérdés megválaszolására van szükség.

Következő lépések