Feladatátvétel az üzletmenet folytonosságához és vészhelyreállításhoz

Az üzemidő maximalizálása érdekében tervezze meg előre az üzletmenet folytonosságát, és készüljön fel a vészhelyreállításra az Azure Machine Tanulás.

A Microsoft arra törekszik, hogy az Azure-szolgáltatások mindig elérhetők legyenek. Előfordulhat azonban, hogy nem tervezett szolgáltatáskimaradások lépnek fel. Javasoljuk, hogy a regionális szolgáltatáskimaradások kezeléséhez használjon vészhelyreállítási tervet. Ebben a cikkben az alábbiakkal ismerkedhet meg:

  • Tervezze meg az Azure Machine Tanulás és a kapcsolódó erőforrások többrégiós üzembe helyezését.
  • Maximalizálhatja a naplók, jegyzetfüzetek, Docker-képek és egyéb metaadatok helyreállításának esélyét.
  • A megoldás magas rendelkezésre állásának megtervezése.
  • Feladatátvétel kezdeményezése egy másik régióba.

Fontos

Maga az Azure Machine Learning nem biztosít automatikus feladatátvételt vagy vészhelyreállítást. A munkaterület metaadatainak, például a futtatási előzményeknek a biztonsági mentése és visszaállítása nem érhető el.

Ha véletlenül törölte a munkaterületet vagy a megfelelő összetevőket, ez a cikk a jelenleg támogatott helyreállítási lehetőségeket is tartalmazza.

Az Azure Machine Tanulás Azure-szolgáltatásainak ismertetése

Az Azure Machine Tanulás több Azure-szolgáltatástól függ. Ezen szolgáltatások némelyike ki van építve az előfizetésében. Ön felel a szolgáltatások magas rendelkezésre állású konfigurációjaért. A többi szolgáltatás Microsoft-előfizetésben jön létre, és a Microsoft felügyeli.

Az Azure-szolgáltatások a következők:

  • Azure Machine Tanulás infrastruktúra: Az Azure Machine Tanulás-munkaterület Microsoft által felügyelt környezete.

  • Társított erőforrások: Az előfizetésben az Azure Machine Tanulás munkaterület létrehozása során kiosztott erőforrások. Ezek közé az erőforrások közé tartozik az Azure Storage, az Azure Key Vault, az Azure Container Registry és az Application Elemzések.

    • Az alapértelmezett tároló olyan adatokkal rendelkezik, mint a modell, a betanítási napló adatai és az adategységekre mutató hivatkozások.
    • A Key Vault az Azure Storage, a Container Registry és az adattárak hitelesítő adataival rendelkezik.
    • A Tárolóregisztrációs adatbázis rendelkezik Docker-rendszerképpel a betanítási és következtetési környezetekhez.
    • Az alkalmazás Elemzések az Azure Machine Tanulás figyelésére használható.
  • Számítási erőforrások: A munkaterület üzembe helyezése után létrehozott erőforrások. Létrehozhat például egy számítási példányt vagy számítási fürtöt egy gépi Tanulás-modell betanítása céljából.

    • Számítási példány és számítási fürt: Microsoft által felügyelt modellfejlesztési környezetek.
    • Egyéb erőforrások: Az Azure Machine Tanulás csatolható Microsoft számítási erőforrások, például az Azure Kubernetes Service (AKS), az Azure Databricks, az Azure Container Instances és az Azure HDInsight. Ön felel az erőforrások magas rendelkezésre állási beállításainak konfigurálásáért.
  • Egyéb adattárak: Az Azure Machine Tanulás más adattárakat is csatlakoztathat, például az Azure Storage-t és az Azure Data Lake Storage-t az adatok betanításához. Ezek az adattárak az előfizetésen belül vannak kiépítve. Ön felel a magas rendelkezésre állási beállítások konfigurálásáért. Az adattárak egyéb beállításainak megtekintéséhez lásd : Adattárak létrehozása.

Az alábbi táblázat azOkat az Azure-szolgáltatásokat mutatja be, amelyeket a Microsoft felügyel, és amelyeket Ön felügyel. Emellett az alapértelmezés szerint magas rendelkezésre állású szolgáltatásokat is jelzi.

Szolgáltatás Felügyelte: Magas rendelkezésre állás alapértelmezés szerint
Azure Machine Tanulás infrastruktúra Microsoft
Társított erőforrások
Azure Storage Ön
Key Vault Ön
Container Registry Ön
Application Insights Ön N.a.
Számítási erőforrások
Számítási példány Microsoft
Számítási fürt Microsoft
Egyéb számítási erőforrások, például az AKS,
Azure Databricks, Container Instances, HDInsight
Ön
Egyéb adattárak , például az Azure Storage, az SQL Database,
Azure Database for PostgreSQL, Azure Database for MySQL,
Azure Databricks fájlrendszer
Ön

A cikk további része azokat a műveleteket ismerteti, amelyeket az egyes szolgáltatások magas rendelkezésre állásának érdekében el kell végeznie.

Többrégiós üzembe helyezés megtervezése

A többrégiós üzembe helyezés az Azure Machine Tanulás és más erőforrások (infrastruktúra) két Azure-régióban történő létrehozására támaszkodik. Ha regionális kimaradás történik, átválthat a másik régióra. Az erőforrások üzembe helyezésének tervezésekor vegye figyelembe a következő szempontokat:

  • Regionális rendelkezésre állás: Ha lehetséges, használjon egy régiót ugyanabban a földrajzi területen, nem feltétlenül a legközelebbi régiót. Az Azure Machine Tanulás regionális elérhetőségének ellenőrzéséhez tekintse meg az Azure-termékek régiónkénti elérhetőségét.

  • Azure párosított régiók: A párosított régiók koordinálják a platformfrissítéseket, és szükség esetén rangsorolják a helyreállítási erőfeszítéseket. Azonban nem minden régió támogatja a párosított régiókat. További információt az Azure párosított régióiban talál.

  • Szolgáltatás rendelkezésre állása: Döntse el, hogy a megoldás által használt erőforrásoknak melegnek/melegnek, melegnek/melegnek vagy hidegnek kell-e lenniük.

    • Gyakori és gyakori elérésű: Mindkét régió egyszerre aktív, és egy régió készen áll a használat azonnali megkezdésére.
    • Gyakori/meleg: Az elsődleges régió aktív, a másodlagos régió kritikus erőforrásokat (például üzembe helyezett modelleket) tartalmaz, amelyek készen állnak az indításra. A nem kritikus erőforrásokat manuálisan kell üzembe helyezni a másodlagos régióban.
    • Gyakori és ritka elérésű: Az elsődleges régió aktív, a másodlagos régióban üzembe helyezve van az Azure Machine Tanulás és egyéb erőforrások, valamint a szükséges adatok. Az erőforrásokat, például modelleket, modelltelepítéseket vagy folyamatokat manuálisan kell üzembe helyezni.

Tipp.

Az üzleti követelményektől függően dönthet úgy, hogy a különböző Azure Machine-Tanulás erőforrásokat másként kezeli. Előfordulhat például, hogy az üzembe helyezett modellekhez (következtetéshez), a kísérletekhez (betanításhoz) pedig a gyakori és a ritka elérésű modelleket szeretné használni.

Az Azure Machine Tanulás más szolgáltatásokra épül. Egyes szolgáltatások konfigurálhatók más régiókba való replikálásra. Másokat manuálisan kell létrehoznia több régióban. Az alábbi táblázat a replikációért felelős szolgáltatások listáját és a konfiguráció áttekintését tartalmazza:

Azure-szolgáltatás Georeplikált Konfiguráció
Gépi Tanulás munkaterület Ön Munkaterület létrehozása a kijelölt régiókban.
Gépi Tanulás számítás Ön Hozza létre a számítási erőforrásokat a kijelölt régiókban. A dinamikusan skálázható számítási erőforrások esetében győződjön meg arról, hogy mindkét régió elegendő számítási kvótát biztosít az igényeinek.
Gépi Tanulás beállításjegyzék Ön Hozza létre a beállításjegyzéket több régióban.
Key Vault Microsoft Használja ugyanazt a Key Vault-példányt az Azure Machine Tanulás munkaterületével és erőforrásaival mindkét régióban. A Key Vault automatikusan áttér egy másodlagos régióra. További információ: Azure Key Vault rendelkezésre állása és redundancia.
Container Registry Microsoft Konfigurálja a Container Registry-példányt a regisztrációs adatbázisok georeplikálásához az Azure Machine Tanulás párosított régiójába. Használja ugyanazt a példányt mindkét munkaterületpéldányhoz. További információ: Georeplikálás az Azure Container Registryben.
Tárfiók Ön Az Azure Machine Tanulás nem támogatja az alapértelmezett tárfiók feladatátvételét georedundáns tárolás (GRS), georedundáns tárolás (GZRS), olvasási hozzáférésű georedundáns tárolás (RA-GRS) vagy írásvédett georedundáns tárolás (RA-GZRS) használatával. Hozzon létre egy külön tárfiókot az egyes munkaterületek alapértelmezett tárterületéhez.
Hozzon létre külön tárfiókokat vagy szolgáltatásokat más adattárakhoz. További információ: Azure Storage-redundancia.
Application Insights Ön Hozzon létre alkalmazás Elemzések a munkaterülethez mindkét régióban. Az adatmegőrzési időtartam és a részletek módosításához tekintse meg az Alkalmazás Elemzések adatgyűjtését, megőrzését és tárolását.

A másodlagos régió gyors helyreállításának és újraindításának engedélyezéséhez a következő fejlesztési eljárásokat javasoljuk:

  • Azure Resource Manager-sablonok használata. A sablonok "kódként nyújtott infrastruktúra", és lehetővé teszik a szolgáltatások gyors üzembe helyezését mindkét régióban.
  • A két régió közötti eltérés elkerülése érdekében frissítse a folyamatos integrációs és üzembehelyezési folyamatokat a két régióban való üzembe helyezéshez.
  • Az üzemelő példányok automatizálása során adja meg a munkaterülethez csatolt számítási erőforrások, például az Azure Kubernetes Service konfigurációját.
  • Szerepkör-hozzárendelések létrehozása mindkét régió felhasználói számára.
  • Hozzon létre olyan hálózati erőforrásokat, mint az Azure Virtual Networks és a privát végpontok mindkét régióban. Győződjön meg arról, hogy a felhasználók mindkét hálózati környezethez hozzáférnek. Például vpn- és DNS-konfigurációk mindkét virtuális hálózathoz.

Számítási és adatszolgáltatások

Az igényeitől függően előfordulhat, hogy több számítási vagy adatszolgáltatással rendelkezik, amelyeket az Azure Machine Tanulás használ. Használhatja például az Azure Kubernetes Servicest vagy az Azure SQL Database-t. Az alábbi információkból megtudhatja, hogyan konfigurálhatja ezeket a szolgáltatásokat magas rendelkezésre állásra.

Számítási erőforrások

Adatszolgáltatások

Tipp.

Ha saját, ügyfél által felügyelt kulcsot ad meg egy Azure Machine Tanulás-munkaterület üzembe helyezéséhez, az Azure Cosmos DB is ki lesz építve az előfizetésében. Ebben az esetben Ön a felelős a magas rendelkezésre állású beállítások konfigurálásáért. Tekintse meg az Azure Cosmos DB magas rendelkezésre állását.

Tervezés magas rendelkezésre álláshoz

Rendelkezésreállási zónák

Egyes Azure-szolgáltatások támogatják a rendelkezésre állási zónákat. A rendelkezésre állási zónákat támogató régiók esetében, ha egy zóna leáll, a számítási feladatok szünetelnek, és az adatokat menteni kell. Az adatok azonban nem frissítendők, amíg a zóna újra online állapotba nem kerül.

További információért lásd: A rendelkezésre állási zónák szolgáltatása és regionális támogatása.

Kritikus összetevők üzembe helyezése több régióban

Határozza meg a kívánt üzletmenet-folytonossági szintet. A szint eltérhet a megoldás összetevői között. Előfordulhat például, hogy az éles folyamatokhoz vagy modellek üzembe helyezéséhez gyakori/gyakori elérésű konfigurációt, kísérletezéshez pedig hideg/meleg beállítást szeretne használni.

Betanítási adatok kezelése izolált tárolón

Ha az adattárolót elkülöníti a munkaterület naplókhoz használt alapértelmezett tárolójától, a következőket teheti:

  • Csatolja ugyanazokat a tárolási példányokat, mint az adattárak az elsődleges és másodlagos munkaterületekhez.
  • Használja ki a georeplikálást az adattárfiókokhoz, és maximalizálja az üzemidőt.

Gépi tanulási eszközök kezelése kódként

Feljegyzés

A munkaterület metaadatainak, például a futtatási előzményeknek, modelleknek és környezeteknek a biztonsági mentése és visszaállítása nem érhető el. Ha yaML-specifikációkat használó kódként adja meg az eszközöket és konfigurációkat, az segít újra létrehozni az objektumokat a munkaterületeken katasztrófa esetén.

Az Azure Machine Tanulás feladatait egy feladat specifikációja határozza meg. Ez a specifikáció a munkaterület-példány szintjén felügyelt bemeneti összetevők függőségeit tartalmazza, beleértve a környezeteket és a számítást is. Többrégiós feladatok beküldése és üzembe helyezése esetén a következő eljárásokat javasoljuk:

  • Helyileg kezelheti a kódbázist egy Git-adattárral.

    • Fontos jegyzetfüzetek exportálása az Azure Machine Tanulás Studióból.
    • A studióban létrehozott folyamatok exportálása kódként.
  • Konfigurációk kezelése kódként.

    • Kerülje a munkaterületre mutató szigorúan kódolt hivatkozásokat. Ehelyett konfiguráljon egy hivatkozást a munkaterület-példányra egy konfigurációs fájl használatával, és használja a MLClient.from_config() parancsot a munkaterület inicializálásához.
    • Egyéni Docker-rendszerképek használata esetén használjon Docker-fájlt.

Feladatátvétel kezdeményezése

A feladatátvételi munkaterületen végzett munka folytatása

Amikor az elsődleges munkaterület elérhetetlenné válik, áttérhet a másodlagos munkaterületre a kísérletezés és a fejlesztés folytatásához. Az Azure Machine Tanulás nem küldi el automatikusan a feladatokat a másodlagos munkaterületre, ha kimaradás történik. Frissítse a kódkonfigurációt, hogy az az új munkaterületi erőforrásra mutasson. Javasoljuk, hogy kerülje a munkaterület-hivatkozások keménykódolását. Ehelyett használjon munkaterület-konfigurációs fájlt a manuális felhasználói lépések minimalizálásához a munkaterületek módosításakor. Mindenképpen frissítse az automatizálást is, például a folyamatos integrációs és üzembehelyezési folyamatokat az új munkaterületre.

Az Azure Machine Tanulás nem tudja szinkronizálni vagy helyreállítani az összetevőket vagy metaadatokat a munkaterületpéldányok között. Az alkalmazástelepítési stratégiától függően előfordulhat, hogy a feladatátvételi munkaterületen át kell helyeznie az összetevőket, vagy újra létre kell hoznia a kísérletezési bemeneteket( például adategységeket) a feladatátvételi munkaterületen. Ha az elsődleges munkaterület és a másodlagos munkaterület erőforrásait úgy konfigurálta, hogy a társított erőforrásokat engedélyezve legyen a georeplikálás, előfordulhat, hogy egyes objektumok közvetlenül elérhetők a feladatátvevő munkaterület számára. Ha például mindkét munkaterület ugyanazokat a Docker-rendszerképeket, konfigurált adattárakat és Azure Key Vault-erőforrásokat használja. Az alábbi ábra egy konfigurációt mutat be, amelyben két munkaterület ugyanazt a lemezképet (1), az adattárakat (2) és a Key Vaultot (3) használja.

A párosított régiók közötti feladatátvétel diagramja.

Feljegyzés

A szolgáltatáskimaradáskor futó feladatok nem váltanak automatikusan a másodlagos munkaterületre. Az sem valószínű, hogy a feladatok a kimaradás feloldása után sikeresen folytatódnak és befejeződnek az elsődleges munkaterületen. Ehelyett ezeket a feladatokat újra kell küldeni, akár a másodlagos munkaterületen, akár az elsődleges helyen (a kimaradás feloldása után).

Összetevők áthelyezése munkaterületek között

A helyreállítási módszertől függően előfordulhat, hogy a munka folytatásához át kell másolnia az összetevőket a munkaterületek között. Jelenleg az összetevők hordozhatósága a munkaterületek között korlátozott. Javasoljuk, hogy lehetőség szerint kódként kezelje az összetevőket, hogy újra létre lehessen hozni őket a feladatátvételi példányban.

A következő összetevők exportálhatók és importálhatók a munkaterületek között az Azure CLI-bővítmény használatával a gépi tanuláshoz:

Műtermék Exportálás Importálás
Modellek az ml model download --name {NAME} --version {VERSION} az ml model create
Környezetek az ml environment share --name my-environment --version {VERSION} --resource-group {RESOURCE_GROUP} --workspace-name {WORKSPACE} --share-with-name {NEW_NAME_IN_REGISTRY} --share-with-version {NEW_VERSION_IN_REGISTRY} --registry-name {REGISTRY_NAME} az ml environment create
Azure Machine Tanulás feladatok az ml job download -n {NAME} -g {RESOURCE_GROUP} -w {WORKSPACE_NAME} az ml job create -f {FILE} -g {RESOURCE_GROUP} -w {WORKSPACE_NAME}
Adategységek az ml data share --name {DATA_NAME} --version {VERSION} --resource-group {RESOURCE_GROUP} --workspace-name {WORKSPACE} --share-with-name {NEW_NAME_IN_REGISTRy} --share-with-version {NEW_VERSION_IN_REGISTRY} --registry-name {REGISTRY_NAME} az ml data create -f {FILE} -g {RESOURCE_GROUP} --registry-name {REGISTRY_NAME}

Tipp.

  • A feladatkimenetek a munkaterülethez társított alapértelmezett tárfiókban vannak tárolva. Bár szolgáltatáskimaradás esetén előfordulhat, hogy a feladatkimenetek elérhetetlenné válnak a stúdió felhasználói felületén, az adatokat közvetlenül a tárfiókon keresztül érheti el. A blobokban tárolt adatokkal kapcsolatos további információkért lásd : Blobok létrehozása, letöltése és listázása az Azure CLI-vel.

Helyreállítási beállítások

Munkaterület törlése

Ha véletlenül törölte a munkaterületet, lehetséges, hogy helyre tudja állítani azt. A helyreállítási lépésekkel kapcsolatban lásd a Munkaterület adatainak helyreállítása véletlen törlés után helyreállítható törléssel című témakört.

Még akkor is, ha a munkaterület nem állítható helyre, a következő lépések végrehajtásával még mindig lekérheti jegyzetfüzeteit a munkaterülethez társított Azure Storage-erőforrásból:

  • Az Azure Portalon keresse meg a törölt Azure Machine Tanulás-munkaterülethez csatolt tárfiókot.
  • A bal oldali Adattárolás szakaszban válassza a Fájlmegosztások elemet.
  • A jegyzetfüzetek a fájlmegosztáson találhatók a munkaterület-azonosítót tartalmazó névvel.

Következő lépések

Az Azure Machine Tanulás ismétlődő infrastruktúra-üzembe helyezésének megismeréséhez használjon Egy Azure Resource Manager-sablont.