Feladatátvétel az üzletmenet folytonosságához és vészhelyreállításhoz
Az üzemidő maximalizálása érdekében tervezze meg előre az üzletmenet folytonosságát, és készüljön fel a vészhelyreállításra az Azure Machine Tanulás.
A Microsoft arra törekszik, hogy az Azure-szolgáltatások mindig elérhetők legyenek. Előfordulhat azonban, hogy nem tervezett szolgáltatáskimaradások lépnek fel. Javasoljuk, hogy a regionális szolgáltatáskimaradások kezeléséhez használjon vészhelyreállítási tervet. Ebben a cikkben az alábbiakkal ismerkedhet meg:
- Tervezze meg az Azure Machine Tanulás és a kapcsolódó erőforrások többrégiós üzembe helyezését.
- Maximalizálhatja a naplók, jegyzetfüzetek, Docker-képek és egyéb metaadatok helyreállításának esélyét.
- A megoldás magas rendelkezésre állásának megtervezése.
- Feladatátvétel kezdeményezése egy másik régióba.
Fontos
Maga az Azure Machine Learning nem biztosít automatikus feladatátvételt vagy vészhelyreállítást. A munkaterület metaadatainak, például a futtatási előzményeknek a biztonsági mentése és visszaállítása nem érhető el.
Ha véletlenül törölte a munkaterületet vagy a megfelelő összetevőket, ez a cikk a jelenleg támogatott helyreállítási lehetőségeket is tartalmazza.
Az Azure Machine Tanulás Azure-szolgáltatásainak ismertetése
Az Azure Machine Tanulás több Azure-szolgáltatástól függ. Ezen szolgáltatások némelyike ki van építve az előfizetésében. Ön felel a szolgáltatások magas rendelkezésre állású konfigurációjaért. A többi szolgáltatás Microsoft-előfizetésben jön létre, és a Microsoft felügyeli.
Az Azure-szolgáltatások a következők:
Azure Machine Tanulás infrastruktúra: Az Azure Machine Tanulás-munkaterület Microsoft által felügyelt környezete.
Társított erőforrások: Az előfizetésben az Azure Machine Tanulás munkaterület létrehozása során kiosztott erőforrások. Ezek közé az erőforrások közé tartozik az Azure Storage, az Azure Key Vault, az Azure Container Registry és az Application Elemzések.
- Az alapértelmezett tároló olyan adatokkal rendelkezik, mint a modell, a betanítási napló adatai és az adategységekre mutató hivatkozások.
- A Key Vault az Azure Storage, a Container Registry és az adattárak hitelesítő adataival rendelkezik.
- A Tárolóregisztrációs adatbázis rendelkezik Docker-rendszerképpel a betanítási és következtetési környezetekhez.
- Az alkalmazás Elemzések az Azure Machine Tanulás figyelésére használható.
Számítási erőforrások: A munkaterület üzembe helyezése után létrehozott erőforrások. Létrehozhat például egy számítási példányt vagy számítási fürtöt egy gépi Tanulás-modell betanítása céljából.
- Számítási példány és számítási fürt: Microsoft által felügyelt modellfejlesztési környezetek.
- Egyéb erőforrások: Az Azure Machine Tanulás csatolható Microsoft számítási erőforrások, például az Azure Kubernetes Service (AKS), az Azure Databricks, az Azure Container Instances és az Azure HDInsight. Ön felel az erőforrások magas rendelkezésre állási beállításainak konfigurálásáért.
Egyéb adattárak: Az Azure Machine Tanulás más adattárakat is csatlakoztathat, például az Azure Storage-t és az Azure Data Lake Storage-t az adatok betanításához. Ezek az adattárak az előfizetésen belül vannak kiépítve. Ön felel a magas rendelkezésre állási beállítások konfigurálásáért. Az adattárak egyéb beállításainak megtekintéséhez lásd : Adattárak létrehozása.
Az alábbi táblázat azOkat az Azure-szolgáltatásokat mutatja be, amelyeket a Microsoft felügyel, és amelyeket Ön felügyel. Emellett az alapértelmezés szerint magas rendelkezésre állású szolgáltatásokat is jelzi.
Szolgáltatás | Felügyelte: | Magas rendelkezésre állás alapértelmezés szerint |
---|---|---|
Azure Machine Tanulás infrastruktúra | Microsoft | |
Társított erőforrások | ||
Azure Storage | Ön | |
Key Vault | Ön | ✓ |
Container Registry | Ön | |
Application Insights | Ön | N.a. |
Számítási erőforrások | ||
Számítási példány | Microsoft | |
Számítási fürt | Microsoft | |
Egyéb számítási erőforrások, például az AKS, Azure Databricks, Container Instances, HDInsight |
Ön | |
Egyéb adattárak , például az Azure Storage, az SQL Database, Azure Database for PostgreSQL, Azure Database for MySQL, Azure Databricks fájlrendszer |
Ön |
A cikk további része azokat a műveleteket ismerteti, amelyeket az egyes szolgáltatások magas rendelkezésre állásának érdekében el kell végeznie.
Többrégiós üzembe helyezés megtervezése
A többrégiós üzembe helyezés az Azure Machine Tanulás és más erőforrások (infrastruktúra) két Azure-régióban történő létrehozására támaszkodik. Ha regionális kimaradás történik, átválthat a másik régióra. Az erőforrások üzembe helyezésének tervezésekor vegye figyelembe a következő szempontokat:
Regionális rendelkezésre állás: Ha lehetséges, használjon egy régiót ugyanabban a földrajzi területen, nem feltétlenül a legközelebbi régiót. Az Azure Machine Tanulás regionális elérhetőségének ellenőrzéséhez tekintse meg az Azure-termékek régiónkénti elérhetőségét.
Azure párosított régiók: A párosított régiók koordinálják a platformfrissítéseket, és szükség esetén rangsorolják a helyreállítási erőfeszítéseket. Azonban nem minden régió támogatja a párosított régiókat. További információt az Azure párosított régióiban talál.
Szolgáltatás rendelkezésre állása: Döntse el, hogy a megoldás által használt erőforrásoknak melegnek/melegnek, melegnek/melegnek vagy hidegnek kell-e lenniük.
- Gyakori és gyakori elérésű: Mindkét régió egyszerre aktív, és egy régió készen áll a használat azonnali megkezdésére.
- Gyakori/meleg: Az elsődleges régió aktív, a másodlagos régió kritikus erőforrásokat (például üzembe helyezett modelleket) tartalmaz, amelyek készen állnak az indításra. A nem kritikus erőforrásokat manuálisan kell üzembe helyezni a másodlagos régióban.
- Gyakori és ritka elérésű: Az elsődleges régió aktív, a másodlagos régióban üzembe helyezve van az Azure Machine Tanulás és egyéb erőforrások, valamint a szükséges adatok. Az erőforrásokat, például modelleket, modelltelepítéseket vagy folyamatokat manuálisan kell üzembe helyezni.
Tipp.
Az üzleti követelményektől függően dönthet úgy, hogy a különböző Azure Machine-Tanulás erőforrásokat másként kezeli. Előfordulhat például, hogy az üzembe helyezett modellekhez (következtetéshez), a kísérletekhez (betanításhoz) pedig a gyakori és a ritka elérésű modelleket szeretné használni.
Az Azure Machine Tanulás más szolgáltatásokra épül. Egyes szolgáltatások konfigurálhatók más régiókba való replikálásra. Másokat manuálisan kell létrehoznia több régióban. Az alábbi táblázat a replikációért felelős szolgáltatások listáját és a konfiguráció áttekintését tartalmazza:
Azure-szolgáltatás | Georeplikált | Konfiguráció |
---|---|---|
Gépi Tanulás munkaterület | Ön | Munkaterület létrehozása a kijelölt régiókban. |
Gépi Tanulás számítás | Ön | Hozza létre a számítási erőforrásokat a kijelölt régiókban. A dinamikusan skálázható számítási erőforrások esetében győződjön meg arról, hogy mindkét régió elegendő számítási kvótát biztosít az igényeinek. |
Gépi Tanulás beállításjegyzék | Ön | Hozza létre a beállításjegyzéket több régióban. |
Key Vault | Microsoft | Használja ugyanazt a Key Vault-példányt az Azure Machine Tanulás munkaterületével és erőforrásaival mindkét régióban. A Key Vault automatikusan áttér egy másodlagos régióra. További információ: Azure Key Vault rendelkezésre állása és redundancia. |
Container Registry | Microsoft | Konfigurálja a Container Registry-példányt a regisztrációs adatbázisok georeplikálásához az Azure Machine Tanulás párosított régiójába. Használja ugyanazt a példányt mindkét munkaterületpéldányhoz. További információ: Georeplikálás az Azure Container Registryben. |
Tárfiók | Ön | Az Azure Machine Tanulás nem támogatja az alapértelmezett tárfiók feladatátvételét georedundáns tárolás (GRS), georedundáns tárolás (GZRS), olvasási hozzáférésű georedundáns tárolás (RA-GRS) vagy írásvédett georedundáns tárolás (RA-GZRS) használatával. Hozzon létre egy külön tárfiókot az egyes munkaterületek alapértelmezett tárterületéhez. Hozzon létre külön tárfiókokat vagy szolgáltatásokat más adattárakhoz. További információ: Azure Storage-redundancia. |
Application Insights | Ön | Hozzon létre alkalmazás Elemzések a munkaterülethez mindkét régióban. Az adatmegőrzési időtartam és a részletek módosításához tekintse meg az Alkalmazás Elemzések adatgyűjtését, megőrzését és tárolását. |
A másodlagos régió gyors helyreállításának és újraindításának engedélyezéséhez a következő fejlesztési eljárásokat javasoljuk:
- Azure Resource Manager-sablonok használata. A sablonok "kódként nyújtott infrastruktúra", és lehetővé teszik a szolgáltatások gyors üzembe helyezését mindkét régióban.
- A két régió közötti eltérés elkerülése érdekében frissítse a folyamatos integrációs és üzembehelyezési folyamatokat a két régióban való üzembe helyezéshez.
- Az üzemelő példányok automatizálása során adja meg a munkaterülethez csatolt számítási erőforrások, például az Azure Kubernetes Service konfigurációját.
- Szerepkör-hozzárendelések létrehozása mindkét régió felhasználói számára.
- Hozzon létre olyan hálózati erőforrásokat, mint az Azure Virtual Networks és a privát végpontok mindkét régióban. Győződjön meg arról, hogy a felhasználók mindkét hálózati környezethez hozzáférnek. Például vpn- és DNS-konfigurációk mindkét virtuális hálózathoz.
Számítási és adatszolgáltatások
Az igényeitől függően előfordulhat, hogy több számítási vagy adatszolgáltatással rendelkezik, amelyeket az Azure Machine Tanulás használ. Használhatja például az Azure Kubernetes Servicest vagy az Azure SQL Database-t. Az alábbi információkból megtudhatja, hogyan konfigurálhatja ezeket a szolgáltatásokat magas rendelkezésre állásra.
Számítási erőforrások
- Azure Kubernetes Service: Tekintse meg az Azure Kubernetes Service (AKS) üzletmenet-folytonossági és vészhelyreállítási ajánlott eljárásait, valamint a rendelkezésre állási zónákat használó Azure Kubernetes Service-fürt (AKS) létrehozását. Ha az AKS-fürtöt az Azure Machine Tanulás studio, SDK vagy CLI használatával hozták létre, a régiók közötti magas rendelkezésre állás nem támogatott.
- Azure Databricks: Lásd az Azure Databricks-fürtök regionális vészhelyreállítását.
- Tárolópéldányok: A feladatátvételért egy vezénylő felelős. Lásd: Azure Container Instances és container orchestrators.
- HDInsight: Lásd az Azure HDInsight által támogatott magas rendelkezésre állású szolgáltatásokat.
Adatszolgáltatások
- Azure Blob-tároló / Azure Files / Data Lake Storage Gen2: Lásd az Azure Storage redundanciát.
- Data Lake Storage Gen1: A Data Lake Storage Gen1 magas rendelkezésre állási és vészhelyreállítási útmutatója.
Tipp.
Ha saját, ügyfél által felügyelt kulcsot ad meg egy Azure Machine Tanulás-munkaterület üzembe helyezéséhez, az Azure Cosmos DB is ki lesz építve az előfizetésében. Ebben az esetben Ön a felelős a magas rendelkezésre állású beállítások konfigurálásáért. Tekintse meg az Azure Cosmos DB magas rendelkezésre állását.
Tervezés magas rendelkezésre álláshoz
Rendelkezésreállási zónák
Egyes Azure-szolgáltatások támogatják a rendelkezésre állási zónákat. A rendelkezésre állási zónákat támogató régiók esetében, ha egy zóna leáll, a számítási feladatok szünetelnek, és az adatokat menteni kell. Az adatok azonban nem frissítendők, amíg a zóna újra online állapotba nem kerül.
További információért lásd: A rendelkezésre állási zónák szolgáltatása és regionális támogatása.
Kritikus összetevők üzembe helyezése több régióban
Határozza meg a kívánt üzletmenet-folytonossági szintet. A szint eltérhet a megoldás összetevői között. Előfordulhat például, hogy az éles folyamatokhoz vagy modellek üzembe helyezéséhez gyakori/gyakori elérésű konfigurációt, kísérletezéshez pedig hideg/meleg beállítást szeretne használni.
Betanítási adatok kezelése izolált tárolón
Ha az adattárolót elkülöníti a munkaterület naplókhoz használt alapértelmezett tárolójától, a következőket teheti:
- Csatolja ugyanazokat a tárolási példányokat, mint az adattárak az elsődleges és másodlagos munkaterületekhez.
- Használja ki a georeplikálást az adattárfiókokhoz, és maximalizálja az üzemidőt.
Gépi tanulási eszközök kezelése kódként
Feljegyzés
A munkaterület metaadatainak, például a futtatási előzményeknek, modelleknek és környezeteknek a biztonsági mentése és visszaállítása nem érhető el. Ha yaML-specifikációkat használó kódként adja meg az eszközöket és konfigurációkat, az segít újra létrehozni az objektumokat a munkaterületeken katasztrófa esetén.
Az Azure Machine Tanulás feladatait egy feladat specifikációja határozza meg. Ez a specifikáció a munkaterület-példány szintjén felügyelt bemeneti összetevők függőségeit tartalmazza, beleértve a környezeteket és a számítást is. Többrégiós feladatok beküldése és üzembe helyezése esetén a következő eljárásokat javasoljuk:
Helyileg kezelheti a kódbázist egy Git-adattárral.
- Fontos jegyzetfüzetek exportálása az Azure Machine Tanulás Studióból.
- A studióban létrehozott folyamatok exportálása kódként.
Konfigurációk kezelése kódként.
- Kerülje a munkaterületre mutató szigorúan kódolt hivatkozásokat. Ehelyett konfiguráljon egy hivatkozást a munkaterület-példányra egy konfigurációs fájl használatával, és használja a MLClient.from_config() parancsot a munkaterület inicializálásához.
- Egyéni Docker-rendszerképek használata esetén használjon Docker-fájlt.
Feladatátvétel kezdeményezése
A feladatátvételi munkaterületen végzett munka folytatása
Amikor az elsődleges munkaterület elérhetetlenné válik, áttérhet a másodlagos munkaterületre a kísérletezés és a fejlesztés folytatásához. Az Azure Machine Tanulás nem küldi el automatikusan a feladatokat a másodlagos munkaterületre, ha kimaradás történik. Frissítse a kódkonfigurációt, hogy az az új munkaterületi erőforrásra mutasson. Javasoljuk, hogy kerülje a munkaterület-hivatkozások keménykódolását. Ehelyett használjon munkaterület-konfigurációs fájlt a manuális felhasználói lépések minimalizálásához a munkaterületek módosításakor. Mindenképpen frissítse az automatizálást is, például a folyamatos integrációs és üzembehelyezési folyamatokat az új munkaterületre.
Az Azure Machine Tanulás nem tudja szinkronizálni vagy helyreállítani az összetevőket vagy metaadatokat a munkaterületpéldányok között. Az alkalmazástelepítési stratégiától függően előfordulhat, hogy a feladatátvételi munkaterületen át kell helyeznie az összetevőket, vagy újra létre kell hoznia a kísérletezési bemeneteket( például adategységeket) a feladatátvételi munkaterületen. Ha az elsődleges munkaterület és a másodlagos munkaterület erőforrásait úgy konfigurálta, hogy a társított erőforrásokat engedélyezve legyen a georeplikálás, előfordulhat, hogy egyes objektumok közvetlenül elérhetők a feladatátvevő munkaterület számára. Ha például mindkét munkaterület ugyanazokat a Docker-rendszerképeket, konfigurált adattárakat és Azure Key Vault-erőforrásokat használja. Az alábbi ábra egy konfigurációt mutat be, amelyben két munkaterület ugyanazt a lemezképet (1), az adattárakat (2) és a Key Vaultot (3) használja.
Feljegyzés
A szolgáltatáskimaradáskor futó feladatok nem váltanak automatikusan a másodlagos munkaterületre. Az sem valószínű, hogy a feladatok a kimaradás feloldása után sikeresen folytatódnak és befejeződnek az elsődleges munkaterületen. Ehelyett ezeket a feladatokat újra kell küldeni, akár a másodlagos munkaterületen, akár az elsődleges helyen (a kimaradás feloldása után).
Összetevők áthelyezése munkaterületek között
A helyreállítási módszertől függően előfordulhat, hogy a munka folytatásához át kell másolnia az összetevőket a munkaterületek között. Jelenleg az összetevők hordozhatósága a munkaterületek között korlátozott. Javasoljuk, hogy lehetőség szerint kódként kezelje az összetevőket, hogy újra létre lehessen hozni őket a feladatátvételi példányban.
A következő összetevők exportálhatók és importálhatók a munkaterületek között az Azure CLI-bővítmény használatával a gépi tanuláshoz:
Tipp.
- A feladatkimenetek a munkaterülethez társított alapértelmezett tárfiókban vannak tárolva. Bár szolgáltatáskimaradás esetén előfordulhat, hogy a feladatkimenetek elérhetetlenné válnak a stúdió felhasználói felületén, az adatokat közvetlenül a tárfiókon keresztül érheti el. A blobokban tárolt adatokkal kapcsolatos további információkért lásd : Blobok létrehozása, letöltése és listázása az Azure CLI-vel.
Helyreállítási beállítások
Munkaterület törlése
Ha véletlenül törölte a munkaterületet, lehetséges, hogy helyre tudja állítani azt. A helyreállítási lépésekkel kapcsolatban lásd a Munkaterület adatainak helyreállítása véletlen törlés után helyreállítható törléssel című témakört.
Még akkor is, ha a munkaterület nem állítható helyre, a következő lépések végrehajtásával még mindig lekérheti jegyzetfüzeteit a munkaterülethez társított Azure Storage-erőforrásból:
- Az Azure Portalon keresse meg a törölt Azure Machine Tanulás-munkaterülethez csatolt tárfiókot.
- A bal oldali Adattárolás szakaszban válassza a Fájlmegosztások elemet.
- A jegyzetfüzetek a fájlmegosztáson találhatók a munkaterület-azonosítót tartalmazó névvel.
Következő lépések
Az Azure Machine Tanulás ismétlődő infrastruktúra-üzembe helyezésének megismeréséhez használjon Egy Azure Resource Manager-sablont.