Sdílet prostřednictvím


Operace strojového učení

Tento článek popisuje tři architektury Azure pro operace strojového učení, které mají kompletní kanály kontinuální integrace a průběžného doručování (CI/CD) a opětovné natrénování kanálů. Architektury jsou určené pro tyto aplikace umělé inteligence:

  • Klasické strojové učení
  • Počítačové zpracování obrazu (CV)
  • Zpracování přirozeného jazyka

Tyto architektury jsou produktem projektu MLOps v2. Zahrnují osvědčené postupy, které architekti řešení identifikovali při vývoji různých řešení strojového učení. Výsledek je nasaditelný, opakovatelný a udržovatelný vzor. Všechny tři architektury používají službu Azure Machine Learning.

Implementace s ukázkovými šablonami nasazení pro MLOps v2 najdete v úložišti Azure MLOps v2 Na GitHubu.

Potenciální případy použití

  • Klasické strojové učení: Nejčastější případy použití v této kategorii jsou prognózování časových řad, regrese a klasifikace tabulkových strukturovaných dat. Příkladem může být:

    • Binární a vícenásobná klasifikace popisků

    • Lineární, polynomické, ridge, laso, quantile a Bayesian regrese.

    • ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.

  • Projděte si také část článku: Architektura MLOps v tomto článku se zaměřuje hlavně na případy použití segmentace a klasifikace obrázků.

  • Zpracování přirozeného jazyka: Tuto architekturu MLOps můžete použít k implementaci:

    • Rozpoznávání pojmenovaných entit:

    • Klasifikace textu

    • Generování textu

    • Analýza postoje

    • Překlad

    • Odpovídání na dotazy

    • Souhrn

    • Detekce vět

    • Rozpoznávání jazyka

    • Označování částí řeči

Simulace umělé inteligence, hluboké učení o posílení a další formy umělé inteligence nejsou popsané v tomto článku.

Architektura

Model architektury MLOps v2 má čtyři hlavní modulární komponenty nebo fáze životního cyklu MLOps:

  • Datová aktiva
  • Správa a nastavení
  • Vývoj modelů nebo fáze vnitřní smyčky
  • Nasazení modelu nebo fáze vnější smyčky

Předchozí komponenty, propojení mezi nimi a typické osoby jsou standardní ve všech architekturách scénářů MLOps v2. Varianty podrobností o jednotlivých komponentách závisí na scénáři.

Základní architektura pro MLOps v2 pro Machine Learning je klasický scénář strojového učení pro tabulková data. Architektury CV a NLP vycházejí a upravují tuto základní architekturu.

MLOps v2 se zabývá následujícími architekturami popsanými v tomto článku:

Klasická architektura strojového učení

Diagram znázorňující klasickou architekturu strojového učení

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro klasickou architekturu strojového učení

  1. Datová aktiva

    Tato komponenta znázorňuje datové aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky této komponenty životního cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Zelená značka zaškrtnutí označuje zdroje a cíle dat, které představují doporučené osvědčené postupy založené na případu použití zákazníka.

  2. Správa a nastavení

    Tato komponenta je prvním krokem v nasazení řešení MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Tým infrastruktury může například:

    1. Vytvořte úložiště zdrojového kódu projektu.
    2. K vytváření pracovních prostorů Machine Learning použijte Bicep nebo Terraform.
    3. Vytvoření nebo úprava datových sad a výpočetních prostředků pro vývoj a nasazení modelu
    4. Definujte uživatele projektového týmu, jejich role a řízení přístupu k jiným prostředkům.
    5. Vytvořte kanály CI/CD.
    6. Vytvořte monitorovací komponenty pro shromažďování a vytváření výstrah pro metriky modelu a infrastruktury.

    Primární osobou přidruženou k této fázi je tým infrastruktury, ale organizace může mít také datové inženýry, techniky strojového učení nebo datové vědce.

  3. Vývoj modelů (fáze vnitřní smyčky)

    Fáze vnitřní smyčky se skládá z iterativního pracovního postupu datových věd, který funguje v rámci vyhrazeného a zabezpečeného pracovního prostoru Machine Learning. Předchozí diagram znázorňuje typický pracovní postup. Proces začíná příjmem dat, prochází průzkumnou analýzou dat, experimentováním, vývojem a vyhodnocením modelů a následně zaregistruje model pro použití v produkčním prostředí. Tato modulární komponenta je nezávislá a přizpůsobitelná procesu, který váš tým datových věd používá k vývoji modelů.

    Osoby přidružené k této fázi zahrnují datové vědce a techniky strojového učení.

  4. Registry služby Machine Learning

    Jakmile tým pro datové vědy vytvoří model, který může nasadit do produkčního prostředí, zaregistruje model v registru pracovního prostoru Machine Learning. Kanály CI, které se aktivují, buď automaticky registrací modelu, nebo schválením smyček člověka ve smyčce, propagují model a všechny další závislosti modelu do fáze nasazení modelu.

    Osoby přidružené k této fázi jsou obvykle technici strojového učení.

  5. Nasazení modelu (fáze vnější smyčky)

    Nasazení modelu nebo fáze vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Když model splňuje kritéria organizace a případu použití, kanály CD propagují model a související prostředky prostřednictvím produkčního, monitorování a potenciálního opětovného trénování.

    Personas asociované s touto fází jsou primárně technici strojového učení.

  6. Příprava a testování

    Fáze přípravy a testování se liší podle postupů zákazníka. Tato fáze obvykle zahrnuje operace, jako je opětovné trénování a testování kandidáta modelu na produkčních datech, testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Tato fáze probíhá v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech služby Machine Learning.

  7. Nasazení do provozu

    Jakmile model projde přípravnou a testovací fází, můžou inženýři strojového učení použít schválení s bránou člověkem ve smyčce k jeho povýšení do produkčního prostředí. Možnosti nasazení modelu zahrnují spravovaný dávkový koncový bod pro dávkové scénáře nebo spravované online koncové body nebo nasazení Kubernetes, které používá Azure Arc pro online scénáře téměř v reálném čase. Produkční prostředí se obvykle provádí v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech Machine Learning.

  8. Sledování

    Technici strojového učení monitorují komponenty v přípravném, testovacím a produkčním prostředí a shromažďují metriky související se změnami výkonu modelu, dat a infrastruktury. Tyto metriky můžou použít k provedení akce. Monitorování modelů a dat může zahrnovat kontrolu modelu a posunu dat, výkon modelu u nových dat a zodpovědné problémy s AI. Monitorování infrastruktury může identifikovat pomalou odezvu koncového bodu, nedostatečnou výpočetní kapacitu nebo problémy se sítí.

  9. Monitorování dat a modelů: události a akce

    Na základě kritérií modelu a dat, jako jsou prahové hodnoty metrik nebo plány, můžou automatizované triggery a oznámení implementovat vhodné akce, které se mají provést. Trigger může například model přetrénovat tak, aby používal nová produkční data, a pak model znovu propracoval a testoval předprodukční vyhodnocení. Nebo problém s modelem nebo daty může aktivovat akci, která vyžaduje zpětnou smyčku do fáze vývoje modelu, ve které můžou datoví vědci problém prozkoumat a potenciálně vyvíjet nový model.

  10. Monitorování infrastruktury: události a akce

    Automatizované triggery a oznámení můžou implementovat vhodné akce, které se mají provést na základě kritérií infrastruktury, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení. Automatické triggery a oznámení můžou aktivovat zpětnou smyčku do fáze nastavení a správy, kde tým infrastruktury může problém prozkoumat a potenciálně znovu nakonfigurovat výpočetní a síťové prostředky.

Architektura cv machine learningu

Diagram znázorňující architekturu počítačového zpracování obrazu

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro architekturu CV

Architektura CV služby Machine Learning je založená na klasické architektuře strojového učení, ale má změny specifické pro scénáře cv pod dohledem.

  1. Datová aktiva

    Tato komponenta ukazuje datové aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky této komponenty v životním cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Obrázky pro scénáře CV můžou pocházet z různých zdrojů dat. Pro zajištění efektivity při vývoji a nasazování modelů CV se službou Machine Learning doporučujeme azure Blob Storage a Azure Data Lake Storage.

  2. Správa a nastavení

    Tato komponenta je prvním krokem v nasazení MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Pro scénáře CV je správa a nastavení prostředí MLOps v2 z velké části stejná jako u klasického strojového učení, ale zahrnuje další krok. Tým infrastruktury používá funkci popisování machine learningu nebo jiného nástroje k vytvoření projektů popisků obrázků a poznámek.

  3. Vývoj modelů (fáze vnitřní smyčky)

    Fáze vnitřní smyčky se skládá z iterativního pracovního postupu datových věd provedených v rámci vyhrazeného a zabezpečeného pracovního prostoru Machine Learning. Hlavním rozdílem mezi tímto pracovním postupem a scénářem klasického strojového učení je, že popisování obrázků a anotace je klíčovou součástí této vývojové smyčky.

  4. Registry služby Machine Learning

    Jakmile tým pro datové vědy vytvoří model, který může nasadit do produkčního prostředí, zaregistruje model v registru pracovního prostoru Machine Learning. Kanály CI, které se aktivují automaticky registrací modelu nebo schválením uzavřeného člověka ve smyčce, podporují model a všechny ostatní závislosti modelu do fáze nasazení modelu.

  5. Nasazení modelu (fáze vnější smyčky)

    Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Když model splňuje kritéria organizace a případu použití, kanály CD propagují model a související prostředky prostřednictvím produkčního, monitorování a potenciálního opětovného trénování.

  6. Příprava a testování

    Fáze přípravy a testování se liší podle postupů zákazníka. Tato fáze obvykle zahrnuje operace, jako jsou testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Ve scénářích CV nemusí inženýři strojového učení přetrénovat kandidáta modelu na produkční data z důvodu omezení prostředků a času. Tým datových věd může místo toho použít produkční data pro vývoj modelů. Kandidátské modely zaregistrované ve vývojové smyčce se vyhodnocují pro produkční prostředí. Tato fáze probíhá v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech služby Machine Learning.

  7. Nasazení do provozu

    Jakmile model projde přípravnou a testovací fází, můžou inženýři strojového učení použít schválení s bránou člověkem ve smyčce k jeho povýšení do produkčního prostředí. Možnosti nasazení modelu zahrnují spravovaný dávkový koncový bod pro dávkové scénáře nebo spravované online koncové body nebo nasazení Kubernetes, které používá Azure Arc pro online scénáře téměř v reálném čase. Produkční prostředí se obvykle provádí v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech Machine Learning.

  8. Sledování

    Technici strojového učení monitorují komponenty v přípravném, testovacím a produkčním prostředí a shromažďují metriky související se změnami výkonu modelu, dat a infrastruktury. Tyto metriky můžou použít k provedení akce. Monitorování modelů a dat může zahrnovat kontrolu výkonu modelu u nových imagí. Monitorování infrastruktury může identifikovat pomalou odezvu koncového bodu, nedostatečnou výpočetní kapacitu nebo problémy se sítí.

  9. Monitorování dat a modelů: události a akce

    Klíčovými rozdíly od klasického strojového učení jsou fáze monitorování a událostí a akcí MLOps pro zpracování přirozeného jazyka. Automatizované opětovné trénování se obvykle neprojevuje ve scénářích CV, když se zjistí snížení výkonu modelu u nových imagí. V tomto případě je proces lidské smyčky nezbytný ke kontrole a přidávání poznámek k novým textovým datům modelu, který funguje špatně. Další akce se často vrátí zpět do smyčky vývoje modelu, aby se model aktualizoval novými imagemi.

  10. Monitorování infrastruktury: události a akce

    Automatizované triggery a oznámení můžou implementovat vhodné akce, které se mají provést na základě kritérií infrastruktury, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení. Automatické triggery a oznámení můžou aktivovat zpětnou smyčku do fáze nastavení a správy, ve které tým infrastruktury může problém prozkoumat a potenciálně změnit konfiguraci prostředí, výpočetních prostředků a síťových prostředků.

Architektura zpracování přirozeného jazyka ve službě Machine Learning

Diagram architektury zpracování přirozeného jazyka

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup architektury zpracování přirozeného jazyka

Architektura strojového učení pro zpracování přirozeného jazyka je založená na klasické architektuře strojového učení, ale má určité úpravy specifické pro scénáře NLP.

  1. Datová aktiva

    Tato komponenta demonstruje datová aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky této komponenty v životním cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Zelená značka zaškrtnutí označuje zdroje a cíle, které představují doporučené osvědčené postupy založené na případu použití zákazníka.

  2. Správa a nastavení

    Tato komponenta je prvním krokem v nasazení MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Pro scénáře zpracování přirozeného jazyka je správa a nastavení prostředí MLOps v2 z velké části stejná jako u klasického strojového učení, ale s dodatečným krokem: vytváření projektů popisků obrázků a poznámek pomocí funkce popisování strojového učení nebo jiného nástroje.

  3. Vývoj modelů (fáze vnitřní smyčky)

    Fáze vnitřní smyčky se skládá z iterativního pracovního postupu datových věd provedených v rámci vyhrazeného a zabezpečeného pracovního prostoru Machine Learning. Typická smyčka vývoje modelu NLP se liší od klasického scénáře strojového učení v tom, že typické vývojové kroky pro tento scénář zahrnují anotátory pro věty a tokenizace, normalizaci a vkládání textových dat.

  4. Registry služby Machine Learning

    Jakmile tým pro datové vědy vytvoří model, který může nasadit do produkčního prostředí, zaregistruje model v registru pracovního prostoru Machine Learning. Kanály CI, které se aktivují automaticky registrací modelu nebo schválením uzavřeného člověka ve smyčce, podporují model a všechny ostatní závislosti modelu do fáze nasazení modelu.

  5. Nasazení modelu (fáze vnější smyčky)

    Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Když model splňuje kritéria organizace a případu použití, kanály CD propagují model a související prostředky prostřednictvím produkčního, monitorování a potenciálního opětovného trénování.

  6. Příprava a testování

    Fáze přípravy a testování se liší podle postupů zákazníka. Tato fáze obvykle zahrnuje operace, jako je opětovné trénování a testování kandidáta modelu na produkčních datech, testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Tato fáze probíhá v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech služby Machine Learning.

  7. Nasazení do provozu

    Jakmile model projde přípravnou a testovací fází, můžou inženýři strojového učení použít schválení s bránou člověkem ve smyčce k jeho povýšení do produkčního prostředí. Možnosti nasazení modelu zahrnují spravovaný dávkový koncový bod pro dávkové scénáře nebo spravované online koncové body nebo nasazení Kubernetes, které používá Azure Arc pro online scénáře téměř v reálném čase. Produkční prostředí se obvykle provádí v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech Machine Learning.

  8. Sledování

    Technici strojového učení monitorují komponenty v přípravném, testovacím a produkčním prostředí a shromažďují metriky související se změnami výkonu modelu, dat a infrastruktury. Tyto metriky můžou použít k provedení akce. Monitorování modelů a dat může zahrnovat kontrolu modelu a posunu dat, výkon modelu u nových textových dat a zodpovědné problémy s AI. Monitorování infrastruktury může identifikovat problémy, jako je pomalá odezva koncového bodu, nedostatečná výpočetní kapacita a problémy se sítí.

  9. Monitorování dat a modelů: události a akce

    Stejně jako u architektury CV jsou klíčovými rozdíly od klasického strojového učení fáze monitorování dat a modelů a událostí a akcí MLOps pro zpracování přirozeného jazyka. Automatizované opětovné trénování se obvykle neprodává ve scénářích zpracování přirozeného jazyka, když se zjistí snížení výkonu modelu u nového textu. V tomto případě je proces lidské smyčky nezbytný ke kontrole a přidávání poznámek k novým textovým datům modelu, který funguje špatně. Další akcí je často vrátit se ke smyčce vývoje modelu a aktualizovat model novými textovými daty.

  10. Monitorování infrastruktury: události a akce

    Automatizované triggery a oznámení můžou implementovat vhodné akce, které se mají provést na základě kritérií infrastruktury, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení. Automatické triggery a oznámení můžou aktivovat zpětné smyčky do fáze nastavení a správy, ve které tým infrastruktury může problém prozkoumat a potenciálně změnit konfiguraci výpočetních a síťových prostředků.

Komponenty

  • Machine Learning je cloudová služba, kterou můžete použít k trénování, hodnocení, nasazování a správě modelů strojového učení ve velkém měřítku.

  • Azure Pipelines je buildový a testovací systém založený na Azure DevOps a používá se pro kanály buildu a verze. Azure Pipelines tyto kanály rozdělí na logické kroky označované jako úlohy.

  • GitHub je platforma pro hostování kódu pro správu verzí, spolupráci a pracovní postupy CI/CD.

  • Azure Arc je platforma, která používá Azure Resource Manager ke správě prostředků Azure a místních prostředků. Mezi prostředky patří virtuální počítače, clustery Kubernetes a databáze.

  • Kubernetes je opensourcový systém, který můžete použít k automatizaci nasazení, škálování a správy kontejnerizovaných aplikací.

  • Azure Data Lake Storage je systém souborů kompatibilní se systémem Hadoop. Má integrovaný hierarchický obor názvů a masivní škálování a ekonomiku služby Blob Storage.

  • Azure Synapse Analytics je neomezená analytická služba, která spojuje integraci dat, skladování podnikových dat a analýzu velkých objemů dat.

  • Azure Event Hubs je služba, která ingestuje datové proudy, které klientské aplikace generují. Potom ingestuje a ukládá streamovaná data, která zachová posloupnost přijatých událostí. Zákazníci se můžou připojit ke koncovým bodům centra, aby mohli načítat zprávy ke zpracování. Tato architektura používá integraci služby Data Lake Storage.

Ostatní úvahy

Předchozí model architektury MLOps v2 má několik důležitých komponent, včetně řízení přístupu na základě role (RBAC), které odpovídají obchodním zúčastněným stranám, efektivní správě balíčků a robustním monitorovacím mechanismům. Tyto komponenty společně přispívají k úspěšné implementaci a správě pracovních postupů strojového učení.

Řízení přístupu na základě role na základě osoby

Je důležité spravovat přístup k datům a prostředkům strojového učení. RBAC poskytuje robustní architekturu, která vám pomůže spravovat, kdo může provádět konkrétní akce a přistupovat ke konkrétním oblastem v rámci vašeho řešení. Navrhněte strategii segmentace identit tak, aby odpovídala životnímu cyklu modelů strojového učení ve službě Machine Learning a osobám zahrnutým v procesu. Každá osoba má určitou sadu zodpovědností, které se projeví v jejich rolích RBAC a členství ve skupinách.

Příklad osob

Pokud chcete podporovat odpovídající segmentaci v úloze strojového učení, zvažte následující běžné osoby, které informují návrh skupiny RBAC založené na identitě.

Datový vědec a technik strojového učení

Datoví vědci a technici strojového učení provádějí různé aktivity strojového učení a datových věd v životním cyklu vývoje softwaru projektu. Mezi jejich povinnosti patří průzkumná analýza dat a předběžné zpracování dat. Datoví vědci a technici strojového učení zodpovídají za trénování, vyhodnocování a nasazování modelů. Tyto zodpovědnosti rolí zahrnují také aktivity opravy přerušení pro modely strojového učení, balíčky a data. Tyto povinnosti jsou mimo rozsah týmu technické podpory platformy.

Typ: Osoba
Specifické pro projekt: Ano

Datový analytik

Datoví analytici poskytují nezbytný vstup pro aktivity datových věd, jako je spouštění dotazů SQL pro business intelligence. Mezi zodpovědnosti této role patří práce s daty, provádění analýzy dat a podpora vývoje modelu a nasazení modelu.

Typ: Osoba
Specifické pro projekt: Ano

Tester modelů

Testeři modelů provádějí testy v testovacích a přípravných prostředích. Tato role poskytuje funkční oddělení od procesů CI/CD.

Typ: Osoba
Specifické pro projekt: Ano

Obchodní zúčastněné strany

Obchodní zúčastněné strany jsou přidružené k projektu, jako je například marketingový manažer.

Typ: Osoba
Specifické pro projekt: Ano

Vedoucí projektu nebo vedoucí datové vědy

Vedoucí datové vědy je role správy projektu pro pracovní prostor Machine Learning. Tato role také řeší aktivity pro modely a balíčky strojového učení.

Typ: Osoba
Specifické pro projekt: Ano

Vlastník projektu nebo produktu (vlastník firmy)

Obchodní účastníci zodpovídají za pracovní prostor Machine Learning podle vlastnictví dat.

Typ: Osoba
Specifické pro projekt: Ano

Technická podpora platformy

Technická podpora platformy je pracovník technické podpory zodpovědný za aktivity narušující opravu napříč platformou. Tato role pokrývá infrastrukturu nebo službu, ale ne modely, balíčky nebo data strojového učení. Tyto komponenty zůstávají pod rolí datového vědce nebo inženýra strojového učení a jsou zodpovědností vedoucího projektu.

Typ: Osoba
Specifické pro projekt: Ne

Koncový uživatel modelu

Koncoví uživatelé modelu jsou koncovými spotřebiteli modelu strojového učení.

Typ: Osoba nebo proces
Specifické pro projekt: Ano

Procesy CI/CD

Procesy CI/CD vydávají nebo vracejí změny napříč prostředími platformy.

Typ: Proces
Specifické pro projekt: Ne

Pracovní prostor Machine Learning

Pracovní prostory Machine Learning používají spravované identity k interakci s jinými částmi Azure. Tato osoba představuje různé služby, které tvoří implementaci služby Machine Learning. Tyto služby komunikují s dalšími částmi platformy, například s vývojovým pracovním prostorem, který se připojuje k vývojovému úložišti dat.

Typ: Proces
Specifické pro projekt: Ne

Procesy monitorování

Procesy monitorování jsou výpočetní procesy, které monitorují a upozorňují na základě aktivit platformy.

Typ: Proces
Specifické pro projekt: Ne

Procesy zásad správného řízení dat

Procesy zásad správného řízení dat kontrolou projektu strojového učení a úložišť dat kontrolou zásad správného řízení dat.

Typ: Proces
Specifické pro projekt: Ne

Členství ve skupině Microsoft Entra

Při implementaci RBAC poskytují skupiny Microsoft Entra flexibilní a škálovatelný způsob správy přístupových oprávnění napříč různými osobami. Skupiny Microsoft Entra můžete použít ke správě uživatelů, kteří potřebují stejný přístup a oprávnění k prostředkům, jako jsou potenciálně omezené aplikace a služby. Místo přidání zvláštních oprávnění jednotlivým uživatelům vytvoříte skupinu, která použije zvláštní oprávnění pro každého člena této skupiny.

V tomto modelu architektury můžete tyto skupiny spojit s nastavením pracovního prostoru Machine Learning, jako je projekt, tým nebo oddělení. Uživatele můžete přidružit ke konkrétním skupinám a definovat jemně odstupňované zásady přístupu. Zásady udělují nebo omezují oprávnění k různým pracovním prostorům Machine Learning na základě funkcí úloh, požadavků na projekt nebo jiných kritérií. Můžete mít například skupinu, která uděluje všem datovým vědcům přístup k vývojovému pracovnímu prostoru pro konkrétní případ použití.

Řízení přístupu na základě role (RBAC) identit

Zvažte, jak můžete použít následující předdefinované role Azure RBAC k použití RBAC pro produkční a předprodukční prostředí. Pro architekturu v tomto článku zahrnují produkční prostředí přípravná, testovací a produkční prostředí. Předprodukční prostředí zahrnují vývojová prostředí. Následující role RBAC jsou založené na osobách popsaných výše v tomto článku.

Standardní role

Role specifické pro komponenty

Tyto zkratky rolí Azure RBAC odpovídají následujícím tabulkám.

Produkční prostředí
Osoba Pracovní prostor Machine Learning Azure Key Vault Container Registry Účet služby Azure Storage Azure DevOps Azure Artifacts Pracovní prostor služby Log Analytics Azure Monitor
Datový vědec R LAR MR
Datový analytik
Tester modelů
Obchodní zúčastněné strany MR
Vedoucí projektu (vedoucí datové vědy) R R, KVR R LAR MR
Vlastník projektu nebo produktu MR
Technická podpora platformy O O, KVA DOPCA O O O
Koncový uživatel modelu
Procesy CI/CD O O, KVA AcrPush DOPCA O O O
Pracovní prostor Machine Learning R C C
Procesy monitorování R LAR MR
Procesy zásad správného řízení dat R R R R R
Předprodukční prostředí
Osoba Pracovní prostor Machine Learning Key Vault Container Registry Účet úložiště Azure DevOps Azure Artifacts Pracovní prostor služby Log Analytics Azure Monitor
Datový vědec REKLAMY R, KVA C C C C LAC MC
Datový analytik R C LAR MC
Tester modelů R R, KVR R R R R LAR MR
Obchodní zúčastněné strany R R R R R
Vedoucí projektu (vedoucí datové vědy) C C, KVA C C C C LAC MC
Vlastník projektu nebo produktu R R MR
Technická podpora platformy O O, KVA O O DOPCA O O O
Koncový uživatel modelu
Procesy CI/CD O O, KVA AcrPush O DOPCA O O O
Pracovní prostor Machine Learning R, KVR C C
Procesy monitorování R R R R R R LAC
Procesy zásad správného řízení dat R R R

Poznámka:

Každá osoba uchovává přístup po dobu trvání projektu s výjimkou technické podpory platformy, která má dočasný nebo včasný přístup k Microsoft Entra Privileged Identity Management (PIM ).

Řízení přístupu na základě role hraje zásadní roli při zabezpečení a zjednodušení pracovních postupů MLOps. RBAC omezuje přístup na základě přiřazených rolí a zabraňuje neoprávněným uživatelům v přístupu k citlivým datům, což snižuje rizika zabezpečení. Citlivá data zahrnují trénovací data nebo modely a kritickou infrastrukturu, jako jsou produkční kanály. RBAC můžete použít k zajištění dodržování předpisů pro ochranu osobních údajů v datech. RBAC také poskytuje jasný záznam o přístupu a oprávněních, což zjednodušuje auditování, usnadňuje identifikaci mezer v zabezpečení a sleduje aktivity uživatelů.

Správa balíčků

Závislosti na různých balíčcích, knihovnách a binárních souborech jsou společné v průběhu životního cyklu MLOps. Tyto závislosti, často vyvinuté komunitou a rychle se vyvíjejí, vyžadují odborné znalosti dané problematiky pro správné použití a porozumění. Musíte zajistit, aby příslušní lidé měli zabezpečený přístup k různým prostředkům, jako jsou balíčky a knihovny, ale musíte také zabránit ohrožením zabezpečení. Datoví vědci narazí na tento problém, když sestaví specializované stavební bloky pro řešení strojového učení. Tradiční přístupy ke správě softwaru jsou nákladné a neefektivní. Další přístupy poskytují větší hodnotu.

Ke správě těchto závislostí můžete použít zabezpečený, samoobslužný proces správy balíčků na základě vzoru karantény. Tento proces můžete navrhnout tak, aby datoví vědci mohli samoobslužně používat z kurátorovaného seznamu balíčků a zajistit, aby balíčky byly zabezpečené a vyhovující standardům organizace.

Tento přístup zahrnuje bezpečné výpisy tří úložišť standardních standardních balíčků strojového učení: Registr artefaktů Microsoft, index balíčků Pythonu (PyPI) a Conda. Bezpečné výpisy umožňují samoobslužné služby z jednotlivých pracovních prostorů Machine Learning. Pak pomocí automatizovaného procesu testování během nasazení prohledejte výsledné kontejnery řešení. Selhání elegantně ukončují proces nasazení a odeberou kontejner. Tento proces ukazuje následující diagram a tok procesu:

Diagram znázorňující zabezpečený přístup k balíčku Machine Learning

Tok procesu

  1. Datoví vědci, kteří pracují v pracovním prostoru Machine Learning, který má konfiguraci sítě, mohou samoobslužně obsluhovat balíčky strojového učení na vyžádání z úložišť balíčků strojového učení. Proces výjimky se vyžaduje pro všechno ostatní pomocí vzoru privátního úložiště , který se zachová a udržuje pomocí centralizované funkce.

  2. Machine Learning poskytuje řešení strojového učení jako kontejnery Dockeru. Při vývoji těchto řešení se nahrají do container Registry. Microsoft Defender for Containers generuje posouzení ohrožení zabezpečení pro image kontejneru.

  3. Nasazení řešení probíhá prostřednictvím procesu CI/CD. Microsoft Defender for DevOps se používá v celém zásobníku k zajištění správy stavu zabezpečení a ochrany před hrozbami.

  4. Kontejner řešení se nasadí jenom v případě, že předává všechny procesy zabezpečení. Pokud kontejner řešení selže s procesem zabezpečení, nasazení selže s oznámeními o chybách a úplnými záznamy auditu. Kontejner řešení se zahodí.

Předchozí tok procesu poskytuje zabezpečený, samoobslužný proces správy balíčků pro datové vědce a zajišťuje, aby balíčky byly zabezpečené a vyhovující standardům organizace. Pokud chcete vyvážit inovace a zabezpečení, můžete datovým vědcům udělit samoobslužný přístup k běžným balíčkům, knihovnám a binárním souborům strojového učení v předprodukčních prostředích. Vyžadovat výjimky pro méně běžné balíčky. Tato strategie zajišťuje, aby datoví vědci mohli během vývoje zůstat produktivní, což brání hlavním kritickým bodům během doručování.

Chcete-li zjednodušit procesy vydávání verzí, kontejnerizujte prostředí pro použití v produkčních prostředích. Kontejnerizovaná prostředí snižují zatížení a zajišťují trvalé zabezpečení prostřednictvím kontroly ohrožení zabezpečení. Tento tok procesu poskytuje opakovatelný přístup, který můžete použít napříč případy použití k době doručení. Snižuje celkové náklady na sestavování a nasazování řešení strojového učení v rámci vašeho podniku.

Sledování

V MLOps je monitorování zásadní pro zachování stavu a výkonu systémů strojového učení a zajištění toho, aby modely zůstaly efektivní a v souladu s obchodními cíli. Monitorování podporuje řízení zásad správného řízení, zabezpečení a řízení nákladů během fáze vnitřní smyčky. Poskytuje pozorovatelnost výkonu, snížení výkonu, snížení výkonu a využití modelu při nasazování řešení během fáze vnější smyčky. Aktivity monitorování jsou relevantní pro osoby, jako jsou Datoví vědci, obchodní zúčastněné strany, vedoucí projektů, vlastníci projektů, technická podpora platformy, procesy CI/CD a procesy monitorování.

V závislosti na nastavení pracovního prostoru Machine Learning, jako je projekt, tým nebo oddělení, zvolte svou platformu pro monitorování a ověřování.

Výkon modelu

Monitorování výkonu modelu za účelem včasné detekce problémů s modelem a snížení výkonu Sledujte výkon, abyste zajistili, že modely zůstanou přesné, spolehlivé a v souladu s obchodními cíli.

Posun dat

Posun dat sleduje změny v distribuci vstupních dat modelu jejich porovnáním s trénovacími daty modelu nebo nedávnými minulými produkčními daty. Tyto změny jsou výsledkem změn dynamiky trhu, změn transformace funkcí nebo upstreamových změn dat. Tyto změny můžou snížit výkon modelu, takže je důležité sledovat posun, aby se zajistila včasná náprava. Aby bylo možné provést porovnání, refaktoring posunu dat vyžaduje nedávné produkční datové sady a výstupy.

Prostředí: Produkční prostředí
Usnadnění Azure: Machine Learning – Monitorování modelů

Posun předpovědi

Posun předpovědi sleduje změny v distribuci výstupů predikce modelu tak, že je porovná s ověřením, testem označeným nebo nedávnými produkčními daty. Aby bylo možné provést porovnání, refaktoring posunu dat vyžaduje nedávné produkční datové sady a výstupy.

Prostředí: Produkční prostředí
Usnadnění Azure: Machine Learning – Monitorování modelů

Prostředek

K označení kvality a výkonu, jako je využití procesoru nebo paměti, použijte několik modelů, které obsluhují metriky koncových bodů. Tento přístup vám pomůže naučit se z produkčního prostředí, což pomáhá řídit budoucí investice nebo změny.

Prostředí: Vše
Usnadnění Azure: Monitorování – Metriky online koncových bodů

Metriky využití

Monitorujte využití koncových bodů, abyste měli jistotu, že splňujete klíčové ukazatele výkonu specifické pro organizaci nebo úlohy, sledujte vzory využití a diagnostikujte a opravujte problémy, které uživatelé mají.

Žádosti klientů

Sledujte počet požadavků klientů na koncový bod modelu, abyste porozuměli aktivnímu profilu využití koncových bodů, což může mít vliv na škálování nebo optimalizaci nákladů.

Prostředí: Produkční prostředí
Usnadnění Azure: Monitorování – Metriky online koncových bodů, například RequestsPerMinute. Poznámky:

  • Přijatelné prahové hodnoty můžete zarovnat k nastavení velikosti trička nebo anomálií, které jsou přizpůsobené potřebám vaší úlohy.
  • Vyřazení modelů, které se už nepoužívají z produkčního prostředí
Zpoždění omezování

Zpoždění omezování se zpomalují v požadavku a odpovědi na přenosy dat. Omezování probíhá na úrovni Resource Manageru a na úrovni služby. Sledujte metriky na obou úrovních.

Prostředí: Produkční prostředí
Usnadnění Azure:

  • Monitorování – Resource Manager, součet RequestThrottlingDelayMs, ResponseThrottlingDelayMs.
  • Machine Learning – Pokud chcete zkontrolovat informace o požadavcích koncových bodů, můžete povolit protokoly provozu online koncového bodu. Ke zpracování protokolů můžete použít pracovní prostor služby Log Analytics.

Poznámky: Sladění přijatelných prahových hodnot s cíli úrovně služeb (SLA) nebo smluv o úrovni služeb (SLA) vaší úlohy a nefunkčním požadavkům řešení (NFR).

Vygenerované chyby

Sledujte chyby kódu odpovědi, které pomáhají měřit spolehlivost služeb a zajistit včasné zjišťování problémů se službami. Například náhlé zvýšení 500 odpovědí na chyby serveru může znamenat kritický problém, který vyžaduje okamžitou pozornost.

Prostředí: Produkční prostředí
Usnadnění Azure: Machine Learning – Povolení protokolů provozu online koncových bodů ke kontrole informací o vaší žádosti Můžete například zkontrolovat počet XRequestId pomocí ModelStatusCode nebo ModelStatusReason. Ke zpracování protokolů můžete použít pracovní prostor služby Log Analytics.
Poznámky:

  • Všechny kódy odpovědí HTTP v rozsahu 400 a 500 jsou klasifikovány jako chyba.

Optimalizace nákladů

Správa nákladů a optimalizace v cloudovém prostředí jsou zásadní, protože pomáhají úlohám řídit výdaje, efektivně přidělovat prostředky a maximalizovat hodnotu ze svých cloudových služeb.

Výpočetní prostředky pracovního prostoru

Pokud měsíční provozní výdaje dosáhnou předdefinované částky nebo překročí předdefinovanou částku, vygenerujte výstrahy, které upozorní relevantní účastníky, jako jsou vedoucí projektu nebo vlastníci projektů, na základě hranic nastavení pracovního prostoru. Nastavení pracovního prostoru můžete určit na základě hranic souvisejících s projektem, týmem nebo oddělením.

Prostředí: Vše
Usnadnění Azure: Microsoft Cost Management – Upozornění na rozpočet
Poznámky:

  • Nastavte prahové hodnoty rozpočtu na základě počátečních NFR a odhadů nákladů.
  • Použijte více úrovní prahových hodnot. Více úrovní prahových hodnot zajistí, aby zúčastněné strany před překročením rozpočtu dostávaly odpovídající upozornění. Mezi tyto zúčastněné strany můžou patřit obchodní zájemci, vlastníci projektů nebo potenciální zákazníci projektu v závislosti na organizaci nebo úloze.
  • Konzistentní upozornění rozpočtu můžou být také triggerem pro refaktoring, který podporuje větší poptávku.
Neautnost pracovního prostoru

Pokud pracovní prostor Machine Learning nezobrazuje žádné známky aktivního použití na základě přidruženého využití výpočetních prostředků pro zamýšlený případ použití, vlastník projektu může pracovní prostor vyřadit z provozu, pokud už daný projekt nepotřebujete.

Prostředí: Předprodukční prostředí
Usnadnění Azure:

Poznámky:

  • Aktivní jádra by měla být rovna nule s agregací počtu.
  • Zarovnejte prahové hodnoty data s plánem projektu.

Zabezpečení

Monitorujte, abyste zjistili odchylky od vhodných kontrolních mechanismů zabezpečení a směrných plánů, abyste měli jistotu, že pracovní prostory služby Machine Learning vyhovují zásadám zabezpečení vaší organizace. Můžete použít kombinaci předdefinovaných a vlastních definovaných zásad.

Prostředí: Vše
Usnadnění Azure: Azure Policy for Machine Learning

Zabezpečení koncových bodů

Abyste získali přehled o klíčových obchodních rozhraních API, implementujte cílené monitorování zabezpečení všech koncových bodů služby Machine Learning. Můžete prozkoumat a vylepšit stav zabezpečení rozhraní API, určit prioritu oprav ohrožení zabezpečení a rychle detekovat aktivní hrozby v reálném čase.

Prostředí: Produkční prostředí
Usnadnění Azure: Microsoft Defender for API nabízí širokou ochranu životního cyklu, detekci a pokrytí odpovědí pro rozhraní API. Poznámky: Defender for API poskytuje zabezpečení pro rozhraní API publikovaná ve službě Azure API Management. Defender for API můžete připojit na portálu Microsoft Defender for Cloud nebo v instanci služby API Management na webu Azure Portal. Online koncové body služby Machine Learning musíte integrovat se službou API Management.

Monitorování nasazení

Monitorování nasazení zajišťuje, aby všechny koncové body, které vytvoříte, dodržovaly zásady úloh nebo organizace a byly bez ohrožení zabezpečení. Tento proces vyžaduje, abyste vynucovali zásady dodržování předpisů u prostředků Azure před nasazením a po nasazení, zajistili trvalé zabezpečení prostřednictvím kontroly ohrožení zabezpečení a zajistili, že služba během provozu splňuje cíle úrovně služeb.

Standardy a zásady správného řízení

Sledujte odchylky od odpovídajících standardů a zajistěte, aby vaše úloha dodržovala mantinely.

Prostředí: Vše
Usnadnění Azure:

  • Přiřazení a životní cyklus spravovaných zásad prostřednictvím Služby Azure Pipelines za účelem zacházení se zásadami jako s kódem
  • PsRule pro Azure poskytuje testovací architekturu pro infrastrukturu Azure jako kód.
  • Zásady Enterprise Azure můžete použít jako kód v zásadách nasazení systému založených na CI/CD, sadách zásad, přiřazeních, výjimkách zásad a přiřazování rolí.

Poznámky: Další informace najdete v doprovodných materiálech Azure k dodržování právních předpisů ve službě Machine Learning.

Kontrola zabezpečení

Implementujte automatizované kontroly zabezpečení jako součást automatizovaných procesů integrace a nasazení.

Prostředí: Vše
Usnadnění Azure: Defender for DevOps
Poznámky: Tento proces můžete rozšířit pomocí aplikací na Azure Marketplace pro moduly testování zabezpečení jiných společností než Microsoft.

Průběžná služba

Monitorujte probíhající službu rozhraní API a sledujte optimalizaci výkonu, zabezpečení a využití prostředků. Zajistěte včasné zjišťování chyb, efektivní řešení potíží a dodržování standardů.

Prostředí: Produkční prostředí
Usnadnění Azure:

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Další přispěvatelé:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky