Operace strojového učení

Článek
07/16/2024

Tento článek popisuje tři architektury Azure pro operace strojového učení, které mají kompletní kanály kontinuální integrace a průběžného doručování (CI/CD) a opětovné natrénování kanálů. Architektury jsou určené pro tyto aplikace umělé inteligence:

Klasické strojové učení
Počítačové zpracování obrazu (CV)
Zpracování přirozeného jazyka

Tyto architektury jsou produktem projektu MLOps v2. Zahrnují osvědčené postupy, které architekti řešení identifikovali při vývoji různých řešení strojového učení. Výsledek je nasaditelný, opakovatelný a udržovatelný vzor. Všechny tři architektury používají službu Azure Machine Learning.

Implementace s ukázkovými šablonami nasazení pro MLOps v2 najdete v úložišti Azure MLOps v2 Na GitHubu.

Potenciální případy použití

Klasické strojové učení: Nejčastější případy použití v této kategorii jsou prognózování časových řad, regrese a klasifikace tabulkových strukturovaných dat. Příkladem může být:
- Binární a vícenásobná klasifikace popisků
- Lineární, polynomické, ridge, laso, quantile a Bayesian regrese.
- ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.
Projděte si také část článku: Architektura MLOps v tomto článku se zaměřuje hlavně na případy použití segmentace a klasifikace obrázků.
Zpracování přirozeného jazyka: Tuto architekturu MLOps můžete použít k implementaci:
- Rozpoznávání pojmenovaných entit:
- Klasifikace textu
- Generování textu
- Analýza postoje
- Překlad
- Odpovídání na dotazy
- Souhrn
- Detekce vět
- Rozpoznávání jazyka
- Označování částí řeči

Simulace umělé inteligence, hluboké učení o posílení a další formy umělé inteligence nejsou popsané v tomto článku.

MLOps jako klíčová oblast návrhu pro AI pracovní zátěže

Plánování a implementace MLOps a GenAIOps jsou základní oblastí návrhu v úlohách AI v Azure. Pokud chcete získat základní informace o tom, proč tyto úlohy strojového učení potřebují specializované operace, přečtěte si téma MLOps a GenAIOps pro úlohy AI v Azure v rozhraní Azure Well-Architected Framework.

Architektura

Model architektury MLOps v2 má čtyři hlavní modulární komponenty nebo fáze životního cyklu MLOps:

Datová aktiva
Správa a nastavení
Vývoj modelů nebo fáze vnitřní smyčky
Nasazení modelu nebo fáze vnější smyčky

Předchozí komponenty, propojení mezi nimi a typické osoby jsou standardní ve všech architekturách scénářů MLOps v2. Varianty podrobností o jednotlivých komponentách závisí na scénáři.

Základní architektura pro MLOps v2 pro Machine Learning je klasický scénář strojového učení pro tabulková data. Architektury CV a NLP vycházejí a upravují tuto základní architekturu.

MLOps v2 se zabývá následujícími architekturami popsanými v tomto článku:

Klasická architektura strojového učení
Architektura cv machine learningu
Architektura zpracování přirozeného jazyka ve službě Machine Learning

Klasická architektura strojového učení

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro klasickou architekturu strojového učení

Datová aktiva

Tato komponenta znázorňuje datové aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky této komponenty životního cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Zelená značka zaškrtnutí označuje zdroje a cíle dat, které představují doporučené osvědčené postupy založené na případu použití zákazníka.
Správa a nastavení

Tato komponenta je prvním krokem v nasazení řešení MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Tým infrastruktury může například:
1. Vytvořte úložiště zdrojového kódu projektu.
2. K vytváření pracovních prostorů Machine Learning použijte Bicep nebo Terraform.
3. Vytvoření nebo úprava datových sad a výpočetních prostředků pro vývoj a nasazení modelu
4. Definujte uživatele projektového týmu, jejich role a řízení přístupu k jiným prostředkům.
5. Vytvořte kanály CI/CD.
6. Vytvořte monitorovací komponenty pro shromažďování a vytváření výstrah pro metriky modelu a infrastruktury.
Primární osobou přidruženou k této fázi je tým infrastruktury, ale organizace může mít také datové inženýry, techniky strojového učení nebo datové vědce.
Vývoj modelů (fáze vnitřní smyčky)

Fáze vnitřní smyčky se skládá z iterativního pracovního postupu datových věd, který funguje v rámci vyhrazeného a zabezpečeného pracovního prostoru Machine Learning. Předchozí diagram znázorňuje typický pracovní postup. Proces začíná příjmem dat, prochází průzkumnou analýzou dat, experimentováním, vývojem a vyhodnocením modelů a následně zaregistruje model pro použití v produkčním prostředí. Tato modulární komponenta je nezávislá a přizpůsobitelná procesu, který váš tým datových věd používá k vývoji modelů.

Osoby přidružené k této fázi zahrnují datové vědce a techniky strojového učení.
Registry služby Machine Learning

Jakmile tým pro datové vědy vytvoří model, který může nasadit do produkčního prostředí, zaregistruje model v registru pracovního prostoru Machine Learning. Kanály CI, které se aktivují, buď automaticky registrací modelu, nebo schválením smyček člověka ve smyčce, propagují model a všechny další závislosti modelu do fáze nasazení modelu.

Osoby přidružené k této fázi jsou obvykle technici strojového učení.
Nasazení modelu (fáze vnější smyčky)

Nasazení modelu nebo fáze vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Když model splňuje kritéria organizace a případu použití, kanály CD propagují model a související prostředky prostřednictvím produkčního, monitorování a potenciálního opětovného trénování.

Personas asociované s touto fází jsou primárně technici strojového učení.
Příprava a testování

Fáze přípravy a testování se liší podle postupů zákazníka. Tato fáze obvykle zahrnuje operace, jako je opětovné trénování a testování kandidáta modelu na produkčních datech, testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Tato fáze probíhá v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech služby Machine Learning.
Nasazení do provozu

Jakmile model projde přípravnou a testovací fází, můžou inženýři strojového učení použít schválení s bránou člověkem ve smyčce k jeho povýšení do produkčního prostředí. Možnosti nasazení modelu zahrnují spravovaný dávkový koncový bod pro dávkové scénáře nebo spravované online koncové body nebo nasazení Kubernetes, které používá Azure Arc pro online scénáře téměř v reálném čase. Produkční prostředí se obvykle provádí v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech Machine Learning.
Sledování

Technici strojového učení monitorují komponenty v přípravném, testovacím a produkčním prostředí a shromažďují metriky související se změnami výkonu modelu, dat a infrastruktury. Tyto metriky můžou použít k provedení akce. Monitorování modelů a dat může zahrnovat kontrolu modelu a posunu dat, výkon modelu u nových dat a zodpovědné problémy s AI. Monitorování infrastruktury může identifikovat pomalou odezvu koncového bodu, nedostatečnou výpočetní kapacitu nebo problémy se sítí.
Monitorování dat a modelů: události a akce

Na základě kritérií modelu a dat, jako jsou prahové hodnoty metrik nebo plány, můžou automatizované triggery a oznámení implementovat vhodné akce, které se mají provést. Trigger může například model přetrénovat tak, aby používal nová produkční data, a pak model znovu propracoval a testoval předprodukční vyhodnocení. Nebo problém s modelem nebo daty může aktivovat akci, která vyžaduje zpětnou smyčku do fáze vývoje modelu, ve které můžou datoví vědci problém prozkoumat a potenciálně vyvíjet nový model.
Monitorování infrastruktury: události a akce

Automatizované triggery a oznámení můžou implementovat vhodné akce, které se mají provést na základě kritérií infrastruktury, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení. Automatické triggery a oznámení můžou aktivovat zpětnou smyčku do fáze nastavení a správy, kde tým infrastruktury může problém prozkoumat a potenciálně znovu nakonfigurovat výpočetní a síťové prostředky.

Architektura cv machine learningu

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro architekturu CV

Architektura CV služby Machine Learning je založená na klasické architektuře strojového učení, ale má změny specifické pro scénáře cv pod dohledem.

Datová aktiva

Tato komponenta ukazuje datové aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky této komponenty v životním cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Obrázky pro scénáře CV můžou pocházet z různých zdrojů dat. Pro zajištění efektivity při vývoji a nasazování modelů CV se službou Machine Learning doporučujeme azure Blob Storage a Azure Data Lake Storage.
Správa a nastavení

Tato komponenta je prvním krokem v nasazení MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Pro scénáře CV je správa a nastavení prostředí MLOps v2 z velké části stejná jako u klasického strojového učení, ale zahrnuje další krok. Tým infrastruktury používá funkci popisování machine learningu nebo jiného nástroje k vytvoření projektů popisků obrázků a poznámek.
Vývoj modelů (fáze vnitřní smyčky)

Fáze vnitřní smyčky se skládá z iterativního pracovního postupu datových věd provedených v rámci vyhrazeného a zabezpečeného pracovního prostoru Machine Learning. Hlavním rozdílem mezi tímto pracovním postupem a scénářem klasického strojového učení je, že popisování obrázků a anotace je klíčovou součástí této vývojové smyčky.
Registry služby Machine Learning

Jakmile tým pro datové vědy vytvoří model, který může nasadit do produkčního prostředí, zaregistruje model v registru pracovního prostoru Machine Learning. Kanály CI, které se aktivují automaticky registrací modelu nebo schválením uzavřeného člověka ve smyčce, podporují model a všechny ostatní závislosti modelu do fáze nasazení modelu.
Nasazení modelu (fáze vnější smyčky)

Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Když model splňuje kritéria organizace a případu použití, kanály CD propagují model a související prostředky prostřednictvím produkčního, monitorování a potenciálního opětovného trénování.
Příprava a testování

Fáze přípravy a testování se liší podle postupů zákazníka. Tato fáze obvykle zahrnuje operace, jako jsou testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Ve scénářích CV nemusí inženýři strojového učení přetrénovat kandidáta modelu na produkční data z důvodu omezení prostředků a času. Tým datových věd může místo toho použít produkční data pro vývoj modelů. Kandidátské modely zaregistrované ve vývojové smyčce se vyhodnocují pro produkční prostředí. Tato fáze probíhá v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech služby Machine Learning.
Nasazení do provozu

Jakmile model projde přípravnou a testovací fází, můžou inženýři strojového učení použít schválení s bránou člověkem ve smyčce k jeho povýšení do produkčního prostředí. Možnosti nasazení modelu zahrnují spravovaný dávkový koncový bod pro dávkové scénáře nebo spravované online koncové body nebo nasazení Kubernetes, které používá Azure Arc pro online scénáře téměř v reálném čase. Produkční prostředí se obvykle provádí v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech Machine Learning.
Sledování

Technici strojového učení monitorují komponenty v přípravném, testovacím a produkčním prostředí a shromažďují metriky související se změnami výkonu modelu, dat a infrastruktury. Tyto metriky můžou použít k provedení akce. Monitorování modelů a dat může zahrnovat kontrolu výkonu modelu u nových imagí. Monitorování infrastruktury může identifikovat pomalou odezvu koncového bodu, nedostatečnou výpočetní kapacitu nebo problémy se sítí.
Monitorování dat a modelů: události a akce

Klíčovými rozdíly od klasického strojového učení jsou fáze monitorování a událostí a akcí MLOps pro zpracování přirozeného jazyka. Automatizované opětovné trénování se obvykle neprojevuje ve scénářích CV, když se zjistí snížení výkonu modelu u nových imagí. V tomto případě je proces lidské smyčky nezbytný ke kontrole a přidávání poznámek k novým textovým datům modelu, který funguje špatně. Další akce se často vrátí zpět do smyčky vývoje modelu, aby se model aktualizoval novými imagemi.
Monitorování infrastruktury: události a akce

Automatizované triggery a oznámení můžou implementovat vhodné akce, které se mají provést na základě kritérií infrastruktury, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení. Automatické triggery a oznámení můžou aktivovat zpětnou smyčku do fáze nastavení a správy, ve které tým infrastruktury může problém prozkoumat a potenciálně změnit konfiguraci prostředí, výpočetních prostředků a síťových prostředků.

Architektura zpracování přirozeného jazyka ve službě Machine Learning

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup architektury zpracování přirozeného jazyka

Architektura strojového učení pro zpracování přirozeného jazyka je založená na klasické architektuře strojového učení, ale má určité úpravy specifické pro scénáře NLP.

Datová aktiva

Tato komponenta demonstruje datová aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky této komponenty v životním cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Zelená značka zaškrtnutí označuje zdroje a cíle, které představují doporučené osvědčené postupy založené na případu použití zákazníka.
Správa a nastavení

Tato komponenta je prvním krokem v nasazení MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Pro scénáře zpracování přirozeného jazyka je správa a nastavení prostředí MLOps v2 z velké části stejná jako u klasického strojového učení, ale s dodatečným krokem: vytváření projektů popisků obrázků a poznámek pomocí funkce popisování strojového učení nebo jiného nástroje.
Vývoj modelů (fáze vnitřní smyčky)

Fáze vnitřní smyčky se skládá z iterativního pracovního postupu datových věd provedených v rámci vyhrazeného a zabezpečeného pracovního prostoru Machine Learning. Typická smyčka vývoje modelu NLP se liší od klasického scénáře strojového učení v tom, že typické vývojové kroky pro tento scénář zahrnují anotátory pro věty a tokenizace, normalizaci a vkládání textových dat.
Registry služby Machine Learning

Jakmile tým pro datové vědy vytvoří model, který může nasadit do produkčního prostředí, zaregistruje model v registru pracovního prostoru Machine Learning. Kanály CI, které se aktivují automaticky registrací modelu nebo schválením uzavřeného člověka ve smyčce, podporují model a všechny ostatní závislosti modelu do fáze nasazení modelu.
Nasazení modelu (fáze vnější smyčky)

Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Když model splňuje kritéria organizace a případu použití, kanály CD propagují model a související prostředky prostřednictvím produkčního, monitorování a potenciálního opětovného trénování.
Příprava a testování

Fáze přípravy a testování se liší podle postupů zákazníka. Tato fáze obvykle zahrnuje operace, jako je opětovné trénování a testování kandidáta modelu na produkčních datech, testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Tato fáze probíhá v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech služby Machine Learning.
Nasazení do provozu

Jakmile model projde přípravnou a testovací fází, můžou inženýři strojového učení použít schválení s bránou člověkem ve smyčce k jeho povýšení do produkčního prostředí. Možnosti nasazení modelu zahrnují spravovaný dávkový koncový bod pro dávkové scénáře nebo spravované online koncové body nebo nasazení Kubernetes, které používá Azure Arc pro online scénáře téměř v reálném čase. Produkční prostředí se obvykle provádí v jednom nebo několika vyhrazených a zabezpečených pracovních prostorech Machine Learning.
Sledování

Technici strojového učení monitorují komponenty v přípravném, testovacím a produkčním prostředí a shromažďují metriky související se změnami výkonu modelu, dat a infrastruktury. Tyto metriky můžou použít k provedení akce. Monitorování modelů a dat může zahrnovat kontrolu modelu a posunu dat, výkon modelu u nových textových dat a zodpovědné problémy s AI. Monitorování infrastruktury může identifikovat problémy, jako je pomalá odezva koncového bodu, nedostatečná výpočetní kapacita a problémy se sítí.
Monitorování dat a modelů: události a akce

Stejně jako u architektury CV jsou klíčovými rozdíly od klasického strojového učení fáze monitorování dat a modelů a událostí a akcí MLOps pro zpracování přirozeného jazyka. Automatizované opětovné trénování se obvykle neprodává ve scénářích zpracování přirozeného jazyka, když se zjistí snížení výkonu modelu u nového textu. V tomto případě je proces lidské smyčky nezbytný ke kontrole a přidávání poznámek k novým textovým datům modelu, který funguje špatně. Další akcí je často vrátit se ke smyčce vývoje modelu a aktualizovat model novými textovými daty.
Monitorování infrastruktury: události a akce

Automatizované triggery a oznámení můžou implementovat vhodné akce, které se mají provést na základě kritérií infrastruktury, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení. Automatické triggery a oznámení můžou aktivovat zpětné smyčky do fáze nastavení a správy, ve které tým infrastruktury může problém prozkoumat a potenciálně změnit konfiguraci výpočetních a síťových prostředků.

Komponenty

Machine Learning je cloudová služba, kterou můžete použít k trénování, hodnocení, nasazování a správě modelů strojového učení ve velkém měřítku.
Azure Pipelines je buildový a testovací systém založený na Azure DevOps a používá se pro kanály buildu a verze. Azure Pipelines tyto kanály rozdělí na logické kroky označované jako úlohy.
GitHub je platforma pro hostování kódu pro správu verzí, spolupráci a pracovní postupy CI/CD.
Azure Arc je platforma, která používá Azure Resource Manager ke správě prostředků Azure a místních prostředků. Mezi prostředky patří virtuální počítače, clustery Kubernetes a databáze.
Kubernetes je opensourcový systém, který můžete použít k automatizaci nasazení, škálování a správy kontejnerizovaných aplikací.
Azure Data Lake Storage je systém souborů kompatibilní se systémem Hadoop. Má integrovaný hierarchický obor názvů a masivní škálování a ekonomiku služby Blob Storage.
Azure Synapse Analytics je neomezená analytická služba, která spojuje integraci dat, skladování podnikových dat a analýzu velkých objemů dat.
Azure Event Hubs je služba, která ingestuje datové proudy, které klientské aplikace generují. Potom ingestuje a ukládá streamovaná data, která zachová posloupnost přijatých událostí. Zákazníci se můžou připojit ke koncovým bodům centra, aby mohli načítat zprávy ke zpracování. Tato architektura používá integraci služby Data Lake Storage.

Ostatní úvahy

Předchozí model architektury MLOps v2 má několik důležitých komponent, včetně řízení přístupu na základě role (RBAC), které odpovídají obchodním zúčastněným stranám, efektivní správě balíčků a robustním monitorovacím mechanismům. Tyto komponenty společně přispívají k úspěšné implementaci a správě pracovních postupů strojového učení.

Řízení přístupu na základě role na základě osoby

Je důležité spravovat přístup k datům a prostředkům strojového učení. RBAC poskytuje robustní architekturu, která vám pomůže spravovat, kdo může provádět konkrétní akce a přistupovat ke konkrétním oblastem v rámci vašeho řešení. Navrhněte strategii segmentace identit tak, aby odpovídala životnímu cyklu modelů strojového učení ve službě Machine Learning a osobám zahrnutým v procesu. Každá osoba má určitou sadu zodpovědností, které se projeví v jejich rolích RBAC a členství ve skupinách.

Příklad osob

Pokud chcete podporovat odpovídající segmentaci v úloze strojového učení, zvažte následující běžné osoby, které informují návrh skupiny RBAC založené na identitě.

Datový vědec a technik strojového učení

Datoví vědci a technici strojového učení provádějí různé aktivity strojového učení a datových věd v životním cyklu vývoje softwaru projektu. Mezi jejich povinnosti patří průzkumná analýza dat a předběžné zpracování dat. Datoví vědci a technici strojového učení zodpovídají za trénování, vyhodnocování a nasazování modelů. Tyto zodpovědnosti rolí zahrnují také aktivity opravy přerušení pro modely strojového učení, balíčky a data. Tyto povinnosti jsou mimo rozsah týmu technické podpory platformy.