Sdílet prostřednictvím


Operace strojového učení (MLOps) v2

Tento článek popisuje tři architektury Azure pro operace strojového učení. Všechny mají kompletní kontinuální integraci (CI), průběžné doručování (CD) a kanály opětovného trénování. Architektury jsou určené pro tyto aplikace umělé inteligence:

  • Klasické strojové učení
  • Počítačové zpracování obrazu (CV)
  • Zpracování přirozeného jazyka (NLP)

Architektury jsou produktem projektu MLOps v2. Zahrnují osvědčené postupy, které architekti řešení objevili v procesu vytváření více řešení strojového učení. Výsledek je nasaditelný, opakovatelný a udržovatelný vzor, jak je popsáno zde.

Všechny architektury používají službu Azure Machine Učení.

Implementace s ukázkovými šablonami nasazení pro MLOps v2 najdete v akcelerátoru řešení Azure MLOps (v2) na GitHubu.

Potenciální případy použití

  • Klasické strojové učení: Prognózování časových řad, regrese a klasifikace tabulkových strukturovaných dat jsou nejběžnějšími případy použití v této kategorii. Příklady:
    • Binární a vícenásobná klasifikace popisků
    • Lineární, polynomická, ridge, laso, quantile a Bayesian regrese
    • ARIMA, autoregresivní (AR), SARIMA, VAR, SES, LSTM
  • Projděte si také následující architekturu MLOps, která se zaměřuje hlavně na případy použití segmentace a klasifikace obrázků.
  • NLP: Tato architektura MLOps může implementovat kterýkoli z těchto případů použití a jiné, které tu nejsou uvedené:
    • Rozpoznávání pojmenovaných entit
    • Klasifikace textu
    • Generování textu
    • Analýza postoje
    • Překlad
    • Odpovídání na dotazy
    • Souhrn
    • Detekce vět
    • Rozpoznávání jazyka
    • Označování částí řeči

V tomto článku se neřešují simulace, hluboké výztuže a další formy umělé inteligence.

Architektura

Model architektury MLOps v2 se skládá ze čtyř hlavních modulárních prvků, které představují tyto fáze životního cyklu MLOps:

  • Datová aktiva
  • Správa istrace a nastavení
  • Vývoj modelů (vnitřní smyčka)
  • Nasazení modelu (vnější smyčka)

Tyto prvky, vztahy mezi nimi a osobami, které jsou k nim obvykle přidružené, jsou společné pro všechny architektury scénářů MLOps v2. V závislosti na scénáři můžou být různé podrobnosti o jednotlivých případech.

Základní architektura pro MLOps v2 pro machine Učení je klasický scénář strojového učení u tabulkových dat. Architektury CV a NLP vycházejí a upravují tuto základní architekturu.

Aktuální architektury

Architektury aktuálně popsané mlOps v2 a popsané v tomto článku:

Klasická architektura strojového učení

Diagram klasické architektury strojového učení

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro klasickou architekturu strojového učení

  1. Datová aktiva

    Tento prvek znázorňuje datové aktiva organizace a potenciální zdroje a cíle dat pro projekt datových věd. Datoví inženýři jsou primárními vlastníky tohoto prvku životního cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Zdroje dat a cíle, které představují doporučené osvědčené postupy založené na případu použití zákazníka, jsou označené zelenou značkou zaškrtnutí.

  2. Správa istrace a nastavení

    Tento prvek je prvním krokem v nasazení akcelerátoru MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Mohou zahrnovat následující úkoly a možná i další:

    1. Vytvoření úložišť zdrojového kódu projektu
    2. Vytvoření pracovních prostorů Učení počítače pomocí Bicep nebo Terraformu
    3. Vytvoření nebo úprava datových sad a výpočetních prostředků, které se používají pro vývoj a nasazení modelů
    4. Definice uživatelů projektového týmu, jejich rolí a řízení přístupu k jiným prostředkům
    5. Vytváření kanálů CI/CD
    6. Vytvoření monitorování pro shromažďování a oznamování metrik modelu a infrastruktury

    Primární osobou přidruženou k této fázi je tým infrastruktury, ale můžou existovat i datoví inženýři, technici strojového učení a datoví vědci.

  3. Vývoj modelů (vnitřní smyčka)

    Prvek vnitřní smyčky se skládá z iterativního pracovního postupu datových věd, který funguje v rámci vyhrazeného zabezpečeného pracovního prostoru machine Učení. Typický pracovní postup je znázorněn v diagramu. Pokračuje od příjmu dat, průzkumné analýzy dat, experimentování, vývoje modelů a vyhodnocení až po registraci kandidátního modelu pro produkční prostředí. Tento modulární prvek, který je implementovaný v akcelerátoru MLOps v2, je nezávislý a přizpůsobitelný procesu, který váš tým datových věd používá k vývoji modelů.

    Osoby přidružené k této fázi zahrnují datové vědce a techniky strojového učení.

  4. Registry Učení počítačů

    Jakmile tým pro datové vědy vytvoří model, který je kandidátem pro nasazení do produkčního prostředí, je možné ho zaregistrovat v registru pracovního prostoru Učení machine. Kanály CI, které se aktivují, buď automaticky registrací modelu, nebo schválením smyček člověka ve smyčce, propagují model a všechny další závislosti modelu do fáze nasazení modelu.

    Osoby přidružené k této fázi jsou obvykle technici strojového učení.

  5. Nasazení modelu (vnější smyčka)

    Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Kanály CD spravují povýšení modelu a souvisejících prostředků prostřednictvím produkčního, monitorovacího a potenciálního opětovného trénování, protože kritéria, která jsou vhodná pro vaši organizaci a případ použití jsou splněná.

    Personas asociované s touto fází jsou primárně technici strojového učení.

  6. Příprava a testování

    Fáze přípravy a testování se může lišit podle postupů zákazníků, ale obvykle zahrnuje operace, jako je opětovné trénování a testování kandidáta modelu na produkčních datech, testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Tato fáze probíhá v jednom nebo více vyhrazených pracovních prostorech Učení počítače.

  7. Nasazení do provozu

    Jakmile model projde přípravnou a testovací fází, může být povýšen do produkčního prostředí pomocí schválení uzavřeného člověkem ve smyčce. Mezi možnosti nasazení modelu patří spravovaný dávkový koncový bod pro dávkové scénáře nebo pro scénáře téměř v reálném čase spravovaný online koncový bod nebo nasazení Kubernetes pomocí Služby Azure Arc. Produkční prostředí se obvykle provádí v jednom nebo více vyhrazených pracovních prostorech Učení počítače.

  8. Sledování

    Monitorování v přípravném, testovacím a produkčním prostředí umožňuje shromažďovat metriky a reagovat na změny výkonu modelu, dat a infrastruktury. Monitorování modelů a dat může zahrnovat kontrolu modelu a posunu dat, výkon modelu u nových dat a zodpovědné problémy s AI. Monitorování infrastruktury může sledovat pomalé odezvy koncového bodu, nedostatečnou výpočetní kapacitu nebo problémy se sítí.

  9. Monitorování dat a modelů: události a akce

    Na základě kritérií pro problematiku modelu a dat, jako jsou prahové hodnoty metrik nebo plány, mohou automatizované triggery a oznámení implementovat vhodné akce, které se mají provést. To je možné pravidelně naplánovat automatizované opětovné trénování modelu na novějších produkčních datech a zpětné smyčky k přípravě a testování předprodukčního vyhodnocení. Může to být způsobeno aktivačními událostmi u modelů nebo problémů s daty, které vyžadují zpětné smyčky do fáze vývoje modelu, ve které můžou datoví vědci zkoumat a potenciálně vyvíjet nový model.

  10. Monitorování infrastruktury: události a akce

    Na základě kritérií pro důležité informace o infrastruktuře, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení, mohou automatizované triggery a oznámení implementovat vhodné akce, které je potřeba provést. Aktivují zpětnou smyčku do fáze nastavení a správy, kde tým infrastruktury může prozkoumat a potenciálně překonfigurovat výpočetní a síťové prostředky.

Architektura strojového Učení CV

Diagram architektury počítačového zpracování obrazu

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro architekturu CV

Architektura strojového Učení CV je založená na klasické architektuře strojového učení, ale má změny, které jsou specifické pro scénáře cv pod dohledem.

  1. Datová aktiva

    Tento prvek znázorňuje datové aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky tohoto prvku životního cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Obrázky pro scénáře CV můžou pocházet z mnoha různých zdrojů dat. Pro zajištění efektivity při vývoji a nasazování modelů CV s využitím strojového Učení jsou doporučené zdroje dat Azure pro obrázky: Azure Blob Storage a Azure Data Lake Storage.

  2. Správa istrace a nastavení

    Tento prvek je prvním krokem v nasazení akcelerátoru MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Pro scénáře CV je správa a nastavení prostředí MLOps v2 z velké části stejná jako u klasického strojového učení, ale s dalším krokem: vytváření popisků obrázků a projektů poznámek pomocí funkce popisování strojového Učení nebo jiného nástroje.

  3. Vývoj modelů (vnitřní smyčka)

    Element vnitřní smyčky se skládá z iterativního pracovního postupu datových věd provedených v rámci vyhrazeného zabezpečeného pracovního prostoru Učení machine. Hlavním rozdílem mezi tímto pracovním postupem a scénářem klasického strojového učení je, že popisování obrázků a anotace je klíčovým prvkem této vývojové smyčky.

  4. Registry Učení počítačů

    Jakmile tým pro datové vědy vytvoří model, který je kandidátem pro nasazení do produkčního prostředí, je možné ho zaregistrovat v registru pracovního prostoru Učení machine. Kanály CI, které se aktivují buď automaticky registrací modelu, nebo schválením smyček pro člověka ve smyčce podporují model a všechny další závislosti modelu do fáze nasazení modelu.

  5. Nasazení modelu (vnější smyčka)

    Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Kanály CD spravují povýšení modelu a souvisejících prostředků prostřednictvím produkčního, monitorovacího a potenciálního opětovného trénování podle kritérií vhodných pro vaši organizaci a případ použití.

  6. Příprava a testování

    Fáze přípravy a testování se může lišit podle postupů zákazníků, ale obvykle zahrnuje operace, jako jsou testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Ve scénářích CV je možné kvůli omezením prostředků a časových omezení vynechat opětovné trénování kandidáta modelu na produkční data. Místo toho může tým datových věd použít produkční data pro vývoj modelů a kandidátský model zaregistrovaný ve vývojové smyčce je model, který se vyhodnocuje pro produkční prostředí. Tato fáze probíhá v jednom nebo více vyhrazených pracovních prostorech Učení počítače.

  7. Nasazení do provozu

    Jakmile model projde přípravnou a testovací fází, je možné ho zvýšit na produkční prostřednictvím schválení s bránou pro člověka ve smyčce. Mezi možnosti nasazení modelu patří spravovaný dávkový koncový bod pro dávkové scénáře nebo pro scénáře téměř v reálném čase spravovaný online koncový bod nebo nasazení Kubernetes pomocí Služby Azure Arc. Produkční prostředí se obvykle provádí v jednom nebo více vyhrazených pracovních prostorech Učení počítače.

  8. Sledování

    Monitorování v přípravném, testovacím a produkčním prostředí umožňuje shromažďovat metriky a reagovat na změny výkonu modelu, dat a infrastruktury. Monitorování modelů a dat může zahrnovat kontrolu výkonu modelu u nových imagí. Monitorování infrastruktury může sledovat pomalé odezvy koncového bodu, nedostatečnou výpočetní kapacitu nebo problémy se sítí.

  9. Monitorování dat a modelů: události a akce

    Klíčovými rozdíly od klasického strojového učení jsou fáze monitorování dat a modelů a událostí a akcí MLOps pro NLP. Automatizované opětovné trénování se obvykle neprojevuje ve scénářích CV, když se zjistí snížení výkonu modelu u nových imagí. V tomto případě musí být nové image, pro které model funguje špatně, zkontrolovány a anotovány procesem lidské smyčky a často se další akce vrátí zpět do smyčky vývoje modelu pro aktualizaci modelu novými imagemi.

  10. Monitorování infrastruktury: události a akce

    Na základě kritérií pro důležité informace o infrastruktuře, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení, mohou automatizované triggery a oznámení implementovat vhodné akce, které je potřeba provést. Tím se aktivuje zpětná smyčka fáze nastavení a správy, ve které tým infrastruktury může prozkoumat a potenciálně změnit konfiguraci prostředí, výpočetních prostředků a síťových prostředků.

Architektura NLP pro strojové Učení

Diagram architektury N L P

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup pro architekturu NLP

Architektura strojového Učení NLP je založená na klasické architektuře strojového učení, ale má určité úpravy, které jsou specifické pro scénáře NLP.

  1. Datová aktiva

    Tento prvek znázorňuje datová aktiva organizace a potenciální zdroje dat a cíle pro projekt datových věd. Datoví inženýři jsou primárními vlastníky tohoto prvku životního cyklu MLOps v2. Datové platformy Azure v tomto diagramu nejsou vyčerpávající ani preskriptivní. Zdroje a cíle dat, které představují doporučené osvědčené postupy založené na případu použití zákazníka, jsou označené zelenou značkou zaškrtnutí.

  2. Správa istrace a nastavení

    Tento prvek je prvním krokem v nasazení akcelerátoru MLOps v2. Skládá se ze všech úkolů souvisejících s vytvářením a správou zdrojů a rolí přidružených k projektu. Pro scénáře NLP je správa a nastavení prostředí MLOps v2 z velké části stejná jako u klasického strojového učení, ale s dalším krokem: vytváření popisků obrázků a projektů poznámek pomocí funkce popisování strojového Učení nebo jiného nástroje.

  3. Vývoj modelů (vnitřní smyčka)

    Element vnitřní smyčky se skládá z iterativního pracovního postupu datových věd provedených v rámci vyhrazeného zabezpečeného pracovního prostoru Učení machine. Typická smyčka vývoje modelu NLP se může výrazně lišit od klasického scénáře strojového učení v tom, že poznámkami pro věty a tokenizace, normalizaci a vkládání textových dat jsou typickými kroky vývoje pro tento scénář.

  4. Registry Učení počítačů

    Jakmile tým pro datové vědy vytvoří model, který je kandidátem pro nasazení do produkčního prostředí, je možné ho zaregistrovat v registru pracovního prostoru Učení machine. Kanály CI, které se aktivují buď automaticky registrací modelu, nebo schválením smyček pro člověka ve smyčce podporují model a všechny další závislosti modelu do fáze nasazení modelu.

  5. Nasazení modelu (vnější smyčka)

    Fáze nasazení modelu nebo vnější smyčky se skládá z předprodukční přípravy a testování, produkčního nasazení a monitorování modelu, dat a infrastruktury. Kanály CD spravují povýšení modelu a souvisejících prostředků prostřednictvím produkčního, monitorování a potenciálního opětovného trénování, protože kritéria pro vaši organizaci a případ použití jsou splněná.

  6. Příprava a testování

    Fáze přípravy a testování se může lišit podle postupů zákazníků, ale obvykle zahrnuje operace, jako je opětovné trénování a testování kandidáta modelu na produkčních datech, testovací nasazení pro výkon koncového bodu, kontroly kvality dat, testování jednotek a zodpovědné kontroly AI pro model a předsudky dat. Tato fáze probíhá v jednom nebo více vyhrazených pracovních prostorech Učení počítače.

  7. Nasazení do provozu

    Jakmile model projde přípravnou a testovací fází, může být povýšen do produkčního prostředí schválením uzavřeného člověkem ve smyčce. Mezi možnosti nasazení modelu patří spravovaný dávkový koncový bod pro dávkové scénáře nebo pro scénáře téměř v reálném čase spravovaný online koncový bod nebo nasazení Kubernetes pomocí Služby Azure Arc. Produkční prostředí se obvykle provádí v jednom nebo více vyhrazených pracovních prostorech Učení počítače.

  8. Sledování

    Monitorování v přípravném, testovacím a produkčním prostředí umožňuje shromažďovat a reagovat na změny výkonu modelu, dat a infrastruktury. Monitorování modelů a dat může zahrnovat kontrolu modelu a posunu dat, výkon modelu u nových textových dat a zodpovědné problémy s AI. Monitorování infrastruktury může sledovat problémy, jako je pomalé odezva koncového bodu, nedostatečná výpočetní kapacita a problémy se sítí.

  9. Monitorování dat a modelů: události a akce

    Stejně jako u architektury CV jsou klíčovými rozdíly od klasického strojového učení fáze monitorování dat a modelů a událostí a akcí MLOps pro NLP. Automatizované opětovné trénování se obvykle neprovádí ve scénářích NLP, když se zjistí snížení výkonu modelu u nového textu. V tomto případě musí být nová textová data, pro která model funguje špatně, zkontrolována a anotována procesem lidské smyčky. Další akcí je často vrátit se ke smyčce vývoje modelu a aktualizovat model novými textovými daty.

  10. Monitorování infrastruktury: události a akce

    Na základě kritérií pro důležité informace o infrastruktuře, jako je prodleva odezvy koncového bodu nebo nedostatečný výpočetní výkon pro nasazení, mohou automatizované triggery a oznámení implementovat vhodné akce, které je potřeba provést. Aktivují zpětnou smyčku do fáze nastavení a správy, kde tým infrastruktury může prozkoumat a potenciálně překonfigurovat výpočetní a síťové prostředky.

Komponenty

  • Strojové Učení: Cloudová služba pro trénování, bodování, nasazování a správu modelů strojového učení ve velkém měřítku.
  • Azure Pipelines: Tento systém sestavení a testování je založený na Azure DevOps a používá se pro kanály sestavení a verze. Azure Pipelines tyto kanály rozdělí na logické kroky označované jako úlohy.
  • GitHub: Platforma pro hostování kódu pro správu verzí, spolupráci a pracovní postupy CI/CD.
  • Azure Arc: Platforma pro správu prostředků Azure a místních prostředků pomocí Azure Resource Manageru. Mezi prostředky patří virtuální počítače, clustery Kubernetes a databáze.
  • Kubernetes: Opensourcový systém pro automatizaci nasazení, škálování a správy kontejnerizovaných aplikací.
  • Azure Data Lake: Systém souborů kompatibilní se systémem Hadoop. Má integrovaný hierarchický obor názvů a masivní škálování a ekonomiku služby Blob Storage.
  • Azure Synapse Analytics: Neomezená analytická služba, která spojuje integraci dat, skladování podnikových dat a analýzu velkých objemů dat.
  • Azure Event Hubs. Služba, která ingestuje datové proudy generované klientskými aplikacemi. Pak ingestuje a ukládá streamovaná data a zachovává posloupnost přijatých událostí. Příjemci se můžou připojit ke koncovým bodům centra a načíst zprávy ke zpracování. Tady využíváme integraci se službou Data Lake Storage.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky