Upravit

Sdílet prostřednictvím


Co je vědecké zpracování týmových dat?

Azure Machine Learning

TDSP je agilní a iterativní metodologie datových věd, kterou můžete použít k efektivnímu poskytování prediktivních analytických řešení a aplikací umělé inteligence. TDSP vylepšuje týmové spolupráce a učení doporučením optimálních způsobů, jak týmové role spolupracovat. TDSP zahrnuje osvědčené postupy a architektury od Microsoftu a dalších vedoucích pracovníků v oboru, které vašemu týmu pomáhají efektivně implementovat iniciativy datových věd. TDSP umožňuje plně realizovat výhody analytického programu.

Tento článek obsahuje přehled TDSP a jeho hlavních komponent. Obsahuje pokyny k implementaci TDSP pomocí nástrojů a infrastruktury Microsoftu. Podrobnější zdroje najdete v tomto článku.

Klíčové komponenty TDSP

TDSP má následující klíčové komponenty:

  • Definice životního cyklu datových věd
  • Standardizovaná struktura projektu
  • Infrastruktura a zdroje , které jsou ideální pro projekty datových věd
  • Zodpovědná AI: a závazek k pokroku umělé inteligence založeného na etických zásadách

Životní cyklus datových věd

TDSP poskytuje životní cyklus, který můžete použít ke strukturování vývoje projektů datových věd. Životní cyklus popisuje úplné kroky, které úspěšné projekty následují.

TDSP založený na úkolech můžete kombinovat s jinými životními cykly datových věd, jako je například standardní proces pro dolování dat (CRISP-DM), zjišťování znalostí v databázích (KDD) nebo jiný vlastní proces. Na vysoké úrovni mají tyto různé metodologie mnoho společného.

Tento životní cyklus použijte, pokud máte projekt datových věd, který je součástí inteligentní aplikace. Inteligentní aplikace nasazují modely strojového učení nebo AI pro prediktivní analýzu. Tento proces můžete použít také pro průzkumné projekty datových věd a improvizované analytické projekty.

Životní cyklus TDSP se skládá z pěti hlavních fází, které váš tým provádí iterativním způsobem. Mezi tyto fáze patří:

Tady je vizuální znázornění životního cyklu TDSP:

Diagram znázorňující fáze životního cyklu TDSP

Další informace o cílech, úkolech a artefaktech dokumentace pro každou fázi najdete v tématu Životní cyklus TDSP.

Tyto úkoly a artefakty odpovídají rolím projektu, například:

  • Architekt řešení
  • Vedoucí projektu
  • Datový inženýr
  • Datový vědec
  • Vývojář aplikace
  • Vedoucí projektu

Následující diagram znázorňuje úkoly (modře) a artefakty (zeleně), které odpovídají jednotlivým fázím životního cyklu znázorněným na vodorovné ose a pro role znázorněné na svislé ose.

Diagram znázorňující úkoly a artefakty pro každou fázi

Standardizovaná struktura projektu

Váš tým může použít infrastrukturu Azure k uspořádání prostředků datových věd.

Azure Machine Learning podporuje opensourcový MLflow. Doporučujeme používat MLflow pro datové vědy a řízení projektů AI. MLflow je navržený tak, aby spravil kompletní životní cyklus strojového učení. Trénuje a obsluhuje modely na různých platformách, takže můžete používat konzistentní sadu nástrojů bez ohledu na to, kde experimenty běží. MLflow můžete použít místně na počítači, ve vzdáleném cílovém výpočetním objektu, na virtuálním počítači nebo ve výpočetní instanci strojového učení.

MLflow se skládá z několika klíčových funkcí:

  • Sledování experimentů: Pomocí MLflow můžete sledovat experimenty, včetně parametrů, verzí kódu, metrik a výstupních souborů. Tato funkce vám pomůže porovnat různá spuštění a efektivně spravovat proces experimentování.

  • Kód balíčku: Poskytuje standardizovaný formát pro balení kódu strojového učení, který zahrnuje závislosti a konfigurace. Tento balíček usnadňuje reprodukci spuštění a sdílení kódu s ostatními.

  • Správa modelů: MLflow poskytuje funkce pro správu a modely verzí. Podporuje různé architektury strojového učení, abyste mohli ukládat, verze a obsluhovat modely.

  • Obsluha a nasazení modelů: MLflow integruje možnosti obsluhy modelů a nasazení, abyste mohli snadno nasazovat modely v různých prostředích.

  • Registrace modelů: Můžete spravovat životní cyklus modelu, který zahrnuje správu verzí, přechody fází a poznámky. MLflow můžete použít k údržbě centralizovaného úložiště modelů v prostředí pro spolupráci.

  • Použijte rozhraní API a uživatelské rozhraní: V Azure je MLflow součástí rozhraní API služby Machine Learning verze 2, takže můžete pracovat se systémem prostřednictvím kódu programu. K interakci s uživatelským rozhraním můžete použít Azure Portal.

MLflow zjednodušuje a standardizuje proces vývoje strojového učení od experimentování po nasazení.

Machine Learning se integruje s úložišti Git, takže můžete používat služby kompatibilní s Gitem, jako je GitHub, GitLab, Bitbucket, Azure DevOps nebo jiná služba kompatibilní s Gitem. Kromě prostředků, které jsou již sledovány ve službě Machine Learning, může váš tým vyvíjet vlastní taxonomii ve službě kompatibilní s Gitem, aby ukládal další projektová data, například:

  • Dokumentace
    • Data projektu: například konečná sestava projektu
    • Datová sestava: například slovník dat nebo sestavy kvality dat
    • Model: například sestavy modelů
  • Kód
    • Příprava dat
    • Vývoj modelů
    • Zprovoznění, které zahrnuje zabezpečení a dodržování předpisů

Infrastruktura a prostředky

TDSP poskytuje doporučení pro správu sdílené analýzy a infrastruktury úložiště v následujících kategoriích:

Cloudové systémy souborů pro ukládání datových sad

Cloudové systémy souborů jsou pro TDSP zásadní z několika důvodů:

  • Centralizované úložiště dat: Cloudové systémy souborů poskytují centralizované umístění pro ukládání datových sad, což je nezbytné pro spolupráci mezi členy týmu datových věd. Centralizace zajišťuje, aby všichni členové týmu mohli přistupovat k nejaktuálnějším datům a snížili riziko práce se zastaralými nebo nekonzistentními datovými sadami.

  • Škálovatelnost: Cloudové systémy souborů můžou zpracovávat velké objemy dat, což je běžné v projektech datových věd. Systémy souborů poskytují škálovatelná řešení úložiště, která rostou podle potřeb projektu. Umožňují týmům ukládat a zpracovávat masivní datové sady, aniž by se museli starat o omezení hardwaru.

  • Přístupnost: Díky cloudovým systémům souborů máte přístup k datům odkudkoli s připojením k internetu. Tento přístup je důležitý pro distribuované týmy nebo když členové týmu potřebují pracovat vzdáleně. Cloudové systémy souborů usnadňují bezproblémovou spolupráci a zajišťují, aby data byla vždy přístupná.

  • Zabezpečení a dodržování předpisů: Poskytovatelé cloudu často implementují robustní bezpečnostní opatření, mezi která patří šifrování, řízení přístupu a dodržování předpisů v oboru. Silná bezpečnostní opatření můžou chránit citlivá data a pomáhat vašemu týmu splňovat právní a zákonné požadavky.

  • Správa verzí: Cloudové systémy souborů často zahrnují funkce správy verzí, které týmy můžou používat ke sledování změn datových sad v průběhu času. Správa verzí je zásadní pro zachování integrity dat a reprodukování výsledků v projektech datových věd. Pomáhá také auditovat a řešit případné problémy, které nastanou.

  • Integrace s nástroji: Cloudové systémy souborů se můžou bezproblémově integrovat s různými nástroji a platformami pro datové vědy. Integrace nástrojů podporuje snadnější příjem dat, zpracování dat a analýzu dat. Azure Storage se například dobře integruje se službou Machine Learning, Azure Databricks a dalšími nástroji pro datové vědy.

  • Spolupráce a sdílení: Cloudové systémy souborů usnadňují sdílení datových sad s ostatními členy týmu nebo zúčastněnými stranami. Tyto systémy podporují funkce pro spolupráci, jako jsou sdílené složky a správa oprávnění. Funkce spolupráce usnadňují týmovou práci a zajišťují, aby k datům, která potřebují, měli přístup správní lidé.

  • Nákladová efektivita: Cloudové systémy souborů můžou být cenově výhodnější než údržba místních řešení úložiště. Poskytovatelé cloudu mají flexibilní cenové modely, které zahrnují možnosti průběžných plateb, které můžou pomoct spravovat náklady na základě skutečných požadavků na využití a úložiště vašeho projektu datových věd.

  • Zotavení po havárii: Cloudové systémy souborů obvykle zahrnují funkce pro zálohování dat a zotavení po havárii. Tyto funkce pomáhají chránit data před selháním hardwaru, náhodným odstraněním a dalšími haváriemi. Poskytuje klid a podporuje kontinuitu v operacích datových věd.

  • Automatizace a integrace pracovních postupů: Systémy cloudového úložiště se můžou integrovat do automatizovaných pracovních postupů, které umožňují bezproblémový přenos dat mezi různými fázemi procesu datových věd. Automatizace může pomoct zvýšit efektivitu a snížit požadované ruční úsilí při správě dat.

Cloudové systémy souborů jsou pro TDSP zásadní, protože poskytují škálovatelná, zabezpečená a přístupná řešení úložiště, která podporují celý životní cyklus dat. Cloudové systémy souborů umožňují bezproblémovou integraci dat z různých zdrojů, což podporuje komplexní získávání a porozumění datům. Datoví vědci můžou používat cloudové systémy souborů k efektivnímu ukládání, správě a přístupu k velkým datovým sadám. Tato funkce je nezbytná pro trénování a nasazování modelů strojového učení. Tyto systémy také zlepšují spolupráci tím, že členům týmu umožní sdílet data a pracovat na nich současně v jednotném prostředí. Cloudové systémy souborů poskytují robustní funkce zabezpečení, které pomáhají chránit data a zajistit, aby vyhovovaly zákonným požadavkům, což je nezbytné pro zachování integrity a důvěryhodnosti dat.

Cloudové databáze

Cloudové databáze hrají v poskytovateli TDSP zásadní roli z několika důvodů:

  • Škálovatelnost: Cloudové databáze poskytují škálovatelná řešení, která se dají snadno rozšířit, aby splňovala rostoucí požadavky projektu na data. Škálovatelnost je zásadní pro projekty datových věd, které často zpracovávají velké a složité datové sady. Cloudové databáze můžou zpracovávat různé úlohy bez nutnosti ručního zásahu nebo upgradu hardwaru.

  • Optimalizace výkonu: Vývojáři optimalizují cloudové databáze pro výkon pomocí funkcí, jako je automatické indexování, optimalizace dotazů a vyrovnávání zatížení. Tyto funkce pomáhají zajistit, aby načítání a zpracování dat bylo rychlé a efektivní, což je zásadní pro úlohy datových věd, které vyžadují přístup k datům v reálném čase nebo téměř v reálném čase.

  • Přístupnost a spolupráce: Teams má přístup k uloženým datům v cloudových databázích z libovolného umístění. Tato přístupnost podporuje spolupráci mezi členy týmu, kteří můžou být geograficky rozptýlení. Přístupnost a spolupráce jsou důležité pro distribuované týmy nebo osoby, které pracují vzdáleně. Cloudové databáze podporují víceuživatelová prostředí, která umožňují souběžný přístup a spolupráci.

  • Integrace s nástroji pro datové vědy: Cloudové databáze se bezproblémově integrují s různými nástroji a platformami pro datové vědy. Cloudové databáze Azure se například dobře integrují se službou Machine Learning, Power BI a dalšími nástroji pro analýzu dat. Tato integrace zjednodušuje datový kanál od příjmu dat a úložiště až po analýzu a vizualizaci.

  • Zabezpečení a dodržování předpisů: Poskytovatelé cloudu implementují robustní bezpečnostní opatření, která zahrnují šifrování dat, řízení přístupu a dodržování předpisů v oboru. Bezpečnostní opatření chrání citlivá data a pomáhají vašemu týmu splňovat právní a zákonné požadavky. Funkce zabezpečení jsou nezbytné pro zachování integrity dat a ochrany osobních údajů.

  • Efektivita nákladů: Cloudové databáze často pracují s modelem průběžných plateb, což může být cenově výhodnější než údržba místních databázových systémů. Tato cenová flexibilita organizacím umožňuje efektivně spravovat rozpočty a platit pouze za úložiště a výpočetní prostředky, které používají.

  • Automatické zálohování a zotavení po havárii: Cloudové databáze poskytují řešení automatického zálohování a zotavení po havárii. Tato řešení pomáhají zabránit ztrátě dat v případě selhání hardwaru, náhodného odstranění nebo jiných havárií. Spolehlivost je zásadní pro zachování kontinuity a integrity dat v projektech datových věd.

  • Zpracování dat v reálném čase: Mnoho cloudových databází podporuje zpracování a analýzu dat v reálném čase, což je nezbytné pro úlohy datových věd, které vyžadují nejaktuálnější informace. Tato funkce pomáhá datovým vědcům včas rozhodovat na základě nejnovějších dostupných dat.

  • Integrace dat: Cloudové databáze se můžou snadno integrovat s jinými zdroji dat, databázemi, datovými jezery a externími datovými kanály. Integrace pomáhá datovým vědcům kombinovat data z více zdrojů a poskytuje komplexní přehled a sofistikovanější analýzu.

  • Flexibilita a rozmanitost: Cloudové databáze mají různé formy, jako jsou relační databáze, databáze NoSQL a datové sklady. Tato rozmanitost umožňuje týmům datových věd zvolit nejlepší typ databáze pro konkrétní potřeby, ať už vyžadují strukturované úložiště dat, nestrukturované zpracování dat nebo rozsáhlé analýzy dat.

  • Podpora pokročilých analýz: Cloudové databáze často obsahují integrovanou podporu pokročilých analýz a strojového učení. Azure SQL Database například poskytuje integrované služby strojového učení. Tyto služby pomáhají datovým vědcům provádět pokročilé analýzy přímo v databázovém prostředí.

  • Azure SQL Database – Dokumentace ke službě Azure SQL Database, plně spravovaná relační databázová služba.
  • Azure Cosmos DB – informace o službě Azure Cosmos DB, globálně distribuované databázové službě s více modely.
  • Azure Database for PostgreSQL – Průvodce službou Azure Database for PostgreSQL, spravovanou databázovou službou pro vývoj a nasazení aplikací
  • Azure Database for MySQL – Podrobnosti o službě Azure Database for MySQL, spravované službě pro databáze MySQL.

Cloudové databáze jsou pro TDSP zásadní, protože poskytují škálovatelná, spolehlivá a efektivní řešení pro ukládání a správu dat, která podporují projekty řízené daty. Usnadňují bezproblémovou integraci dat, což pomáhá datovým vědcům ingestovat, předzpracovat a analyzovat velké datové sady z různých zdrojů. Cloudové databáze umožňují rychlé dotazování a zpracování dat, což je nezbytné k vývoji, testování a nasazování modelů strojového učení. Cloudové databáze také zlepšují spolupráci tím, že poskytují centralizovanou platformu členům týmu pro přístup k datům a práci s daty současně. Cloudové databáze navíc poskytují pokročilé funkce zabezpečení a podporu dodržování předpisů, aby byla data chráněná a dodržující zákonné standardy, což je důležité pro zachování integrity a důvěryhodnosti dat.

Clustery s velkými objemy dat, které používají SQL nebo Spark

Clustery s velkými objemy dat, jako jsou například clustery s velkými objemy dat, které používají SQL nebo Spark, jsou zásadní pro TDSP z několika důvodů:

Zpracování velkých objemů dat: Clustery s velkými objemy dat jsou navržené tak, aby efektivně zpracovávaly velké objemy dat. Projekty datových věd často zahrnují masivní datové sady, které překračují kapacitu tradičních databází. Clustery pro velké objemy dat založené na SQL a Spark můžou tato data spravovat a zpracovávat ve velkém měřítku.

Distribuované výpočty: Clustery s velkými objemy dat používají distribuovaný computing k rozložení dat a výpočetních úloh mezi více uzlů. Schopnost paralelního zpracování výrazně urychluje úlohy zpracování a analýzy dat, což je nezbytné k získání včasných přehledů v projektech datových věd.

Škálovatelnost: Clustery s velkými objemy dat poskytují vysokou škálovatelnost, a to jak horizontálně, tak přidáním dalších uzlů i svisle zvýšením výkonu stávajících uzlů. Škálovatelnost pomáhá zajistit, aby datová infrastruktura roste s potřebami projektu tím, že zpracovává rostoucí velikosti a složitost dat.

Integrace s nástroji pro datové vědy: Clustery pro velké objemy dat se dobře integrují s různými nástroji a platformami pro datové vědy. Spark se například bezproblémově integruje s Hadoopem a clustery SQL pracují s různými nástroji pro analýzu dat. Integrace usnadňuje hladký pracovní postup od příjmu dat až po analýzu a vizualizaci.

Pokročilá analýza: Clustery s velkými objemy dat podporují pokročilé analýzy a strojové učení. Spark například poskytuje následující předdefinované knihovny:

  • Strojové učení, MLlib
  • Zpracování grafů, GraphX
  • Zpracování datových proudů, streamování Sparku

Tyto funkce pomáhají datovým vědcům provádět komplexní analýzy přímo v clusteru.

Zpracování dat v reálném čase: Clustery s velkými objemy dat, zejména ty, které používají Spark, podporují zpracování dat v reálném čase. Tato schopnost je zásadní pro projekty, které vyžadují analýzu dat a rozhodování až na minutu. Zpracování v reálném čase pomáhá ve scénářích, jako je detekce podvodů, doporučení v reálném čase a dynamické ceny.

Transformace a extrakce dat, transformace, načítání (ETL):: Clustery s velkými objemy dat jsou ideální pro transformace dat a procesy ETL. Mohou efektivně zpracovávat složité transformace dat, čištění a agregační úlohy, které jsou často nezbytné před analýzou dat.

Nákladová efektivita: Clustery s velkými objemy dat můžou být nákladově efektivní, zejména pokud používáte cloudová řešení, jako jsou Azure Databricks a další cloudové služby. Tyto služby poskytují flexibilní cenové modely, které zahrnují průběžné platby, což může být úspornější než údržba místní infrastruktury velkých objemů dat.

Odolnost proti chybám: Clustery s velkými objemy dat jsou navržené s ohledem na odolnost proti chybám. Replikují data napříč uzly, aby zajistily, že systém zůstane funkční i v případě, že některé uzly selžou. Tato spolehlivost je důležitá pro zachování integrity dat a dostupnosti v projektech datových věd.

Integrace Data Lake: Clustery s velkými objemy dat se často integrují bez problémů s datovými jezery, což datovým vědcům umožňuje jednotný přístup k různorodým zdrojům dat a jejich analýzu. Integrace podporuje komplexnější analýzy tím, že podporuje kombinaci strukturovaných a nestrukturovaných dat.

Zpracování založené na SQL: Pro datové vědce, kteří jsou obeznámeni s SQL, clustery pro velké objemy dat, které pracují s dotazy SQL, jako je Spark SQL nebo SQL v Hadoopu, poskytují známé rozhraní pro dotazování a analýzu velkých objemů dat. Díky tomuto snadnému použití může proces analýzy urychlit a zpřístupnit ho širšímu rozsahu uživatelů.

Spolupráce a sdílení: Clustery s velkými objemy dat podporují prostředí pro spolupráci, kde na stejných datových sadách může spolupracovat několik datových vědců a analytiků. Poskytují funkce pro sdílení kódu, poznámkových bloků a výsledků, které podporují týmovou práci a sdílení znalostí.

Zabezpečení a dodržování předpisů: Clustery s velkými objemy dat poskytují robustní funkce zabezpečení, jako je šifrování dat, řízení přístupu a dodržování oborových standardů. Funkce zabezpečení chrání citlivá data a pomáhají vašemu týmu splňovat zákonné požadavky.

  • Apache Spark ve službě Machine Learning: Integrace služby Machine Learning se službou Azure Synapse Analytics poskytuje snadný přístup k distribuovaným výpočetním prostředkům prostřednictvím architektury Apache Spark.
  • Azure Synapse Analytics: Komplexní dokumentace pro Azure Synapse Analytics, která integruje velké objemy dat a datové sklady.

Clustery s velkými objemy dat, ať už SQL nebo Spark, jsou pro TDSP klíčové, protože poskytují výpočetní výkon a škálovatelnost potřebnou k efektivnímu zpracování velkých objemů dat. Clustery s velkými objemy dat umožňují datovým vědcům provádět složité dotazy a pokročilé analýzy velkých datových sad, které usnadňují hloubkové přehledy a přesný vývoj modelů. Při použití distribuovaného computingu tyto clustery umožňují rychlé zpracování a analýzu dat, což urychluje celkový pracovní postup datových věd. Clustery s velkými objemy dat také podporují bezproblémovou integraci s různými zdroji dat a nástroji, které vylepšují schopnost ingestovat, zpracovávat a analyzovat data z více prostředí. Clustery s velkými objemy dat také podporují spolupráci a reprodukovatelnost tím, že poskytují jednotnou platformu, kde týmy mohou efektivně sdílet prostředky, pracovní postupy a výsledky.

Služby AI a strojového učení

Služby AI a strojového učení (ML) jsou nedílnou součástí TDSP z několika důvodů:

Pokročilá analýza: Služby AI a ML umožňují pokročilou analýzu. Datoví vědci můžou pomocí pokročilých analýz odhalit složité vzory, vytvářet předpovědi a generovat přehledy, které nejsou možné pomocí tradičních analytických metod. Tyto pokročilé funkce jsou zásadní pro vytváření řešení pro datové vědy s vysokým dopadem.

Automatizace opakujících se úloh: Služby AI a ML můžou automatizovat opakující se úlohy, jako je čištění dat, příprava funkcí a trénování modelů. Automatizace šetří čas a pomáhá datovým vědcům soustředit se na strategickější aspekty projektu, což zlepšuje celkovou produktivitu.

Vylepšená přesnost a výkon: Modely ML můžou zlepšit přesnost a výkon předpovědí a analýz tím, že se učí z dat. Tyto modely se můžou průběžně zlepšovat, jakmile budou vystaveny většímu počtu dat, což vede k lepšímu rozhodování a spolehlivějším výsledkům.

Škálovatelnost: Služby AI a ML poskytované cloudovými platformami, jako je Machine Learning, jsou vysoce škálovatelné. Můžou zpracovávat velké objemy dat a složitých výpočtů, což pomáhá týmům datových věd škálovat svá řešení tak, aby splňovala rostoucí požadavky, aniž by se museli starat o základní omezení infrastruktury.

Integrace s dalšími nástroji: Služby AI a ML se bezproblémově integrují s dalšími nástroji a službami v ekosystému Microsoftu, jako jsou Azure Data Lake, Azure Databricks a Power BI. Integrace podporuje zjednodušený pracovní postup od příjmu a zpracování dat až po nasazení a vizualizaci modelu.

Nasazení a správa modelů: Služby AI a ML poskytují robustní nástroje pro nasazování a správu modelů strojového učení v produkčním prostředí. Funkce, jako je správa verzí, monitorování a automatizované opětovné natrénování, pomáhají zajistit, aby modely zůstaly v průběhu času přesné a efektivní. Tento přístup zjednodušuje údržbu řešení ML.

Zpracování v reálném čase: Služby AI a ML podporují zpracování dat v reálném čase a rozhodování. Zpracování v reálném čase je nezbytné pro aplikace, které vyžadují okamžité přehledy a akce, jako je detekce podvodů, dynamické ceny a systémy doporučení.

Přizpůsobitelnost a flexibilita: Služby AI a ML poskytují řadu přizpůsobitelných možností, od předem připravených modelů a rozhraní API až po architektury pro vytváření vlastních modelů od nuly. Tato flexibilita pomáhá týmům datových věd přizpůsobit řešení konkrétním obchodním potřebám a případům použití.

Přístup k špičkovým algoritmům: Služby AI a ML poskytují datovým vědcům přístup k špičkovým algoritmům a technologiím vyvinutým předními výzkumníky. Access zajišťuje, aby tým mohl pro své projekty využívat nejnovější pokroky v AI a ML.

Spolupráce a sdílení: Platformy AI a ML podporují vývojová prostředí pro spolupráci, kde více členů týmu může spolupracovat na stejném projektu, sdílet kód a reprodukovat experimenty. Spolupráce zlepšuje týmovou práci a pomáhá zajistit konzistenci při vývoji modelů.

Nákladová efektivita: Služby AI a ML v cloudu můžou být cenově výhodnější než vytváření a údržba místních řešení. Poskytovatelé cloudu mají flexibilní cenové modely, které zahrnují možnosti průběžných plateb, které můžou snížit náklady a optimalizovat využití prostředků.

Vylepšené zabezpečení a dodržování předpisů: Služby AI a ML obsahují robustní funkce zabezpečení, mezi které patří šifrování dat, zabezpečené řízení přístupu a dodržování oborových standardů a předpisů. Tyto funkce pomáhají chránit vaše data a modely a splňovat právní a zákonné požadavky.

Předem vytvořené modely a rozhraní API: Mnoho služeb AI a ML poskytuje předem připravené modely a rozhraní API pro běžné úlohy, jako je zpracování přirozeného jazyka, rozpoznávání obrázků a detekce anomálií. Předem připravená řešení můžou urychlit vývoj a nasazení a pomoci týmům rychle integrovat funkce umělé inteligence do svých aplikací.

Experimentování a vytváření prototypů: Platformy AI a ML poskytují prostředí pro rychlé experimentování a vytváření prototypů. Datoví vědci můžou rychle otestovat různé algoritmy, parametry a datové sady, aby našli nejlepší řešení. Experimentování a vytváření prototypů podporuje iterativní přístup k vývoji modelů.

Machine Learning je hlavní prostředek, který doporučujeme pro aplikaci datových věd a TDSP. Azure také poskytuje služby AI, které mají připravené modely AI pro konkrétní aplikace.

  • Machine Learning: Hlavní stránka dokumentace pro Machine Learning, která se zabývá nastavením, trénováním modelu, nasazením atd.
  • Služby Azure AI: Informace o službách AI, které poskytují předem připravené modely AI pro zpracování obrazu, řeči, jazyka a rozhodování.

Služby AI a ML jsou pro TDSP klíčové, protože poskytují výkonné nástroje a architektury, které zjednodušují vývoj, trénování a nasazování modelů strojového učení. Tyto služby automatizují složité úlohy, jako je výběr algoritmu a ladění hyperparametrů, což výrazně urychluje proces vývoje modelu. Tyto služby také poskytují škálovatelnou infrastrukturu, která datovým vědcům pomáhá efektivně zpracovávat velké datové sady a výpočetně náročné úlohy. Nástroje AI a ML se bezproblémově integrují s dalšími službami Azure a vylepšují příjem dat, předběžné zpracování a nasazení modelu. Integrace pomáhá zajistit hladký ucelený pracovní postup. Tyto služby také podporují spolupráci a reprodukovatelnost. Týmy můžou sdílet přehledy a efektivně experimentovat s výsledky a modely, zatímco udržují vysoké standardy zabezpečení a dodržování předpisů.

Zodpovědná AI

S řešeními AI nebo ML podporuje Microsoft zodpovědné nástroje AI v rámci svých řešení AI a ML. Tyto nástroje podporují standard Microsoft Responsible AI Standard. Vaše úloha musí dál řešit škody související s AI jednotlivě.

Citace s hodnocením peer-reviewed

TDSP je dobře zavedená metodologie, kterou týmy používají napříč zapojeními Microsoftu. TDSP je dokumentován a zkoumán v peer-reviewed literatury. Citace poskytují příležitost prozkoumat funkce a aplikace TDSP. Další informace a seznam citací najdete v tématu Životní cyklus TDSP.

Role a úkoly v zprostředkovateli TDSP