Sdílet prostřednictvím


Trénování modelů strojového učení

Apache Spark – součást Microsoft Fabric – umožňuje strojové učení s velkými objemy dat. Pomocí Apache Sparku můžete vytvářet cenné přehledy o velkých objemech strukturovaných, nestrukturovaných a rychle se pohyblivých dat. Při trénování modelů strojového učení pomocí Apache Sparku v Microsoft Fabric máte k dispozici několik dostupných možností opensourcové knihovny: Apache Spark MLlib, SynapseML a další.

Apache SparkML a MLlib

Apache Spark – součást Microsoft Fabric – poskytuje jednotnou opensourcovou architekturu paralelního zpracování dat. Tato architektura podporuje zpracování v paměti, které zvyšuje analýzu velkých objemů dat. Modul pro zpracování Sparku je vytvořený pro rychlost, snadné použití a sofistikované analýzy. Funkce distribuovaných výpočtů v paměti Sparku umožňují vhodnou volbou pro iterativní algoritmy, které používají výpočty strojového učení a grafů.

Škálovatelné knihovny strojového učení MLlib a SparkML přinášejí do tohoto distribuovaného prostředí možnosti algoritmického modelování. MLlib obsahuje původní rozhraní API postavené na sadách RDD. SparkML je novější balíček. Poskytuje rozhraní API vyšší úrovně založené na datových rámcích pro vytváření kanálů ML. SparkML zatím nepodporuje všechny funkce knihovny MLlib, ale nahrazuje knihovnu MLlib jako standardní knihovnu strojového učení Sparku.

Poznámka:

Další informace o vytvoření modelu SparkML najdete v části Trénování modelů pomocí prostředku Apache Spark MLlib .

Modul runtime Microsoft Fabric pro Apache Spark obsahuje několik oblíbených opensourcových balíčků pro trénování modelů strojového učení. Tyto knihovny poskytují opakovaně použitelný kód, který můžete zahrnout do svých programů nebo projektů. Modul runtime zahrnuje tyto relevantní knihovny strojového učení a další:

  • Scikit-learn – jedna z nejoblíbenějších knihoven strojového učení s jedním uzlem pro klasické algoritmy ML. Scikit-learn podporuje většinu algoritmů učení pod dohledem a bez dohledu a dokáže zpracovávat dolování dat a analýzu dat.

  • XGBoost – oblíbená knihovna strojového učení, která obsahuje optimalizované algoritmy pro trénování rozhodovacích stromů a náhodných doménových struktur.

  • PyTorch a Tensorflow jsou výkonné knihovny hlubokého učení Pythonu. Pomocí těchto knihoven můžete nastavit počet exekutorů ve fondu na nulu, abyste mohli vytvářet modely s jedním počítačem. I když tato konfigurace nepodporuje Apache Spark, je to jednoduchý nákladově efektivní způsob vytváření modelů s jedním počítačem.

SynapseML

Opensourcová knihovna SynapseML (dříve označovaná jako MMLSpark) zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Díky tomu je využití Sparku pro datové vědce produktivnější, protože tato knihovna zvyšuje míru experimentování a používá špičkové techniky strojového učení ( včetně hlubokého učení ) u velkých datových sad.

SynapseML poskytuje vrstvu nad rozhraními API nízké úrovně SparkML při vytváření škálovatelných modelů ML. Tato rozhraní API pokrývají indexování řetězců, sestavení vektorů funkcí, převod dat do rozložení vhodných pro algoritmy strojového učení a další. Knihovna SynapseML tyto a další běžné úlohy při vytváření modelů v PySparku zjednodušuje.

Tento článek obsahuje přehled různých možností, které jsou k dispozici pro trénování modelů strojového učení v Rámci Apache Sparku v Microsoft Fabric. Další informace o trénování modelů najdete v těchto zdrojích informací: