Sdílet prostřednictvím


Algoritmy dolování dat (Analysis Services – Dolování dat)

Platí pro: SQL Server 2019 a starší služby Analysis Services Azure Analysis Services Fabric/ Power BI Premium

Důležité

Dolování dat bylo v SQL Serveru 2017 Analysis Services zastaralé a nyní ukončeno ve službě SQL Server 2022 Analysis Services. Dokumentace se neaktualizuje pro zastaralé a ukončené funkce. Další informace najdete v tématu Zpětná kompatibilita služby Analysis Services.

Algoritmus při dolování dat (nebo strojovém učení) je sada heuristik a výpočtů, které vytváří model z dat. Pokud chcete vytvořit model, algoritmus nejprve analyzuje data, která zadáte, a hledá konkrétní typy vzorů nebo trendů. Algoritmus používá výsledky této analýzy nad mnoha iteracemi k nalezení optimálních parametrů pro vytvoření modelu dolování. Tyto parametry se pak použijí napříč celou sadou dat, aby se extrahovali vzory s akcemi a podrobné statistiky.

Model dolování, který algoritmus vytvoří z vašich dat, může mít různé formy, včetně:

  • Sada clusterů, které popisují, jak souvisí případy v datové sadě.

  • Rozhodovací strom, který předpovídá výsledek, a popisuje, jak různá kritéria ovlivňují tento výsledek.

  • Matematický model, který předpovídá prodej.

  • Sada pravidel, která popisují, jak se produkty seskupují v transakci, a pravděpodobnosti, že se produkty kupují společně.

Algoritmy poskytované v sql Server Data Mining jsou nejoblíbenější, dobře prozkoumáné metody odvození vzorů z dat. Jedním z příkladů je clustering K-means jedním z nejstarších algoritmů clusteringu a je k dispozici v mnoha různých nástrojích a s mnoha různými implementacemi a možnostmi. Konkrétní implementace clusteringu K-Means používaného v SQL Server Data Mining byla vyvinuta společností Microsoft Research a poté optimalizována pro výkon pomocí služby SQL Server Analysis Services. Všechny algoritmy microsoftu pro dolování dat je možné značně přizpůsobit a jsou plně programovatelné pomocí poskytovaných rozhraní API. Vytváření, trénování a opětovné trénování modelů můžete také automatizovat pomocí komponent dolování dat v integračních službách.

Můžete také použít algoritmy třetích stran, které vyhovují specifikaci OLE DB pro dolování dat, nebo vyvíjet vlastní algoritmy, které lze zaregistrovat jako služby a pak použít v rámci rozhraní SQL Server Data Mining.

Volba správného algoritmu

Výběr nejlepšího algoritmu, který se má použít pro konkrétní analytickou úlohu, může být výzvou. I když můžete použít různé algoritmy k provedení stejné obchodní úlohy, každý algoritmus vytvoří jiný výsledek a některé algoritmy můžou vytvořit více než jeden typ výsledku. Například můžete použít algoritmus Rozhodovací stromy Microsoftu nejen pro predikci, ale také jako způsob, jak snížit počet sloupců v datové sadě, protože rozhodovací strom dokáže identifikovat sloupce, které nemají vliv na konečný model dolování.

Volba algoritmu podle typu

Dolování dat SQL Serveru zahrnuje následující typy algoritmů:

  • Klasifikační algoritmy predikují jednu nebo více diskrétních proměnných na základě dalších atributů v datové sadě.

  • Regresní algoritmy predikují jednu nebo více souvislých číselných proměnných, jako je zisk nebo ztráta, na základě jiných atributů v datové sadě.

  • Segmentační algoritmy rozdělují data do skupin nebo clusterů položek, které mají podobné vlastnosti.

  • Algoritmy přidružení najdou korelace mezi různými atributy v datové sadě. Nejběžnější aplikací tohoto typu algoritmu je vytvoření pravidel přidružení, která lze použít v analýze nákupního košíku.

  • Algoritmy pro analýzu sekvencí shrnují časté sekvence nebo epizody v datech, například sérii kliknutí na webu nebo řadu událostí protokolu předcházejících údržbě počítače.

Neexistuje ale žádný důvod, proč byste měli být ve svých řešeních omezeni na jeden algoritmus. Zkušení analytici někdy použijí jeden algoritmus k určení nejúčinnějších vstupů (tj. proměnných) a pak použije jiný algoritmus k predikci konkrétního výsledku na základě těchto dat. SQL Server Data Mining umožňuje vytvářet více modelů na jedné dolování struktury, takže v rámci jednoho řešení pro dolování dat můžete použít clusteringový algoritmus, model rozhodovacích stromů a model Naïve Bayes k získání různých zobrazení dat. K provádění samostatných úloh můžete použít také více algoritmů v rámci jednoho řešení: například regresi můžete použít k získání finančních prognóz a k analýze faktorů, které ovlivňují prognózy, použít algoritmus neurální sítě.

Výběr algoritmu podle úkolu

Abychom vám pomohli vybrat algoritmus pro konkrétní úkol, následující tabulka nabízí návrhy, jaké typy úkolů jsou pro každý algoritmus tradičně vhodné.

Příklady úkolů Algoritmy Microsoftu pro použití
Predikce diskrétního atributu:

Označte zákazníky v seznamu potenciálních kupujících jako dobré nebo špatné možnosti.

Spočítejte pravděpodobnost selhání serveru během následujících 6 měsíců.

Kategorizujte výsledky pacientů a prozkoumejte související faktory.
Algoritmus rozhodovacích stromů Microsoftu

Algoritmus Microsoft Naive Bayes

Algoritmus clusteringu Microsoftu

Algoritmus neurální sítě Microsoftu
Predikce průběžného atributu:

Prognóza prodeje příštího roku

Predikce návštěvníků webu s historickými a sezónními trendy

Vygenerujte skóre rizika vzhledem k demografickým údajům.
Algoritmus rozhodovacích stromů Microsoftu

Algoritmus Microsoft Time Series

Microsoft Linear Regression Algorithm
Predikce sekvence:

Proveďte analýzu clickstreamu webu společnosti.

Analyzujte faktory, které vedou k selhání serveru.

Zachyťte a analyzujte posloupnosti aktivit během ambulantních návštěv a formulujte osvědčené postupy týkající se běžných aktivit.
Algoritmus pro shlukování Microsoft Sequence
Hledání skupin běžných položek v transakcích:

K určení umístění produktu použijte analýzu nákupního košíku.

Navrhněte zákazníkovi další produkty k nákupu.

Analyzujte data průzkumu od návštěvníků k události, abyste zjistili, které aktivity nebo stánky byly korelovány, a naplánujte budoucí aktivity.
Algoritmus přidružení Microsoftu

Algoritmus rozhodovacích stromů Microsoftu
Hledání skupin podobných položek:

Vytvořte skupiny profilů rizik pacientů na základě atributů, jako jsou demografické údaje a chování.

Analyzujte uživatele podle jejich prohlížecích a nákupních vzorců.

Identifikujte servery, které mají podobné charakteristiky využití.
Algoritmus clusteringu Microsoftu

Algoritmus pro shlukování Microsoft Sequence

Následující část obsahuje odkazy na výukové materiály pro každý algoritmus dolování dat, které jsou k dispozici v SQL Server Data Mining:

Topic Description
Určení algoritmu používaného modelem dolování dat Dotazování parametrů použitých k vytvoření modelu dolování
Vytvoření vlastního algoritmu zásuvného modulu Pluginové algoritmy
Prozkoumání modelu pomocí prohlížeče specifického pro algoritmy Prohlížeče modelů dolování dat
Zobrazení obsahu modelu pomocí obecného formátu tabulky Procházení modelu pomocí prohlížeče stromu obecného obsahu Microsoftu
Přečtěte si, jak nastavit data a používat algoritmy k vytváření modelů. Struktury dolování dat (Analysis Services - Dolování dat)

Modely dolování (Analysis Services – Dolování dat)

Viz také

Nástroje pro dolování dat