Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Platí pro: SQL Server 2016 (13.x) a novější verze
Azure SQL Managed Instance
V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě SQL Server Machine Learning Services nebo v clusterech s velkými objemy dat ke kategorizaci zákaznických dat.
V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě SQL Server Machine Learning Services ke clusterování zákaznických dat.
V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě SQL Server R Services ke clusterování zákaznických dat.
V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě Azure SQL Managed Instance Machine Learning Services ke clusterování zákaznických dat.
V první části této série nastavíte požadavky pro kurz a pak obnovíte ukázkovou datovou sadu do databáze. Ve dvou a třech částech vytvoříte v poznámkovém bloku Azure Data Studio několik skriptů jazyka R, které analyzují a připraví tato ukázková data a vytrénují model strojového učení. Potom ve čtyřech částech spustíte tyto skripty R uvnitř databáze pomocí uložených procedur.
Clustering je možné vysvětlit tak, že data uspořádáte do skupin, kde jsou členové skupiny podobným způsobem. V této sérii kurzů si představte, že vlastníte maloobchodní firmu. Pomocí algoritmu K-Means provedete clustering zákazníků v datové sadě nákupů produktů a jejich vrácení. Díky clusteringu zákazníků se můžete efektivněji zaměřit na marketingové úsilí tím, že cílíte na konkrétní skupiny. Clustering K-Means je algoritmus učení bez dohledu , který hledá vzory v datech na základě podobností.
V tomto článku se naučíte:
- Obnovení ukázkové databáze
V druhé části se dozvíte, jak připravit data z databáze na clustering.
Ve třetí části se dozvíte, jak vytvořit a vytrénovat model clusteringu K-Means v R.
Ve 4. části se dozvíte, jak vytvořit uloženou proceduru v databázi, která může provádět clustering v jazyce R na základě nových dat.
Požadavky
- SQL Server Machine Learning Services s možností jazyka Python – postupujte podle pokynů k instalaci v průvodci instalací Windows nebo v průvodci instalací Linuxu. Službu Machine Learning Services můžete také povolit v clusterech s velkými objemy dat SQL Serveru.
- SQL Server Machine Learning Services s možností jazyka R – Postupujte podle pokynů k instalaci v průvodci instalací Systému Windows.
Azure SQL Managed Instance Machine Learning Services Informace najdete v přehledu služby Azure SQL Managed Instance Machine Learning Services.
SQL Server Management Studio (SSMS) – Pomocí aplikace SSMS obnovte ukázkovou databázi do služby Azure SQL Managed Instance. Nainstalujte nejnovější verzi aplikace SQL Server Management Studio (SSMS).
Azure Data Studio. Použijete notebook v Azure Data Studio pro SQL. Další informace o poznámkových blocích najdete v tématu Použití poznámkových bloků v nástroji Azure Data Studio.
Ide jazyka R – V tomto kurzu se používá RStudio Desktop.
RODBC – Tento ovladač se používá ve skriptech jazyka R, které budete vyvíjet v tomto kurzu. Pokud ještě není nainstalovaný, nainstalujte ho pomocí příkazu
install.packages("RODBC")R . Další informace o RODBC naleznete v tématu CRAN - Package RODBC.
Obnovení ukázkové databáze
Ukázková datová sada použitá v tomto kurzu byla uložena do záložního .bak souboru databáze, který můžete stáhnout a použít. Tato datová sada je odvozena z datové sady tpcx-bb, kterou poskytuje Rada výkonu zpracování transakcí (TPC).
Poznámka:
Pokud používáte službu Machine Learning Services v clusterech s velkými objemy dat, podívejte se, jak obnovit databázi do hlavní instance clusteru SQL Serveru pro velké objemy dat.
Stáhněte soubor tpcxbb_1gb.bak.
Postupujte podle pokynů v části Obnovení databáze ze záložního souboru v Nástroji Azure Data Studio pomocí těchto podrobností:
- Importujte ze staženého
tpcxbb_1gb.baksouboru. - Pojmenujte cílovou databázi
tpcxbb_1gb.
- Importujte ze staženého
Dotazem na
dbo.customertabulku můžete ověřit, že datová sada existuje po obnovení databáze:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Stáhněte soubor tpcxbb_1gb.bak.
Postupujte podle pokynů v části Obnovení databáze do spravované instance v aplikaci SQL Server Management Studio pomocí těchto podrobností:
- Importujte ze staženého
tpcxbb_1gb.baksouboru. - Pojmenujte cílovou databázi
tpcxbb_1gb.
- Importujte ze staženého
Dotazem na
dbo.customertabulku můžete ověřit, že datová sada existuje po obnovení databáze:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Vyčistěte zdroje
Pokud nebudete pokračovat v tomto kurzu, odstraňte tpcxbb_1gb databázi.
Další krok
V první části této série kurzů jste dokončili tyto kroky:
- Nainstalovány nezbytné předpoklady
- Obnovení ukázkové databáze
Pokud chcete připravit data pro model strojového učení, postupujte podle druhé části této série kurzů: