Sdílet prostřednictvím


Kurz: Vývoj modelu clusteringu v R pomocí strojového učení SQL

Platí pro: SQL Server 2016 (13.x) a novější verze Azure SQL Managed Instance

V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě SQL Server Machine Learning Services nebo v clusterech s velkými objemy dat ke kategorizaci zákaznických dat.

V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě SQL Server Machine Learning Services ke clusterování zákaznických dat.

V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě SQL Server R Services ke clusterování zákaznických dat.

V této čtyřdílné sérii kurzů použijete jazyk R k vývoji a nasazení modelu clusteringu K-Means ve službě Azure SQL Managed Instance Machine Learning Services ke clusterování zákaznických dat.

V první části této série nastavíte požadavky pro kurz a pak obnovíte ukázkovou datovou sadu do databáze. Ve dvou a třech částech vytvoříte v poznámkovém bloku Azure Data Studio několik skriptů jazyka R, které analyzují a připraví tato ukázková data a vytrénují model strojového učení. Potom ve čtyřech částech spustíte tyto skripty R uvnitř databáze pomocí uložených procedur.

Clustering je možné vysvětlit tak, že data uspořádáte do skupin, kde jsou členové skupiny podobným způsobem. V této sérii kurzů si představte, že vlastníte maloobchodní firmu. Pomocí algoritmu K-Means provedete clustering zákazníků v datové sadě nákupů produktů a jejich vrácení. Díky clusteringu zákazníků se můžete efektivněji zaměřit na marketingové úsilí tím, že cílíte na konkrétní skupiny. Clustering K-Means je algoritmus učení bez dohledu , který hledá vzory v datech na základě podobností.

V tomto článku se naučíte:

  • Obnovení ukázkové databáze

V druhé části se dozvíte, jak připravit data z databáze na clustering.

Ve třetí části se dozvíte, jak vytvořit a vytrénovat model clusteringu K-Means v R.

Ve 4. části se dozvíte, jak vytvořit uloženou proceduru v databázi, která může provádět clustering v jazyce R na základě nových dat.

Požadavky

Obnovení ukázkové databáze

Ukázková datová sada použitá v tomto kurzu byla uložena do záložního .bak souboru databáze, který můžete stáhnout a použít. Tato datová sada je odvozena z datové sady tpcx-bb, kterou poskytuje Rada výkonu zpracování transakcí (TPC).

Poznámka:

Pokud používáte službu Machine Learning Services v clusterech s velkými objemy dat, podívejte se, jak obnovit databázi do hlavní instance clusteru SQL Serveru pro velké objemy dat.

  1. Stáhněte soubor tpcxbb_1gb.bak.

  2. Postupujte podle pokynů v části Obnovení databáze ze záložního souboru v Nástroji Azure Data Studio pomocí těchto podrobností:

    • Importujte ze staženého tpcxbb_1gb.bak souboru.
    • Pojmenujte cílovou databázi tpcxbb_1gb.
  3. Dotazem na dbo.customer tabulku můžete ověřit, že datová sada existuje po obnovení databáze:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Stáhněte soubor tpcxbb_1gb.bak.

  2. Postupujte podle pokynů v části Obnovení databáze do spravované instance v aplikaci SQL Server Management Studio pomocí těchto podrobností:

    • Importujte ze staženého tpcxbb_1gb.bak souboru.
    • Pojmenujte cílovou databázi tpcxbb_1gb.
  3. Dotazem na dbo.customer tabulku můžete ověřit, že datová sada existuje po obnovení databáze:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Vyčistěte zdroje

Pokud nebudete pokračovat v tomto kurzu, odstraňte tpcxbb_1gb databázi.

Další krok

V první části této série kurzů jste dokončili tyto kroky:

  • Nainstalovány nezbytné předpoklady
  • Obnovení ukázkové databáze

Pokud chcete připravit data pro model strojového učení, postupujte podle druhé části této série kurzů: