Udostępnij za pomocą


Samouczek: tworzenie modelu klastrowania w języku R przy użyciu uczenia maszynowego SQL

Dotyczy: SQL Server 2016 (13.x) i nowsze wersje usługi Azure SQL Managed Instance

W tej czteroczęściowej serii samouczków użyjesz języka R do opracowania i wdrożenia modelu klastrowania K-Średnich w usługach SQL Server Machine Learning Services lub na klastrach dużych danych, aby kategoryzować dane klientów.

W tej czteroczęściowej serii samouczków użyjesz języka R do opracowania i wdrożenia modelu klastrowania k-średnich w SQL Server Machine Learning Services w celu klastrowania danych klientów.

W tej czteroczęściowej serii samouczków użyjesz języka R do opracowania i wdrożenia modelu klastrowania K-Średnich w usługach SQL Server R Services w celu klastrowania danych klientów.

W tej czteroczęściowej serii kursu samouczków użyjesz R do opracowania i wdrożenia modelu klastrowania metodą k-średnich w usługach Azure SQL Managed Instance Machine Learning Services, aby klastrować dane klientów.

W części jednej z tej serii skonfigurujesz wymagania wstępne dotyczące samouczka, a następnie przywrócisz przykładowy zestaw danych do bazy danych. W dwóch i trzech częściach utworzysz kilka skryptów języka R w notesie usługi Azure Data Studio, aby przeanalizować i przygotować te przykładowe dane oraz wytrenować model uczenia maszynowego. Następnie w czwartej części uruchomisz te skrypty języka R w bazie danych przy użyciu procedur składowanych.

Klastrowanie można wyjaśnić jako organizowanie danych w grupach, w których członkowie grupy są w jakiś sposób podobne. W tej serii samouczków wyobraź sobie, że jesteś właścicielem firmy handlu detalicznego. Użyjesz algorytmu K-Średnich, aby wykonać grupowanie klientów w zestawie danych dotyczących zakupów i zwrotów produktów. Dzięki klastrowaniu klientów możesz bardziej efektywnie skoncentrować swoje wysiłki marketingowe, kierując się do określonych grup. Klaster K-Średnich to nienadzorowany algorytm uczenia , który wyszukuje wzorce w danych na podstawie podobieństw.

W tym artykule dowiesz się, jak:

  • Przywracanie przykładowej bazy danych

W drugiej części dowiesz się, jak przygotować dane z bazy danych do wykonywania klastrowania.

W trzeciej części dowiesz się, jak stworzyć i wytrenować model klastrowania K-Means w R.

W czwartej części dowiesz się, jak utworzyć procedurę składowaną w bazie danych, która może wykonywać klastrowanie w języku R na podstawie nowych danych.

Wymagania wstępne

Przywracanie przykładowej bazy danych

Przykładowy zestaw danych używany w tym samouczku został zapisany w .bak pliku kopii zapasowej bazy danych do pobrania i użycia. Ten zestaw danych pochodzi z zestawu danych tpcx-bb dostarczonego przez Radę wydajności przetwarzania transakcji (TPC).

Uwaga / Notatka

Jeśli używasz usług Machine Learning Services w klastrach danych big-data, zobacz, jak przywrócić bazę danych do głównej instancji klastra danych big-data programu SQL Server.

  1. Pobierz plik tpcxbb_1gb.bak.

  2. Postępuj zgodnie z instrukcjami w artykule Przywracanie bazy danych z pliku kopii zapasowej w narzędziu Azure Data Studio, korzystając z następujących szczegółów:

    • Zaimportuj z pobranego tpcxbb_1gb.bak pliku.
    • Nadaj docelowej bazie danych tpcxbb_1gbnazwę .
  3. Możesz sprawdzić, czy zestaw danych istnieje po przywróceniu bazy danych, wykonując dbo.customer zapytanie dotyczące tabeli:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Pobierz plik tpcxbb_1gb.bak.

  2. Postępuj zgodnie z instrukcjami w artykule Przywracanie bazy danych do wystąpienia zarządzanego w programie SQL Server Management Studio, korzystając z następujących szczegółów:

    • Zaimportuj z pobranego tpcxbb_1gb.bak pliku.
    • Nadaj docelowej bazie danych tpcxbb_1gbnazwę .
  3. Możesz sprawdzić, czy zestaw danych istnieje po przywróceniu bazy danych, wykonując dbo.customer zapytanie dotyczące tabeli:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Uprzątnij zasoby

Jeśli nie zamierzasz kontynuować pracy z tym samouczkiem, usuń tpcxbb_1gb bazę danych.

Następny krok

W jednej części tej serii samouczków wykonano następujące kroki:

  • Zainstalowano niezbędne składniki
  • Przywrócono przykładową bazę danych

Aby przygotować dane dla modelu uczenia maszynowego, wykonaj drugą część tej serii samouczków: