Samouczek: tworzenie modelu klastrowania w języku R przy użyciu uczenia maszynowego SQL

Dotyczy: SQL Server 2016 (13.x) i nowsze wersje usługi Azure SQL Managed Instance

W tej czteroczęściowej serii samouczków użyjesz języka R do opracowania i wdrożenia modelu klastrowania K-Średnich w usługach SQL Server Machine Learning Services lub na klastrach dużych danych, aby kategoryzować dane klientów.

W tej czteroczęściowej serii samouczków użyjesz języka R do opracowania i wdrożenia modelu klastrowania k-średnich w SQL Server Machine Learning Services w celu klastrowania danych klientów.

W tej czteroczęściowej serii samouczków użyjesz języka R do opracowania i wdrożenia modelu klastrowania K-Średnich w usługach SQL Server R Services w celu klastrowania danych klientów.

W tej czteroczęściowej serii kursu samouczków użyjesz R do opracowania i wdrożenia modelu klastrowania metodą k-średnich w usługach Azure SQL Managed Instance Machine Learning Services, aby klastrować dane klientów.

W części jednej z tej serii skonfigurujesz wymagania wstępne dotyczące samouczka, a następnie przywrócisz przykładowy zestaw danych do bazy danych. W dwóch i trzech częściach utworzysz kilka skryptów języka R w notesie usługi Azure Data Studio, aby przeanalizować i przygotować te przykładowe dane oraz wytrenować model uczenia maszynowego. Następnie w czwartej części uruchomisz te skrypty języka R w bazie danych przy użyciu procedur składowanych.

Klastrowanie można wyjaśnić jako organizowanie danych w grupach, w których członkowie grupy są w jakiś sposób podobne. W tej serii samouczków wyobraź sobie, że jesteś właścicielem firmy handlu detalicznego. Użyjesz algorytmu K-Średnich, aby wykonać grupowanie klientów w zestawie danych dotyczących zakupów i zwrotów produktów. Dzięki klastrowaniu klientów możesz bardziej efektywnie skoncentrować swoje wysiłki marketingowe, kierując się do określonych grup. Klaster K-Średnich to nienadzorowany algorytm uczenia , który wyszukuje wzorce w danych na podstawie podobieństw.

W tym artykule dowiesz się, jak:

Przywracanie przykładowej bazy danych

W drugiej części dowiesz się, jak przygotować dane z bazy danych do wykonywania klastrowania.

W trzeciej części dowiesz się, jak stworzyć i wytrenować model klastrowania K-Means w R.

W czwartej części dowiesz się, jak utworzyć procedurę składowaną w bazie danych, która może wykonywać klastrowanie w języku R na podstawie nowych danych.

Wymagania wstępne

Usługi SQL Server Machine Learning Services z opcją języka Python — postępuj zgodnie z instrukcjami instalacji w przewodniku instalacji systemu Windows lub przewodniku instalacji systemu Linux. Usługi Machine Learning Services można również włączyć w klastrach danych big data programu SQL Server.

Usługi SQL Server Machine Learning Services z opcją języka R — postępuj zgodnie z instrukcjami instalacji w przewodniku instalacji systemu Windows.

Azure SQL Managed Instance Machine Learning Services. Aby uzyskać informacje, zobacz Omówienie usług Azure SQL Managed Instance Machine Learning Services.
SQL Server Management Studio (SSMS) — użyj programu SSMS, aby przywrócić przykładową bazę danych do usługi Azure SQL Managed Instance. Zainstaluj najnowszą wersję programu SQL Server Management Studio (SSMS).

Azure Data Studio. Użyjesz notesu w narzędziu Azure Data Studio for SQL. Aby uzyskać więcej informacji na temat notatników, zobacz Jak używać notatników w Azure Data Studio (How to use notebooks in Azure Data Studio).
Środowisko IDE języka R — w tym samouczku jest używane RStudio Desktop.
RODBC — ten sterownik jest używany w skryptach R, które opracujesz w tym samouczku. Jeśli nie jest jeszcze zainstalowany, zainstaluj go przy użyciu polecenia install.packages("RODBC")języka R . Aby uzyskać więcej informacji na temat pakietu RODBC, zobacz CRAN — Package RODBC.

Przywracanie przykładowej bazy danych

Przykładowy zestaw danych używany w tym samouczku został zapisany w .bak pliku kopii zapasowej bazy danych do pobrania i użycia. Ten zestaw danych pochodzi z zestawu danych tpcx-bb dostarczonego przez Radę wydajności przetwarzania transakcji (TPC).

Uwaga / Notatka

Jeśli używasz usług Machine Learning Services w klastrach danych big-data, zobacz, jak przywrócić bazę danych do głównej instancji klastra danych big-data programu SQL Server.

Pobierz plik tpcxbb_1gb.bak.
Postępuj zgodnie z instrukcjami w artykule Przywracanie bazy danych z pliku kopii zapasowej w narzędziu Azure Data Studio, korzystając z następujących szczegółów:
- Zaimportuj z pobranego tpcxbb_1gb.bak pliku.
- Nadaj docelowej bazie danych tpcxbb_1gbnazwę .
Możesz sprawdzić, czy zestaw danych istnieje po przywróceniu bazy danych, wykonując dbo.customer zapytanie dotyczące tabeli:
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Pobierz plik tpcxbb_1gb.bak.
Postępuj zgodnie z instrukcjami w artykule Przywracanie bazy danych do wystąpienia zarządzanego w programie SQL Server Management Studio, korzystając z następujących szczegółów:
- Zaimportuj z pobranego tpcxbb_1gb.bak pliku.
- Nadaj docelowej bazie danych tpcxbb_1gbnazwę .
Możesz sprawdzić, czy zestaw danych istnieje po przywróceniu bazy danych, wykonując dbo.customer zapytanie dotyczące tabeli:
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Uprzątnij zasoby

Jeśli nie zamierzasz kontynuować pracy z tym samouczkiem, usuń tpcxbb_1gb bazę danych.

Następny krok

W jednej części tej serii samouczków wykonano następujące kroki:

Zainstalowano niezbędne składniki
Przywrócono przykładową bazę danych

Aby przygotować dane dla modelu uczenia maszynowego, wykonaj drugą część tej serii samouczków:

Przygotowywanie danych do wykonywania klastrowania

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-10-31