Руководство по разработке модели кластеризации в R с помощью машинного обучения SQL

Мақала
05/30/2024

Область применения: SQL Server 2016 (13.x) и более поздних версий Управляемый экземпляр SQL Azure

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server или Кластерах больших данных для классификации данных клиентов.

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server для кластеризации данных клиентов.

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в службах SQL Server R Services для кластеризации данных клиентов.

В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом K-средних в Службах машинного обучения управляемого экземпляра SQL Azure для кластеризации данных клиентов.

В первой части этого цикла учебников вы настроите необходимые компоненты, а затем восстановите пример набора данных в базе данных. Во второй и третьей частях вы создадите сценарии R в записной книжке Azure Data Studio для анализа и подготовки этого примера данных, а также для обучения модели машинного обучения. Затем, в четвертой части, вы запустите эти сценарии R в базе данных с помощью хранимых процедур.

Кластеризацию можно описать как организацию данных по группам, где члены группы каким-либо образом похожи друг на друга. В рамках этой серии руководств вы можете представить себя владельцем розничного предприятия. Вы будете использовать метод k-средних для кластеризации клиентов в наборе данных о покупках и возвратах продуктов. Благодаря кластеризации клиентов вы можете более эффективно осуществлять маркетинговую деятельность, ориентируясь на конкретные группы. Кластеризация методом k-средних — это алгоритм неконтролируемого обучения, который ищет закономерности в данных на основе сходства.

В этой статье вы узнаете, как выполнять следующие задачи.

Восстановление примера базы данных

Во второй части вы узнаете, как подготовить данные из базы данных для выполнения кластеризации.

В третьей части вы узнаете, как создать и обучить модель кластеризации на основе k-средних в R.

В четвертой части вы узнаете, как создать хранимую процедуру в базе данных, которая может выполнять кластеризацию в R на основе новых данных.

Необходимые компоненты

Службы машинного обучения SQL Server с языком Python — следуйте инструкциям по установке в руководстве по установке для Windows или руководстве по установке для Linux. Можно также включить Службы машинного обучения в кластерах больших данных SQL Server.

Службы машинного обучения SQL Server с языком R — следуйте инструкциям по установке в руководстве по установке для Windows.

Службы машинного обучения в Управляемом экземпляре SQL Azure. Дополнительные сведения см. в статье Общие сведения о службах машинного обучения в управляемом экземпляре SQL Azure.
SQL Server Management Studio (SSMS) — используйте SSMS для восстановления образца базы данных до Управляемый экземпляр SQL Azure. Чтобы скачать, см. статью SQL Server Management Studio.

Azure Data Studio. Записную книжку в Azure Data Studio вы будете использовать для SQL. Дополнительные сведения о записных книжках см. в статье Использование записных книжек в Azure Data Studio.
Интегрированная среда разработки R — в этом руководстве используется RStudio Desktop.
RODBC — этот драйвер используется в скриптах R, которые вы разрабатываете в этом руководстве. Установите его с помощью команды R install.packages("RODBC"), если этот драйвер еще не установлен. Дополнительные сведения о RODBC см. в разделе CRAN - Package RODBC (CRAN: пакет RODBC).

Восстановление примера базы данных

Образец набора данных, используемый в этом руководстве, был сохранен в файл резервной .bak копии базы данных для скачивания и использования. Этот набор данных является производным от набора данных tpcx-bb, предоставляемого Советом по оценке производительности обработки транзакций (TPC).

Примечание.

Если вы используете Службы машинного обучения в Кластерах больших данных, ознакомьтесь со статьей Восстановление базы данных на главном экземпляре кластера больших данных SQL Server.

Скачайте файл tpcxbb_1gb.bak.
Следуйте инструкциям из раздела Восстановление базы данных из файла резервной копии в Azure Data Studio, используя следующие сведения:
- Выполните импорт из скачанного файла tpcxbb_1gb.bak.
- Присвойте целевой базе данных имя tpcxbb_1gb.
Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу dbo.customer :
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Скачайте файл tpcxbb_1gb.bak.
Следуйте инструкциям в разделе Восстановление базы данных в Управляемый экземпляр в SQL Server Management Studio, используя следующие сведения.
- Выполните импорт из скачанного файла tpcxbb_1gb.bak.
- Присвойте целевой базе данных имя tpcxbb_1gb.
Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу dbo.customer :
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Очистка ресурсов

Если вы не собираетесь продолжать работу с этим учебником, удалите базу данных tpcxbb_1gb.

Следующий шаг

В первой части этого учебника вы выполнили следующие действия:

Установка необходимых компонентов
Восстановленный пример базы данных

Чтобы подготовить данные из для модели машинного обучения, перейдите ко второй части этого учебника:

Подготовка данных к выполнению кластеризации

Бөлісу құралы: