Руководство по разработке модели кластеризации в R с помощью машинного обучения SQL
Область применения: SQL Server 2016 (13.x) и более поздних версий Управляемый экземпляр SQL Azure
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server или Кластерах больших данных для классификации данных клиентов.
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server для кластеризации данных клиентов.
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в службах SQL Server R Services для кластеризации данных клиентов.
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом K-средних в Службах машинного обучения управляемого экземпляра SQL Azure для кластеризации данных клиентов.
В первой части этого цикла учебников вы настроите необходимые компоненты, а затем восстановите пример набора данных в базе данных. Во второй и третьей частях вы создадите сценарии R в записной книжке Azure Data Studio для анализа и подготовки этого примера данных, а также для обучения модели машинного обучения. Затем, в четвертой части, вы запустите эти сценарии R в базе данных с помощью хранимых процедур.
Кластеризацию можно описать как организацию данных по группам, где члены группы каким-либо образом похожи друг на друга. В рамках этой серии руководств вы можете представить себя владельцем розничного предприятия. Вы будете использовать метод k-средних для кластеризации клиентов в наборе данных о покупках и возвратах продуктов. Благодаря кластеризации клиентов вы можете более эффективно осуществлять маркетинговую деятельность, ориентируясь на конкретные группы. Кластеризация методом k-средних — это алгоритм неконтролируемого обучения, который ищет закономерности в данных на основе сходства.
В этой статье вы узнаете, как выполнять следующие задачи.
- Восстановление примера базы данных
Во второй части вы узнаете, как подготовить данные из базы данных для выполнения кластеризации.
В третьей части вы узнаете, как создать и обучить модель кластеризации на основе k-средних в R.
В четвертой части вы узнаете, как создать хранимую процедуру в базе данных, которая может выполнять кластеризацию в R на основе новых данных.
Необходимые компоненты
- Службы машинного обучения SQL Server с языком Python — следуйте инструкциям по установке в руководстве по установке для Windows или руководстве по установке для Linux. Можно также включить Службы машинного обучения в кластерах больших данных SQL Server.
- Службы машинного обучения SQL Server с языком R — следуйте инструкциям по установке в руководстве по установке для Windows.
Службы машинного обучения в Управляемом экземпляре SQL Azure. Дополнительные сведения см. в статье Общие сведения о службах машинного обучения в управляемом экземпляре SQL Azure.
SQL Server Management Studio (SSMS) — используйте SSMS для восстановления образца базы данных до Управляемый экземпляр SQL Azure. Чтобы скачать, см. статью SQL Server Management Studio.
Azure Data Studio. Записную книжку в Azure Data Studio вы будете использовать для SQL. Дополнительные сведения о записных книжках см. в статье Использование записных книжек в Azure Data Studio.
Интегрированная среда разработки R — в этом руководстве используется RStudio Desktop.
RODBC — этот драйвер используется в скриптах R, которые вы разрабатываете в этом руководстве. Установите его с помощью команды R
install.packages("RODBC")
, если этот драйвер еще не установлен. Дополнительные сведения о RODBC см. в разделе CRAN - Package RODBC (CRAN: пакет RODBC).
Восстановление примера базы данных
Образец набора данных, используемый в этом руководстве, был сохранен в файл резервной .bak
копии базы данных для скачивания и использования. Этот набор данных является производным от набора данных tpcx-bb, предоставляемого Советом по оценке производительности обработки транзакций (TPC).
Примечание.
Если вы используете Службы машинного обучения в Кластерах больших данных, ознакомьтесь со статьей Восстановление базы данных на главном экземпляре кластера больших данных SQL Server.
Скачайте файл tpcxbb_1gb.bak.
Следуйте инструкциям из раздела Восстановление базы данных из файла резервной копии в Azure Data Studio, используя следующие сведения:
- Выполните импорт из скачанного файла
tpcxbb_1gb.bak
. - Присвойте целевой базе данных имя
tpcxbb_1gb
.
- Выполните импорт из скачанного файла
Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Скачайте файл tpcxbb_1gb.bak.
Следуйте инструкциям в разделе Восстановление базы данных в Управляемый экземпляр в SQL Server Management Studio, используя следующие сведения.
- Выполните импорт из скачанного файла
tpcxbb_1gb.bak
. - Присвойте целевой базе данных имя
tpcxbb_1gb
.
- Выполните импорт из скачанного файла
Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Очистка ресурсов
Если вы не собираетесь продолжать работу с этим учебником, удалите базу данных tpcxbb_1gb
.
Следующий шаг
В первой части этого учебника вы выполнили следующие действия:
- Установка необходимых компонентов
- Восстановленный пример базы данных
Чтобы подготовить данные из для модели машинного обучения, перейдите ко второй части этого учебника: