Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Применимо к: SQL Server 2016 (13.x) и более поздним версиям
Azure SQL Managed Instance
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server или Кластерах больших данных для классификации данных клиентов.
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в Службах машинного обучения SQL Server для кластеризации данных клиентов.
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом k-средних в службах SQL Server R Services для кластеризации данных клиентов.
В этом цикле учебников, состоящем из четырех частей, вы будете использовать R для разработки и развертывания модели кластеризации методом K-средних в Службах машинного обучения управляемого экземпляра SQL Azure для кластеризации данных клиентов.
В первой части этого цикла учебников вы настроите необходимые компоненты, а затем восстановите пример набора данных в базе данных. Во второй и третьей частях вы создадите сценарии R в записной книжке Azure Data Studio для анализа и подготовки этого примера данных, а также для обучения модели машинного обучения. Затем, в четвертой части, вы запустите эти сценарии R в базе данных с помощью хранимых процедур.
Кластеризацию можно описать как организацию данных по группам, где члены группы каким-либо образом похожи друг на друга. В рамках этой серии руководств вы можете представить себя владельцем розничного предприятия. Вы будете использовать метод k-средних для кластеризации клиентов в наборе данных о покупках и возвратах продуктов. Благодаря кластеризации клиентов вы можете более эффективно осуществлять маркетинговую деятельность, ориентируясь на конкретные группы. Кластеризация методом k-средних — это алгоритм неконтролируемого обучения, который ищет закономерности в данных на основе сходства.
В этой статье вы узнаете, как выполнять следующие задачи.
- Восстановление примера базы данных
Во второй части вы узнаете, как подготовить данные из базы данных для выполнения кластеризации.
В третьей части вы узнаете, как создать и обучить модель кластеризации на основе k-средних в R.
В четвертой части вы узнаете, как создать хранимую процедуру в базе данных, которая может выполнять кластеризацию в R на основе новых данных.
Необходимые компоненты
- Службы машинного обучения SQL Server с языком Python — следуйте инструкциям по установке в руководстве по установке для Windows или руководстве по установке для Linux. Можно также включить Службы машинного обучения в кластерах больших данных SQL Server.
- Службы машинного обучения SQL Server с языком R — следуйте инструкциям по установке в руководстве по установке для Windows.
Службы машинного обучения в Управляемом экземпляре SQL Azure. Дополнительные сведения см. в статье Общие сведения о службах машинного обучения в управляемом экземпляре SQL Azure.
SQL Server Management Studio (SSMS) — используйте SSMS для восстановления образца базы данных до Управляемый экземпляр SQL Azure. Установите последнюю версию SQL Server Management Studio (SSMS).
Azure Data Studio. Записную книжку в Azure Data Studio вы будете использовать для SQL. Дополнительные сведения о записных книжках см. в статье Использование записных книжек в Azure Data Studio.
Интегрированная среда разработки R — в этом руководстве используется RStudio Desktop.
RODBC — этот драйвер используется в скриптах R, которые вы разрабатываете в этом руководстве. Установите его с помощью команды R
install.packages("RODBC"), если этот драйвер еще не установлен. Дополнительные сведения о RODBC см. в разделе CRAN - Package RODBC (CRAN: пакет RODBC).
Восстановление примера базы данных
Образец набора данных, используемый в этом руководстве, был сохранен в файл резервной .bak копии базы данных для скачивания и использования. Этот набор данных является производным от набора данных tpcx-bb, предоставляемого Советом по оценке производительности обработки транзакций (TPC).
Примечание.
Если вы используете Службы машинного обучения в Кластерах больших данных, ознакомьтесь со статьей Восстановление базы данных на главном экземпляре кластера больших данных SQL Server.
Скачайте файл tpcxbb_1gb.bak.
Следуйте инструкциям из раздела Восстановление базы данных из файла резервной копии в Azure Data Studio, используя следующие сведения:
- Выполните импорт из скачанного файла
tpcxbb_1gb.bak. - Присвойте целевой базе данных имя
tpcxbb_1gb.
- Выполните импорт из скачанного файла
Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу
dbo.customer:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Скачайте файл tpcxbb_1gb.bak.
Следуйте инструкциям в разделе Восстановление базы данных в Управляемый экземпляр в SQL Server Management Studio, используя следующие сведения.
- Выполните импорт из скачанного файла
tpcxbb_1gb.bak. - Присвойте целевой базе данных имя
tpcxbb_1gb.
- Выполните импорт из скачанного файла
Вы можете убедиться, что набор данных существует после восстановления базы данных, запросив таблицу
dbo.customer:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Очистка ресурсов
Если вы не собираетесь продолжать работу с этим учебником, удалите базу данных tpcxbb_1gb.
Следующий шаг
В первой части этого учебника вы выполнили следующие действия:
- Установка необходимых компонентов
- Восстановленный пример базы данных
Чтобы подготовить данные из для модели машинного обучения, перейдите ко второй части этого учебника: