Поделиться через


Руководство по Python. Прогнозирование тарифов на такси Нью-Йорка с помощью двоичной классификации

Применимо к: SQL Server 2017 (14.x) и более поздним версиям Azure SQL Управляемый экземпляр

В этой серии руководств для программистов SQL вы узнаете об интеграции Python в Службах машинного обучения SQL Server или в кластерах больших данных.

В этой серии (из пяти частей) руководств для программистов SQL вы узнаете об интеграции Python в Службах машинного обучения SQL Server.

В этой серии (из пяти частей) руководств для программистов SQL вы узнаете об интеграции Python в службы машинного обучения в управляемом экземпляре SQL Azure.

Вы создадите и развернете решение для машинного обучения на базе Python, используя образец базы данных на SQL Server. Вы будете использовать T-SQL, Visual Studio Code или SQL Server Management Studio, а также экземпляр базы данных с поддержкой машинного обучения SQL и языка Python.

В этой серии руководств описываются функции Python, используемые в рабочем процессе моделирования данных. Серия содержит следующие этапы: исследование данных, сборка и обучение модели двоичной классификации и развертывание модели. Вы будете использовать образец данных Комиссии по такси и лимузинам Нью‑Йорка. Модель, которую вы создадите, будет предсказывать, приведет ли поездка к чаевым, в зависимости от времени суток, пройденного расстояния и места посадки.

В первой части этой серии вы установите необходимые компоненты и восстановите образец базы данных. Во второй и третьей частях вы создадите сценарии Python для подготовки данных и обучения модели машинного обучения. Затем в четвертой и пятой частях вы запустите эти скрипты Python в базе данных с помощью хранимых процедур T-SQL.

Работая с этой статьей, вы узнаете о следующем.

  • Установка необходимых компонентов
  • Восстановление примера базы данных

Во второй части вы ознакомитесь с образцом данных и создадите несколько графиков.

В третьей части вы узнаете, как создавать функции из необработанных данных с помощью функции Transact-SQL. Затем вы вызовите эту функцию из хранимой процедуры, чтобы создать таблицу, содержащую значения характеристик.

В четвертой части вы научитесь загружать модули и вызывать необходимые функции для создания и обучения модели с помощью хранимой процедуры SQL Server.

Из пятой части вы узнаете, как перевести в рабочее состояние модели, обученные и сохранённые в четвертой части.

Примечание.

Это руководство доступно как для языка R, так и для Python. Для версии R см. руководство по R: прогнозирование тарифов на такси Нью-Йорка с помощью двоичной классификации.

Предварительные требования

Все задачи можно выполнить с помощью Transact-SQL хранимых процедур в Visual Studio Code или Management Studio.

В этой серии руководств предполагается, что вы уже знакомы с основными операциями с базой данных, такими как создание баз данных и таблиц, импорт данных и написание запросов SQL. Не предполагается, что вы знакомы с Python, и весь код Python предоставляется в готовом виде.

Основы для разработчиков SQL

Процесс создания решения машинного обучения — это сложная задача, для которой может потребоваться использование нескольких средств, а также координация работы экспертов в различных областях, и которая состоит из нескольких этапов:

  • получение и очистка данных;
  • изучение данных и выявление характеристик, полезных для моделирования;
  • обучение и настройка модели;
  • развертывание в рабочей среде.

Разработку и тестирование написанного кода лучше выполнять в выделенной среде разработки. Однако после полного тестирования скрипта его можно легко развернуть в SQL Server с помощью Transact-SQL хранимых процедур в знакомой среде Visual Studio Code или Management Studio. Упаковка внешнего кода в хранимые процедуры является основным механизмом для эксплуатации кода в SQL Server.

Сохранив модель в базе данных, вы сможете вызвать ее для получения прогнозов из Transact-SQL с помощью хранимых процедур.

Независимо от того, являетесь ли вы программистом SQL, плохо знакомым с Python, или разработчиком Python, плохо знакомым с SQL, в этом учебнике, состоящем из пяти частей, вы найдете типичный рабочий процесс для ведения аналитики в базе данных с помощью Python и SQL Server.

Следующие шаги

В этой статье вы:

  • Установленные предварительные условия
  • Восстановлена демонстрационная база данных