Sdílet prostřednictvím


Kurz Pythonu: Příprava dat pro kategorizaci zákazníků pomocí strojového učení SQL

Platí pro: SQL Server 2017 (14.x) a novější verze Azure SQL Managed Instance

Ve druhé části této čtyřdílné série kurzů obnovíte a připravíte data z databáze pomocí Pythonu. Později v této sérii použijete tato data k trénování a nasazení modelu clusteringu v Pythonu pomocí služby SQL Server Machine Learning Services nebo clusterů s velkými objemy dat.

Ve druhé části této čtyřdílné série kurzů obnovíte a připravíte data z databáze pomocí Pythonu. Později v této sérii použijete tato data k trénování a nasazení modelu clusteringu v Pythonu pomocí služby SQL Server Machine Learning Services.

Ve druhé části této čtyřdílné série kurzů obnovíte a připravíte data z databáze pomocí Pythonu. Později v této sérii použijete tato data k trénování a nasazení modelu clusteringu v Pythonu se službou Azure SQL Managed Instance Machine Learning Services.

V tomto článku se dozvíte, jak:

  • Oddělení zákazníků podle různých dimenzí pomocí Pythonu
  • Načtení dat z databáze do datového rámce Pythonu

V první části jste nainstalovali požadavky a obnovili ukázkovou databázi.

Ve třetí části se dozvíte, jak vytvořit a vytrénovat model clusteringu K-Means v Pythonu.

Ve čtvrté části se dozvíte, jak vytvořit uloženou proceduru v databázi, která může provádět clustering v Pythonu na základě nových dat.

Prerequisites

  • Druhá část tohoto kurzu předpokládá, že jste splnili požadavky první části.

Rozdělení zákazníků

Pokud se chcete připravit na clustering zákazníků, nejprve oddělíte zákazníky podle následujících dimenzí:

  • orderRatio = poměr vrácených objednávek (celkový počet objednávek částečně nebo zcela vrácených oproti celkovému počtu objednávek)
  • itemsRatio = poměr vrácených položek (celkový počet vrácených položek oproti počtu zakoupených položek)
  • monetaryRatio = poměr výnosové částky (celková peněžní částka vrácených položek a zakoupená částka)
  • frequency = návratová frekvence

Otevřete nový poznámkový blok v Nástroji Azure Data Studio a zadejte následující skript.

V připojovacím řetězci podle potřeby nahraďte podrobnosti o připojení.

# Load packages.
import pyodbc
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy.spatial import distance as sci_distance
from sklearn import cluster as sk_cluster

################################################################################################

## Connect to DB and select data

################################################################################################

# Connection string to connect to SQL Server named instance.
conn_str = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server}; SERVER=<server>; DATABASE=tpcxbb_1gb; UID=<username>; PWD=<password>')

input_query = '''SELECT
ss_customer_sk AS customer,
ROUND(COALESCE(returns_count / NULLIF(1.0*orders_count, 0), 0), 7) AS orderRatio,
ROUND(COALESCE(returns_items / NULLIF(1.0*orders_items, 0), 0), 7) AS itemsRatio,
ROUND(COALESCE(returns_money / NULLIF(1.0*orders_money, 0), 0), 7) AS monetaryRatio,
COALESCE(returns_count, 0) AS frequency
FROM
(
  SELECT
    ss_customer_sk,
    -- return order ratio
    COUNT(distinct(ss_ticket_number)) AS orders_count,
    -- return ss_item_sk ratio
    COUNT(ss_item_sk) AS orders_items,
    -- return monetary amount ratio
    SUM( ss_net_paid ) AS orders_money
  FROM store_sales s
  GROUP BY ss_customer_sk
) orders
LEFT OUTER JOIN
(
  SELECT
    sr_customer_sk,
    -- return order ratio
    count(distinct(sr_ticket_number)) as returns_count,
    -- return ss_item_sk ratio
    COUNT(sr_item_sk) as returns_items,
    -- return monetary amount ratio
    SUM( sr_return_amt ) AS returns_money
FROM store_returns
GROUP BY sr_customer_sk ) returned ON ss_customer_sk=sr_customer_sk'''


# Define the columns we wish to import.
column_info = {
    "customer": {"type": "integer"},
    "orderRatio": {"type": "integer"},
    "itemsRatio": {"type": "integer"},
    "frequency": {"type": "integer"}
}

Načtení dat do datového rámce

Výsledky z dotazu se vrátí do Pythonu pomocí funkce read_sql Pandas. V rámci procesu použijete informace o sloupci, které jste definovali v předchozím skriptu.

customer_data = pd.read_sql(input_query, conn_str)

Teď zobrazte začátek datového rámce, abyste ověřili, že vypadá správně.

print("Data frame:", customer_data.head(n=5))

Tady je soubor výsledků.

Rows Read: 37336, Total Rows Processed: 37336, Total Chunk Time: 0.172 seconds
Data frame:     customer  orderRatio  itemsRatio  monetaryRatio  frequency
0    29727.0    0.000000    0.000000       0.000000          0
1    97643.0    0.068182    0.078176       0.037034          3
2    57247.0    0.000000    0.000000       0.000000          0
3    32549.0    0.086957    0.068657       0.031281          4
4     2040.0    0.000000    0.000000       0.000000          0

Vyčistěte zdroje

Pokud nebudete pokračovat v tomto kurzu, odstraňte tpcxbb_1gb databázi.

Další kroky

Ve druhé části této série kurzů jste dokončili tyto kroky:

  • Oddělení zákazníků podle různých dimenzí pomocí Pythonu
  • Načtení dat z databáze do datového rámce Pythonu

Pokud chcete vytvořit model strojového učení, který používá tato zákaznická data, postupujte podle třetí části této série kurzů: