Megosztás a következőn keresztül:


Python-oktatóanyag: Ügyfelek kategorizálása k-means fürtözés és SQL Machine Learning használatával

A következőkre vonatkozik: Sql Server 2017 (14.x) és újabb verziók Felügyelt Azure SQL-példány

Ebben a négyrészes oktatóanyag-sorozatban a Python használatával fejleszthet és helyezhet üzembe K-Means fürtözési modellt az SQL Server Machine Learning Servicesben vagy Big Data-fürtökön az ügyféladatok kategorizálásához.

Ebben a négyrészes oktatóanyag-sorozatban a Python használatával fejleszthet és helyezhet üzembe egy K-Means fürtözési modellt az SQL Server Machine Learning Servicesben az ügyféladatok fürtözéséhez.

Ebben a négyrészes oktatóanyag-sorozatban a Python használatával fejleszthet és helyezhet üzembe egy K-Means fürtözési modellt az Azure SQL Managed Instance Machine Learning Servicesben az ügyféladatok fürtözéséhez.

A sorozat első részében állítsa be az oktatóanyag előfeltételeit, majd állítsa vissza a mintaadatkészletet egy adatbázisba. A sorozat későbbi részében ezekkel az adatokkal taníthat be és helyezhet üzembe egy klaszterezési modellt az SQL gépi tanulás segítségével a Pythonban.

A sorozat második és harmadik részében hozzon létre néhány Python-szkriptet egy Azure Data Studio-jegyzetfüzetben az adatok elemzéséhez és előkészítéséhez, valamint egy gépi tanulási modell betanítása érdekében. Ezután a negyedik részben futtassa ezeket a Python-szkripteket egy adatbázisban tárolt eljárásokkal.

A klaszterezés magyarázata az adatok olyan csoportokba szervezése, amelyekben egy csoport tagjai valamilyen módon hasonlóak. Ebben az oktatóanyag-sorozatban képzelje el, hogy kiskereskedelmi vállalkozása van. A K-Means algoritmussal végezheti el az ügyfelek fürtözését a termékvásárlások és -visszaküldések adathalmazában. Az ügyfelek klaszterezésével hatékonyabban összpontosíthatja marketingtevékenységeit adott csoportok megcélzásával. A K-Means fürtözés egy nem felügyelt tanulási algoritmus, amely hasonlóságok alapján keres mintákat az adatokban.

Ebből a cikkből megtudhatja, hogyan:

  • Mintaadatbázis visszaállítása

A második részben megtudhatja, hogyan készítheti elő az adatokat egy adatbázisból a fürtözés végrehajtásához.

A harmadik részben megtudhatja, hogyan hozhat létre és taníthat be K-Means fürtözési modellt a Pythonban.

A negyedik részben megtudhatja, hogyan hozhat létre tárolt eljárást egy olyan adatbázisban, amely új adatok alapján végezhet fürtözést a Pythonban.

Előfeltételek

  • Azure Data Studio. Használjon jegyzetfüzetet az Azure Data Studióban Pythonhoz és SQL-hez is. A jegyzetfüzetekkel kapcsolatos további információkért lásd: Jegyzetfüzetek használata az Azure Data Studióban.

  • További Python-csomagok – Az oktatóanyag-sorozat példái olyan Python-csomagokat használnak, amelyeket esetleg telepített vagy nem.

    Nyisson meg egy felügyeleti parancssort , és váltson az Azure Data Studióban használt Python-verzió telepítési útvonalára. Például: cd %LocalAppData%\Programs\Python\Python37-32. Ezután futtassa az alábbi parancsokat a még nem telepített csomagok telepítéséhez. Győződjön meg arról, hogy ezek a csomagok a Python megfelelő telepítési helyén vannak telepítve. A célkönyvtárat a beállítással -t adhatja meg.

    pip install matplotlib
    pip install pandas
    pip install pyodbc
    pip install scipy
    pip install scikit-learn
    

Futtassa a következő icacls-parancsokat , hogy hozzáférést biztosítson a READ &EXECUTE számára a telepített kódtárakhoz az SQL Server Launchpad Service-hez és a SID S-1-15-2-1-hez (ALL_APPLICATION_PACKAGES).

  icacls "C:\Program Files\Python310\Lib\site-packages" /grant "NT Service\MSSQLLAUNCHPAD":(OI)(CI)RX /T
  icacls "C:\Program Files\Python310\Lib\site-packages" /grant *S-1-15-2-1:(OI)(CI)RX /T

A mintaadatbázis visszaállítása

Az oktatóanyagban használt mintaadatkészlet egy .bak adatbázis biztonsági mentési fájlba lett mentve a letöltéshez és a használathoz. Ez az adatkészlet a Transaction Processing Performance Council (TPC) által biztosított tpcx-bb adatkészletből származik.

Megjegyzés:

Ha a Machine Learning szolgáltatásokat Big Data-fürtökön használja, tekintse meg, hogyan állíthatja vissza az adatbázist az SQL Server big data-fürt főpéldányába.

  1. Töltse le a fájlt tpcxbb_1gb.bak.

  2. Kövesse az Azure Data Studio biztonsági mentési fájljából származó adatbázis visszaállítása című útmutató útmutatását az alábbi részletekkel:

    • Importálás a tpcxbb_1gb.bak letöltött fájlból.
    • Nevezze el a céladatbázist tpcxbb_1gb.
  3. Az adatbázis visszaállítása után a dbo.customer tábla lekérdezésével ellenőrizheti, hogy az adathalmaz létezik-e.

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Töltse le a fájlt tpcxbb_1gb.bak.

  2. Kövesse az SQL Server Management Studióban az adatbázis visszaállítása felügyelt SQL-példányra című útmutató útmutatását az alábbi részletekkel:

    • Importálás a tpcxbb_1gb.bak letöltött fájlból.
    • Nevezze el a céladatbázist tpcxbb_1gb.
  3. Az adatbázis visszaállítása után a dbo.customer tábla lekérdezésével ellenőrizheti, hogy az adathalmaz létezik-e.

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Erőforrások tisztítása

Ha nem folytatja ezt az oktatóanyagot, törölje az adatbázist tpcxbb_1gb .

Következő lépés

Az oktatóanyag-sorozat első részében az alábbi lépéseket hajtotta végre:

  • Mintaadatbázis visszaállítása

A gépi tanulási modell adatainak előkészítéséhez kövesse az oktatóanyag-sorozat második részét: