Megosztás a következőn keresztül:


A csapat Adattudomány folyamat életciklusának modellezési szakasza

Ez a cikk a Team Adattudomány Process (TDSP) modellezési szakaszához kapcsolódó célokat, feladatokat és termékeket ismerteti. Ez a folyamat egy ajánlott életciklust biztosít, amellyel csapata strukturálhatja adatelemzési projektjeit. Az életciklus a csapat által végrehajtott fő fázisokat vázolja fel, gyakran iteratív módon:

  • Üzleti ismeretek
  • Adatgyűjtés és -megértés
  • Mintázás
  • Üzembe helyezés
  • Ügyfélfogadás

Íme a TDSP életciklusának vizuális ábrázolása:

A TDSP-életciklus szakaszait bemutató diagram.

Célok

A modellezési szakasz célja:

  • Határozza meg a gépi tanulási modell optimális adatfunkcióit.

  • Hozzon létre egy informatív gépi tanulási modellt, amely a legpontosabban előrejelzi a célt.

  • Éles környezethez megfelelő gépi tanulási modell létrehozása.

A feladatok végrehajtása

A modellezési fázis három fő feladatból áll:

  • Szolgáltatásfejlesztés: A modell betanításának megkönnyítése érdekében hozzon létre adatszolgáltatásokat a nyers adatokból.

  • Modellbetanítás: A modellek sikerességi metrikáinak összehasonlításával keresse meg azt a modellt, amely a legpontosabban válaszol a kérdésre.

  • Modellértékelés: Határozza meg, hogy a modell alkalmas-e az éles környezetben való használatra.

Jellemzőkiemelés

A funkciófejlesztés magában foglalja a nyers változók felvételét, összesítését és átalakítását az elemzésben használt funkciók létrehozásához. Ha betekintést szeretne a modell felépítésébe, akkor meg kell vizsgálnia a modell mögöttes funkcióit.

Ehhez a lépéshez a tartományi szakértelem és az adatfeltárási lépésből származó megállapítások kreatív kombinációja szükséges. A funkciófejlesztés kiegyensúlyozza az informatív változók keresését és beépítését, ugyanakkor megpróbálja elkerülni a túl sok egymástól független változót. Az informatív változók javítják az eredményt. A nem kapcsolódó változók szükségtelen zajt vezetnek be a modellbe. Ezeket a funkciókat a pontozás során beszerzett új adatokhoz is létre kell hoznia. Ennek eredményeképpen ezeknek a funkcióknak a létrehozása csak a pontozáskor elérhető adatoktól függhet.

A modell betanítása

A megválaszolni kívánt kérdés típusától függően számos modellezési algoritmus használható. Az előre összeállított algoritmusok kiválasztásával kapcsolatos útmutatásért tekintse meg az Azure Machine Learning Designer Machine Learning-algoritmusokkal kapcsolatos csalási lapját. Más algoritmusok nyílt forráskódú csomagokon keresztül érhetők el R-ben vagy Pythonban. Bár ez a cikk az Azure Machine Learningre összpontosít, az általa nyújtott útmutató számos gépi tanulási projekt esetében hasznos.

A modell betanításának folyamata a következő lépéseket tartalmazza:

  • A bemeneti adatok véletlenszerű felosztása betanítási adatkészletre és tesztadatkészletre való modellezéshez.

  • A modellek létrehozása a betanítási adatkészlet használatával.

  • Értékelje ki a betanítást és a tesztadatkészletet. Konkurens gépi tanulási algoritmusok sorozatának használata. Használjon különböző kapcsolódó hangolási paramétereket (más néven paraméteres takarításokat), amelyek az aktuális adatokkal kapcsolatos érdeklődési kérdés megválaszolására irányulnak.

  • A sikeres metrikák alternatív módszerek közötti összehasonlításával határozza meg a legjobb megoldást a kérdés megválaszolásához.

További információ: Modellek betanítása a Machine Learning használatával.

Feljegyzés

A szivárgás elkerülése: Adatszivárgást okozhat, ha a betanítási adatkészleten kívülről származó adatokat is tartalmaz, amelyek lehetővé teszik, hogy egy modell vagy gépi tanulási algoritmus irreálisan jó előrejelzéseket készítsen. A szivárgás gyakori oka annak, hogy az adattudósok idegesek lesznek, ha olyan prediktív eredményeket kapnak, amelyek túl jónak tűnnek ahhoz, hogy igaznak tűnjenek. Ezek a függőségek nehezen észlelhetők. A szivárgás elkerülése gyakran megköveteli az elemzési adatkészletek létrehozása, a modell létrehozása és az eredmények pontosságának kiértékelése közötti iterálást.

A modell kiértékelése

A modell betanítása után a csapat egyik adatelemzője a modellértékelésre összpontosít.

  • Döntse el, hogy a modell megfelelően teljesít-e az éles környezethez. Néhány fontos kérdés, amit fel kell tenni:

    • A modell megfelelő megbízhatósággal válaszol a kérdésre a tesztadatok alapján?

    • Érdemes alternatív módszereket kipróbálnia?

    • Több adatot kell gyűjtenie, több funkciófejlesztést kell végeznie, vagy kísérleteznie kell más algoritmusokkal?

  • A modell értelmezése: A Machine Learning Python SDK-val hajtsa végre a következő feladatokat:

    • Ismertesse a modell teljes viselkedését vagy egyéni előrejelzéseit helyileg a személyes gépen.

    • Értelmezhetőségi technikák engedélyezése a megtervezett funkciókhoz.

    • Az Azure-beli teljes modell és egyéni előrejelzések viselkedésének ismertetése.

    • Magyarázatok feltöltése a Machine Learning futtatási előzményeibe.

    • Egy vizualizációs irányítópult használatával kezelheti a modell magyarázatait egy Jupyter-jegyzetfüzetben és a Machine Learning-munkaterületen.

    • Helyezzen üzembe egy pontozó magyarázót a modell mellett, hogy megfigyelje a magyarázatokat a következtetés során.

  • Méltányosság felmérése: A fairlearn nyílt forráskódú Python-csomag és a Machine Learning segítségével hajtsa végre a következő feladatokat:

    • Értékelje a modell előrejelzéseinek méltányosságát. Ez a folyamat segít a csapatnak többet megtudni a gépi tanulás méltányosságáról.

    • Méltányossági felmérési megállapítások feltöltése, listázása és letöltése a Machine Learning Studióba és onnan.

    • A modelljei méltányossági megállapításaival kapcsolatban tekintse meg a Machine Learning Studió méltányossági felmérési irányítópultját.

Integrálás az MLflow-jal

A Machine Learning integrálható az MLflow-jal a modellezési életciklus támogatása érdekében. Az MLflow nyomon követését használja kísérletekhez, projekttelepítéshez, modellkezeléshez és modellregisztrációs adatbázishoz. Ez az integráció zökkenőmentes és hatékony gépi tanulási munkafolyamatot biztosít. A Machine Learning alábbi funkciói támogatják ezt a modellezési életciklus-elemet:

  • Kísérletek nyomon követése: Az MLflow alapvető funkcióit széles körben használják a modellezési szakaszban a különböző kísérletek, paraméterek, metrikák és összetevők nyomon követésére.

  • Projektek üzembe helyezése: A kód MLflow-projektekkel való csomagolása egységes futtatásokat és egyszerű megosztást biztosít a csapattagok között, ami elengedhetetlen az iteratív modell fejlesztése során.

  • Modellek kezelése: A modellek kezelése és verziószámozása ebben a fázisban kritikus fontosságú, mivel a különböző modellek létrehozása, kiértékelése és finomítása folyamatban van.

  • Modellek regisztrálása: A modellregisztrációs adatbázis a modellek teljes életciklusa során történő verziószámozására és kezelésére szolgál.

Lektorált szakirodalom

A kutatók tanulmányokat tesznek közzé a TDSP-ről a lektorált szakirodalomban. Az idézetek lehetőséget nyújtanak a TDSP-hez hasonló alkalmazások vagy hasonló ötletek vizsgálatára, beleértve a modellezési életciklus fázisát is.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

Ezek a cikkek a TDSP életciklusának további szakaszait ismertetik: