Számláló átalakítása
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Olyan átalakítást hoz létre, amely a táblák számát funkciókra váltja, így az átalakítás több adatkészletre is alkalmazható
Kategória: Tanulás számokkal
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Build counting Transform (Buildszámozás átalakítása) modulja a betanítás adatainak elemzéséhez. Ezekből az adatokból a modul egy darabszámtáblát, valamint egy prediktív modellben használható számalapú jellemzőkészletet épít fel.
A count (darabszám) tábla az összes jellemzőoszlop együttes eloszlását tartalmazza egy adott címkeoszlop alapján. Az ilyen statisztikák hasznosak annak meghatározásához, hogy mely oszlopok a legtöbb információértékkel bírnak. A darabszámalapú jellemzősítés azért hasznos, mert ezek a jellemzők tömörebbek, mint az eredeti betanítási adatok, de a leghasznosabb információkat rögzítik. A modulparaméterekkel testre szabhatja, hogyan alakulnak át a darabszámok új számalapú funkciókké.
A darabszámok létrehozása és funkciókra való átalakítása után a folyamatot átalakíthatja a kapcsolódó adatokon való újrahasználathoz. A funkciók készletét új darabszámok létrehozása nélkül is módosíthatja, vagy egyesítheti a darabszámokat és szolgáltatásokat más darabszámokkal és funkciókkal.
A számalapú funkciók újrahasználata és újra alkalmazása az alábbi forgatókönyvekben hasznos:
- Új adatok válnak elérhetővé az adatkészlet lefedettségének vagy egyensúlyának javításához.
- Az eredeti darabszámok és funkciók egy nagyon nagy adatkészleten alapultak, és nem szeretné újra feldolgozni. A frissíthet új adatokkal frissítheti a darabszámokat.
- Biztosítani szeretné, hogy a kísérletben használt összes adathalmazra ugyanaz a számalapú jellemzőkészlet vonatkozik.
Buildszámlálási átalakítás konfigurálása
Számalapú funkcióátalakítást közvetlenül egy adatkészletből hozhat létre, és minden kísérlet futtatásakor újra futtathatja. Vagy létrehozhat egy darabszámkészletet, majd egyesítheti azt új adatokkal egy frissített darabszámtábla létrehozásához.
Számalapú funkciók létrehozása adatkészletből
Kezdje itt, ha még nem hozott létre darabszámokat. A Számláló átalakítása modullal számláló táblákat hozhat létre, és automatikusan létrehozhat funkciókat.
Ez a folyamat létrehoz egy funkcióátalakítást, amely alkalmazható egy adatkészletre az Átalakítás alkalmazása modullal .
Darabszámok és funkciók egyesítése több adatkészletből
Ha már létrehozott egy darabszámtáblát egy korábbi adatkészletből, csak az új adatokra generál darabszámokat, vagy importál egy meglévő darabszámtáblát, amely a tábla egy korábbi verziójában Machine Learning. Ezután egyesítheti a két darabszámtáblát
Ez a folyamat egy új funkcióátalakítást hoz létre, amely alkalmazható egy adatkészletre az Átalakítás alkalmazása modullal .
Számalapú funkciók létrehozása adatkészletből
A Machine Learning Studióban (klasszikus) adja hozzá a Build Counting Transform (Buildszámlálási átalakítás) modult a kísérlethez. A modult a Data Transformation (Adatátalakítás) alatt, a Counts (Darabszámok) Tanulás kategóriában találja.
Csatlakozás a számalapú funkciók alapjául használni kívánt adatkészletet.
Az Osztályok száma beállítással adhatja meg a címkeoszlopban lévő értékek számát.
- Bináris besorolási problémához írja be a következőt:
2
. - Kétnél több lehetséges kimenettel való besorolási probléma esetén előre meg kell adnia a megszámolni kívánt osztályok pontos számát. Ha olyan számot ad meg, amely kevesebb, mint az osztályok tényleges száma, a modul hibát ad vissza.
- Ha az adatkészlet több osztályértéket tartalmaz, és az osztálycímke értékei nem szekvenciálisak, a Metaadatok szerkesztése beállítás használatával meg kell adnia, hogy az oszlop kategorikus értékeket tartalmaz.
- Bináris besorolási problémához írja be a következőt:
A kivonatolási függvény bitei beállításnál adja meg, hogy hány bitet kell használni az értékek kivonatolásakor.
Általában biztonságosan elfogadhatja az alapértelmezett értékeket, kivéve, ha tudja, hogy sok értéket kell megszámolnia, és nagyobb bitszámra lehet szükség.
A kivonatolási függvény kezdőértékeként megadhatja a kivonatolási függvény kezdőértékét is. A magok manuális beállítása általában akkor történik, ha biztosítani szeretné, hogy a kivonatolási eredmények determinisztikusak ugyanazon kísérlet futtatásai között.
A Modul típusa lehetőséggel jelezheti a megszámolni kívánt adatok típusát a tárolási mód alapján:
Adatkészlet: Akkor válassza ezt a lehetőséget, ha a klasszikus Machine Learning adatkészletként mentett adatokat számolja.
Blob: Akkor válassza ezt a lehetőséget, ha a buildszámok felépítéséhez használt forrásadatok blokkblobként vannak tárolva az Azure Windows tárolóban.
MapReduce: Válassza ezt a lehetőséget, ha map/reduce függvényeket szeretne hívni az adatok feldolgozásához.
Ennek a lehetőségnek a használata esetén az új adatokat blobként kell biztosítani Windows Azure Storage-ban, és hozzáféréssel kell rendelkezik egy üzembe helyezett HDInsight-fürthöz. A kísérlet futtatásakor a rendszer elindít egy Leképezés/csökkentés feladatot a fürtben a számlálás végrehajtásához.
Nagyon nagy adatkészletek esetén javasoljuk, hogy ezt a lehetőséget használja, amikor csak lehetséges. Bár a HDInsight szolgáltatás használata további költségekkel is jár, a nagy adatkészletek számítása gyorsabb lehet a HDInsightban.
További információ: https://azure.microsoft.com/services/hdinsight/.
Az adattárolási mód megadása után adja meg a szükséges adatokhoz szükséges további kapcsolati adatokat:
- Ha Hadoopból vagy blobtárolóból származó adatokat használ, adja meg a fürt helyét és hitelesítő adatait.
- Ha korábban egy Adatok importálása modult használt a kísérletben az adatok eléréséhez, akkor újra meg kell adnia a fióknevet és a hitelesítő adatokat. A Build Counting Transform modul külön fér hozzá az adattárhoz, hogy beolvassa az adatokat, és felépítse a szükséges táblákat.
A Címke oszlop vagy index mezőben válasszon ki egy oszlopot címkeoszlopként.
Feliratoszlopra van szükség. Az oszlopot már meg kell jelölni címkeként, különben hiba történik.
Használja a Megszámolni kívánt oszlopok kijelölése lehetőséget, majd válassza ki azokat az oszlopokat, amelyekhez a darabszámokat létre kell hozni.
Általánosságban elmondható, hogy a legjobb jelöltek a magas dimenziós oszlopok, az oszlopokkal korrelált többi oszloppal együtt.
A Count tábla típusa beállítással adhatja meg a count tábla tárolásához használt formátumot.
Szótár: Szótárszámtáblát hoz létre. A rendszer a kiválasztott oszlopokban lévő összes oszlopértéket sztringként kezeli, és egy legfeljebb 31 bites bittömb használatával kivonatot hoz létre. Ezért minden oszlopértéket nem negatív 32 bites egész szám képvisel.
Ezt a beállítást általában kisebb (1 GB-nál kisebb) adatkészletek esetén érdemes használni, nagyobb adatkészletek esetén pedig a CMSketch lehetőséget.
A beállítás kiválasztása után konfigurálja a kivonatolási függvény által használt bitek számát, és állítson be egy kezdőbetűt a kivonatolási függvény inicializálására.
CMSketch: Minimális vázlattáblát hoz létre. Ezzel a beállítással több független kivonatfüggetlen, kisebb tartományú függvényt használnak a memória hatékonyságának javításához és a kivonatütközések esélyének csökkentéséhez. A kivonatolás bitméretének és a kivonatolási magok paramétereinek nincs hatása erre a beállításra.
Futtassa a kísérletet.
A modul létrehoz egy featurizációs átalakítást , amely az Átalakítás alkalmazása modul bemeneteként használható . Az Átalakítás alkalmazása modul kimenete egy modell betanítására használható átalakított adatkészlet.
Ha egyesíteni szeretné a számalapú funkciókat egy másik számalapú funkciókészletekkel, mentheti az átalakítást. További információ: Merge Count Transform.
Darabszámok és funkciók egyesítése több adatkészletből
A Machine Learning Studióban (klasszikus) adja hozzá a Build Counting Transform (Buildszámlálási átalakítás) modult a kísérlethez, és kösse össze a hozzáadni kívánt adatokat tartalmazó adatkészletet.
A Modul típusa lehetőséggel jelezheti az új adatok forrását. Különböző forrásokból származó adatokat egyesíthet.
Adatkészlet: Válassza ezt a lehetőséget, ha az új adatok adatkészletként vannak megtéve a Machine Learning Studio (klasszikus) szolgáltatásban.
Blob: Válassza ezt a lehetőséget, ha az új adatok blokkblobként biztosítanak az Azure Windows tárolóban.
MapReduce: Válassza ezt a lehetőséget, ha map/reduce függvényeket szeretne hívni az adatok feldolgozásához.
Ennek a lehetőségnek a használata esetén az új adatokat blobként kell biztosítani Windows Azure Storage-ban, és hozzáféréssel kell rendelkezik egy üzembe helyezett HDInsight-fürthöz. A kísérlet futtatásakor a rendszer elindít egy Leképezés/csökkentés feladatot a fürtben a számlálás végrehajtásához.
További információ: https://azure.microsoft.com/services/hdinsight/
Az adattárolási mód megadása után adja meg az új adatok további kapcsolati adatait:
Ha Hadoopból vagy blobtárolóból származó adatokat használ, adja meg a fürt helyét és hitelesítő adatait.
Ha korábban egy Adatok importálása modult használt a kísérletben az adatok eléréséhez, akkor újra meg kell adnia a fióknevet és a hitelesítő adatokat. Ennek az az oka, hogy a Build Counting Transform modul külön fér hozzá az adattárhoz, hogy beolvassa az adatokat, és felépítse a szükséges táblákat.
A darabszámok egyesítésekor a következő beállításoknak pontosan meg kell egyednek lennie mindkét darabszám táblában:
- Osztályok száma
- A kivonatfedő függvény bitei
- A kivonatfedő függvény kezdő magja
- Megszámolni kívánt oszlopok kiválasztása
A címkeoszlop eltérő lehet, ha azonos számú osztályt tartalmaz.
A Count table type (Táblatípus száma ) lehetőséggel adhatja meg a frissített darabszámtábla formátumát és célját.
Tipp
Az egyesíteni kívánt két darabszámtáblának azonos formátumúnak kell lennie. Más szóval, ha egy korábbi darabszámtáblát a Szótár formátum használatával mentett, nem egyesítheti a CMSketch formátumban mentett darabszámokkal .
Futtassa a kísérletet.
A modul létrehoz egy featurizálási átalakítást , amely az Átalakítás alkalmazása modul bemeneteként használható . Az Átalakítás alkalmazása modul kimenete egy átalakított adatkészlet, amely egy modell betanítására használható.
A darabszám-alapú szolgáltatások meglévő készletének egyesítését lásd: Egyesítési szám átalakítása.
Példák
Ezekben a cikkekben további információt talál a darabszám-algoritmusról és a számalapú modellezés hatékonyságáról a többi módszerhez képest.
- Átkattintásos előrejelzési modellek összeállítása az Azure ML használatával
- Big Tanulás Egyszerű számokkal!
A következő kísérletek a Azure AI Gallery bemutatják , hogyan használhatók a számalapú tanulás különböző prediktív modellek felépítésére:
- Tanulás számokkal – Bináris besorolás
- Tanulás számokkal: Többosztályos besorolás NYC taxiadatokkal
- Tanulás számokkal: Bináris besorolás NYC taxiadatokkal
Modulparaméterek
Az alábbi paraméterek használhatók az összes beállítással:
Név | Típus | Tartomány | Választható | Alapértelmezett | Description |
---|---|---|---|---|---|
Osztályok száma | Egész szám | >=2 | Kötelező | 2 | A címke osztályszáma. |
A kivonatfedő függvény bitei | Egész szám | [12;31] | Kötelező | 20 | A kivonatfedő függvény tartományának bitszáma. |
A kivonatfedő függvény kezdő magja | Egész szám | bármelyik | Kötelező | 1 | A kivonatfedő függvény magja. |
Modul típusa | Kötelező | Adathalmaz | A count tábla létrehozásához használt modul típusa. | ||
Táblatípus darabszáma | CountTableType | select from list (kijelölés listából) | Kötelező | Szótár | Adja meg a count tábla formátumát. |
A blob lehetőség kiválasztásakor az alábbi beállítások érvényesek .
Név | Típus | Tartomány | Választható | Alapértelmezett | Description |
---|---|---|---|---|---|
A blob neve | Sztring | bármelyik | Kötelező | A bemeneti blob neve. Ne foglalja bele a tároló nevét. | |
Fióknév | Sztring | bármelyik | Kötelező | A tárfiók neve. | |
Fiókkulcs | SecureString | bármelyik | Kötelező | A tárfiók kulcsa. | |
Tárolónév | Sztring | bármelyik | Kötelező | A bemeneti blobot tartalmazó Azure Blob-tároló. | |
Oszlopok száma | Sztring | bármelyik | Kötelező | A számlálás végrehajtásához szükséges oszlopcsoportok egyalapú indexe. | |
Feliratoszlop | Egész szám | >=1 | Kötelező | 1 | A címkeoszlop egyalapú indexe. |
Blob formátuma | bármelyik | Kötelező | CSV | A blob szövegfájlformátuma. |
A következő paraméterek érvényesek, ha a MapReduce használatával hoz létre darabszámokat:
Név | Típus | Tartomány | Választható | Alapértelmezett | Description |
---|---|---|---|---|---|
Alapértelmezett tárfióknév | Sztring | bármelyik | Kötelező | Nincs | A bemeneti blobot tartalmazó tárfiók neve. |
Alapértelmezett tárfiókkulcs | SecureString | bármelyik | Kötelező | Nincs | A bemeneti blobot tartalmazó tárfiók kulcsa. |
Alapértelmezett tárolónév | Sztring | bármelyik | Kötelező | Nincs | A count tábla megírásához használt blobtároló neve. |
Fürt URI-ja | Sztring | bármelyik | Kötelező | Nincs | A HDInsight Hadoop-fürt URI-ját. |
Felhasználónév | Sztring | bármelyik | Kötelező | Nincs | A HDInsight Hadoop-fürtbe való bejelentkezéshez használt felhasználónév. |
A count tábla formátumát az alábbi paraméterek határozzák meg:
Név | Típus | Tartomány | Választható | Alapértelmezett | Description |
---|---|---|---|---|---|
Táblatípus darabszáma | CountTableType | Lista | Kötelező | Szótár | A count tábla típusa. |
Címkeoszlop indexe vagy neve | ColumnSelection (Oszlopválasztás) | Kötelező, ha a tábla darabszáma adatkészletként van mentve | Nincs | Válassza ki a címkeoszlopot. | |
Megszámolni kívánt oszlopok kiválasztása | ColumnSelection (Oszlopválasztás) | Kötelező, ha a tábla darabszáma adatkészletként van mentve | Oszlopok kijelölése a megszámláláshoz. Ezeket az oszlopokat kategorikus jellemzőknek tekintjük. | ||
A CM-vázlattábla mélysége | Egész szám | >=1 | Kötelező, ha a count tábla CMSketch formátumot használ | 4 | A CM-vázlattábla mélysége, amely megegyezik a kivonatfűvelet-függvények számmal. |
CM-vázlattábla szélessége | Egész szám | [1;31] | Kötelező, ha a count tábla CMSketch formátumot használ | 20 | A CM-vázlattábla szélessége, amely a kivonatfúvás-tartomány bitszáma. |
Címkeoszlop indexe vagy névoszlopa | ColumnSelection (Oszlopválasztás) | Kötelező, ha a tábla darabszáma adatkészletként van mentve | Kiválasztja a címkeoszlopot. | ||
Megszámolni kívánt oszlopok kiválasztása | ColumnSelection (Oszlopválasztás) | Kötelező, ha a tábla darabszáma adatkészletként van mentve | Oszlopokat jelöl ki a megszámláláshoz. Ezeket az oszlopokat kategorikus jellemzőknek tekintjük. | ||
Táblatípus darabszáma | Kötelező, ha a tábla darabszáma adatkészletként van mentve | Szótár | A count tábla típusát határozza meg. | ||
A CM-vázlattábla mélysége | Egész szám | >=1 | Kötelező, ha a count tábla CMSketch-ként van mentve | 4 | A CM-vázlat táblamélység, amely megegyezik a kivonatfűvelet-függvények számmal. |
CM-vázlattábla szélessége | Egész szám | [1;31] | Kötelező, ha a count tábla CMSketch-ként van mentve | 20 | A CM-vázlattábla szélessége, amely a kivonat funkció tartományának bitszáma. |
Kimenetek
Név | Típus | Description |
---|---|---|
Számlálási átalakítás | ITransform interfész | A számláló átalakítása. |
Kivételek
Kivétel | Description |
---|---|
0003-as hiba | Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres. |
0004-es hiba | Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel. |
0005-ös hiba | Kivétel akkor fordul elő, ha a paraméter kisebb egy adott értéknél. |
0007-es hiba | Kivétel akkor fordul elő, ha a paraméter nagyobb, mint egy adott érték. |
0009-es hiba | Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva. |
0065-ös hiba | Kivétel történik, ha az Azure-blob neve helytelenül van megadva. |
0011-es hiba | Kivétel akkor fordul elő, ha az átadott oszlopkészlet-argumentum nem vonatkozik egyik adathalmazoszlopra sem. |
0049-es hiba | Kivétel akkor fordul elő, ha nem lehet egy fájlt elemezni. |
1000-es hiba | Belső kódtár-kivétel. |
0059-es hiba | Kivétel akkor fordul elő, ha egy oszlopválasztóban megadott oszlopindex nem elemezhető. |
0060-as hiba | Kivétel akkor fordul elő, ha egy oszlopválasztóban tartományon kívüli oszloptartomány van megadva. |
0089-es hiba | Kivétel akkor fordul elő, ha a megadott számú osztály kisebb, mint a megszámláláshoz használt adatkészletben található osztályok tényleges száma. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listáját a hibakódok Machine Learning REST API.