Sdílet prostřednictvím


Pro model dostupné pro analýzu verze 7-10

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Navlakuje model s použitím verze 7-10 dostupné systému Machine Learning v pro.

kategorie: Analýza textu

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu dostupné verze 7-10 v Machine Learning studiu (classic) vytvořit model strojového učení s použitím instance pro dostupné (verze 7-10).

Pokud chcete používat pro dostupné pro Machine Learning, naformátujte vstup podle požadavků pro dostupné a uložte data do objektu blob Azure. Pomocí tohoto modulu můžete zadat argumenty příkazového řádku pro dostupné.

Při spuštění experimentu je instance pro dostupné načtena do doby běhu experimentu spolu se zadanými daty. Po dokončení školení je model serializován zpátky do pracovního prostoru. Model můžete použít hned k určení skóre dat. Vyškolený model je také uložený ve službě Azure Storage, takže ho můžete později použít bez nutnosti znovu zpracovat školicí data.

Chcete-li postupně vyškolit stávající model pro nová data, připojte uložený model k předučenému vstupnímu modelu a přidejte nová data do jiného vstupu.

Poznámka

Machine Learning Studio (classic) hostuje více verzí architektury pro dostupné. Tento modul používá verzi 7-10 rozhraní pro dostupné.

Pokud potřebujete sestavit nebo vyhodnotit model založený na předchozí verzi (7-4 nebo 7-6), použijte tyto moduly: výuka pro dostupné 7-4 model a skore pro dostupné model 7-4.

Pro nejnovější verzi použijte model pro dostupné verze 8spolu s jeho modulem bodování skóre pro dostupné 8.

Co je pro dostupné?

Pro dostupné (VW) je rychlé paralelní rozhraní Machine Learning, které bylo vyvinuto pro distribuované výpočetní prostředí pomocí Yahoo! Výzkum. později bylo přeWindowso a upraveno jan Langford (Microsoft Research) pro vědecké výpočty v paralelních architekturách.

Mezi funkce služby pro dostupné, které jsou důležité pro strojové učení, patří průběžné učení (online učení), snižování dimenzionálního a interaktivní učení. Pro dostupné je také řešení problémů, když nemůžete přizpůsobit modelová data do paměti.

primárními uživateli pro dostupné v Machine Learning jsou odborníci na data, kteří dříve používali architekturu pro úlohy strojového učení, jako je klasifikace, regrese, modelování tématu nebo vytváření matic. Obálka Azure pro pro dostupné má velmi podobné charakteristiky výkonu pro místní verzi, což znamená, že uživatelé mohou pokračovat v sestavování modelů, revlaků a skóre pomocí výkonných funkcí a nativního výkonu pro dostupné a přitom získat možnost snadno publikovat školený model jako provozní službu.

Modul hash funkcí obsahuje také funkce, které poskytuje pro dostupné, která umožňuje transformovat textové datové sady do binárních funkcí pomocí algoritmu hash.

Postup konfigurace modelu pro dostupné verze 7-10

Tato část popisuje, jak vytvořit nový model a jak přidat nová data do existujícího modelu.

Na rozdíl od jiných modulů v aplikaci Studio (Classic) Tento modul určuje parametry modulu a navlakuje model. Pokud máte existující model, můžete ho přidat jako volitelný vstup pro přírůstkové učení modelu.

Použití tohoto modulu vyžaduje ověření pro účet úložiště Azure.

Příprava vstupních dat

Aby bylo možné vytvořit model pomocí tohoto modulu, vstupní datová sada musí obsahovat jeden textový sloupec v jednom ze dvou podporovaných formátů: LibSVM nebo VW.

To neznamená, že pro dostupné analyzuje pouze textová data, stačí, když je potřeba připravovat funkce a hodnoty v požadovaném formátu textového souboru.

Data musí být načítána z Azure Storage. Pomocí exportu dat není možné přímo uložit vstupní soubor do Azure pro použití s pro dostupné, protože formát vyžaduje nějakou další úpravu. Musíte zajistit, aby data byla ve správném formátu, a pak data nahrát do úložiště objektů BLOB v Azure.

Nicméně jako zástupce můžete použít modul převést do SVMLight k vygenerování souboru formátu SVMLight. Pak můžete buď nahrát soubor formátu SVMLight do úložiště objektů BLOB v Azure a použít ho jako vstup, nebo můžete soubor mírně upravit tak, aby odpovídal požadavkům na vstupní soubor pro dostupné.

Datový formát pro dostupné má výhodu, že nepotřebuje sloupcový formát, který šetří místo při práci s zhuštěnými daty. Další informace o tomto formátu najdete na stránce wikiwebu pro dostupné.

Vytvoření a výuka modelu pro dostupné

  1. Přidejte do experimentu modul dostupné pro pro verze 7-10 .

  2. Zadejte účet, ve kterém jsou data školení uložená. Vyškolený model a soubor algoritmu hash jsou uloženy ve stejném umístění.

    • Jako název účtu úložiště Azurezadejte název účtu úložiště Azure.

    • Pro klíč úložiště Azurezkopírujte a vložte klíč, který je k dispozici pro přístup k účtu úložiště.

    Pokud nemáte klíč, přečtěte si téma jak znovu vygenerovat přístupové klíče úložiště .

  3. Do pole název kontejneru Azurezadejte název jednoho kontejneru v zadaném účtu úložiště Azure, ve kterém jsou uložená data školení modelu. Nezadávejte název účtu ani žádnou předponu protokolu.

    Pokud je https://myaccount.blob.core.windows.net/vwmodels například úplná cesta a název kontejneru, měli byste zadat pouze vwmodels . Další informace o názvech kontejnerů najdete v tématu pojmenování a odkazování kontejnerů, objektů BLOB a metadat.

  4. Do textového pole argumenty VW zadejte argumenty příkazového řádku pro spustitelný soubor pro dostupné.

    Můžete například přidat –l , chcete-li určit míru učení, nebo -b Označit počet bitů hash.

    Další informace najdete v části Parameters .

  5. Název vstupního souboru VW: zadejte název souboru, který obsahuje vstupní data. Tento soubor musí být existující soubor v úložišti objektů BLOB v Azure, který je umístěný v dřív zadaném účtu úložiště a kontejneru. Soubor musí být připravený pomocí některého z podporovaných formátů.

  6. Název výstupního souboru čitelného modelu (--readable_model): zadejte název souboru, do kterého se má vyškolený model Uložit. Soubor musí být uložený v rámci stejného účtu úložiště a kontejneru jako vstupní soubor.

    Tento argument odpovídá --readable_model parametru v příkazovém řádku VW.

  7. Název výstupního souboru s obráceným znakem hash (--invert_hash): zadejte název souboru, ve kterém má být funkce invertovaná hodnota hash uložena. Soubor musí být uložený v rámci stejného účtu úložiště a kontejneru jako vstupní soubor.

    Tento argument odpovídá --invert_hash parametru v příkazovém řádku VW.

  8. Zadejte prosím typ souboru: Určete, který formát vaše školicí data používá. Pro dostupné podporuje tyto dva formáty vstupních souborů:

    • VW představuje interní formát používaný pro dostupné. Podrobnosti najdete na stránce wiki pro dostupné .

    • SVMLight je formát používaný některými jinými nástroji pro strojové učení.

  9. Tuto možnost vyberte, pokud nechcete načíst data z úložiště pokaždé, když je experiment znovu reun, a použijte výsledky uložené v mezipaměti. Za předpokladu, že se žádné jiné parametry nezměnily a je možné najít platnou mezipaměť, Studio (Classic) používá verzi dat uloženou v mezipaměti.

    Pokud je tato možnost Nevybraná, modul vždy přečte data z úložiště.

  10. Spusťte experiment.

  11. Po vygenerování modelu klikněte pravým tlačítkem myši na výstup a vyberte Uložit jako trained model, aby bylo možné znovu použít a znovu vytvořit vlak modelu později.

Přeučení stávajícího modelu dostupné pro

Pro dostupné podporuje přírůstkové školení přidáním nových dat do existujícího modelu. Existují dva způsoby, jak získat existující model pro přeškolení:

  • V rámci stejného experimentu použijte výstup jiného modulu dostupné verze 8 nástroje vlak pro .

  • Vyhledejte uložený model ve skupině trained Models v studiu (Classic) a přetáhněte ho do experimentu.

  1. Přidejte do experimentu modul dostupné pro pro verze 8 .

  2. Připojení výše vyškolený model na vstupní port dostupné pro pro verze 8:

  3. V podokně vlastnostipro dostupné verze 8zadejte umístění a formát nových školicích dat.

  4. Zadejte název výstupního souboru modelu čitelného pro člověka a další název souboru hash přidruženého k aktualizovanému modelu.

    Poznámka

    Pokud v zadaném umístění existuje existující model dostupné nebo soubor algoritmu hash pro, soubory jsou tiše přepsány novým poučeným modelem. Pokud chcete zachovat zprostředkující modely při přeškolení, musíte změnit umístění úložiště nebo vytvořit místní kopii souborů modelu.

  5. Spusťte experiment.

  6. klikněte pravým tlačítkem na modul a vyberte uložit jako trained model , abyste zachovali aktualizovaný model v pracovním prostoru Machine Learning. Pokud nezadáte nový název, aktualizovaný model přepíše existující uložený model.

Příklady

Příklady toho, jak se dá pro dostupné použít ve službě Machine Learning, najdete v Azure AI Gallery:

  • Ukázka pro dostupné

    Tento experiment znázorňuje přípravu, školení a provozuschopnost modelu VW.

Podívejte se také na tyto prostředky:

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Výhody pro dostupné

Pro dostupné poskytuje extrémně rychlé učení nad nelineárními funkcemi, jako je n-gram.

Pro dostupné využívá techniky učení online , jako je například stochastického gradient klesání (SGD), aby se vešel na jeden záznam v jednom okamžiku. Proto provádí iteraci velmi rychle nad nezpracovanými daty a může vyvíjet dobrý předpověď rychleji než většinu ostatních modelů. Tento přístup také zabraňuje nutnosti číst všechna školicí data do paměti.

Pro dostupné převádí všechna data na hodnoty hash, nikoli jenom textová data, ale i jiné proměnné kategorií. Použití hodnot hash usnadňuje vyhledávání regresních vah, což je klíčové pro efektivní klesání gradientu stochastického.

Během školení modul provede volání na Proou obálku dostupné vyvinutou pro Azure. Školicí data se stáhnou do bloků z Azure a využívají velkou šířku pásma mezi obchodem a rolemi pracovních procesů, které spouštějí výpočty, a streamují se do VWch učících. Výsledný model je obecně velmi kompaktní vzhledem k vnitřní kompresi prováděné VW. Model se zkopíruje zpátky do pracovního prostoru experimentu, kde se dá využít jako jiné modely v Machine Learning.

Podporované a nepodporované parametry

tato část popisuje podporu pro parametry příkazového řádku pro dostupné v Machine Learning studiu (classic).

v Machine Learning studiu (classic) nemůžete použít následující argumenty příkazového řádku.

  • Možnosti vstupu a výstupu zadané v pro dostupné wiki-Command-line-argumenty

    Tyto vlastnosti jsou automaticky nakonfigurované modulem.

  • Jakékoli možnosti, které generují více výstupů nebo přebírají více vstupů, nejsou povoleny. Tady jsou některé z nich:

    --cbt, --lda, --wap

  • Podporují se jenom kontrolní algoritmy pro učení pod dohledem. Proto nejsou podporované možnosti, jako jsou tyto:

    –active, --rank, --search

Všechny argumenty kromě těch, které jsou popsané výše, jsou povoleny.

Úplný seznam argumentů získáte pomocí stránky wikiwebu pro dostupné.

Omezení

Vzhledem k tomu, že cílem služby je podpora zkušených uživatelů pro dostupné, musí být vstupní data připravená předem, a to pomocí formátu pro dostupné Native text, nikoli pomocí formátu DataSet používaného jinými moduly.

místo použití dat v pracovním prostoru azure ML se školicí data přímo streamují z azure za účelem maximálního výkonu a minimálního zatížení. Z tohoto důvodu existuje jenom omezená interoperabilita mezi VW moduly a dalšími moduly v Azure ML.

Parametry modulu

Name Rozsah Typ Výchozí Description
Azure storage account name Libovolný Řetězec Zadejte název účtu Azure Storage.
Klíč úložiště Azure Libovolný SecureString Zadejte klíč úložiště Azure.
Název kontejneru Azure Libovolný Řetězec Zadejte název kontejneru Azure.
Argumenty VW Libovolný Řetězec Zadejte všechny argumenty pro dostupné.

Argument – f není podporován.
Název vstupního souboru VW Libovolný Řetězec Zadejte název vstupního souboru ve formátu pro dostupné.
Název výstupního souboru čitelného modelu (--readable_model) Libovolný Řetězec Když se tato možnost zadá, vrátí do kontejneru Azure čitelný model.

Tento argument je nepovinný.
Název výstupního souboru s obráceným znakem hash (--invert_hash) Libovolný Řetězec Když se tato možnost zadá, vrátí soubor obsahující inverzní funkci hash zpátky do kontejneru Azure.

Tento argument je nepovinný.
Zadejte prosím typ souboru. VW

SVMLight
DataType VW Určete, zda typ souboru používá formát SVMLight nebo formát dostupné pro.

Výstupy

Název Typ Description
Školený model Rozhraní ILearner Školený učí

Výjimky

Výjimka Description
Chyba 0001 K výjimce dojde v případě, že se nepovedlo najít jeden nebo více zadaných sloupců datové sady.
Chyba 0003 K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0,0004 K výjimce dojde, pokud je parametr menší nebo roven konkrétní hodnotě.
Chyba 0017 K výjimce dojde v případě, že jeden nebo více zadaných sloupců má nepodporovaný typ aktuálním modulem.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Analýza textu
Hashování funkcí
Rozpoznávání pojmenovaných entit
Pro model skóre dostupné 7-4
Pro model skóre dostupné 7-10
Pro model dostupné 7-4 pro vlaky
Seznam modulů a-Z