Označení promluv v sadě Language Studio

Článek
08/01/2024

Jakmile vytvoříte schéma projektu, měli byste do projektu přidat trénovací promluvy. Promluvy by měly být podobné tomu, co budou uživatelé používat při interakci s projektem. Když přidáte promluvu, musíte přiřadit záměr, ke kterému patří. Po přidání promluvy označte slova v promluvě, která chcete extrahovat jako entity.

Popisování dat je zásadním krokem v životním cyklu vývoje; tato data se použijí v dalším kroku při trénování modelu, aby se váš model mohl učit z označených dat. Pokud už máte popisky promluv, můžete je přímo naimportovat do projektu, ale musíte se ujistit, že vaše data mají stejný formát dat jako přijatá. Další informace o importu označených dat do projektu najdete v tématu vytvoření projektu . Označená data informují model o tom, jak interpretovat text, a slouží k trénování a vyhodnocení.

Požadavky

Než budete moct data označovat, potřebujete:

Úspěšně vytvořený projekt.

Další informace najdete v životním cyklu vývoje projektu.

Pokyny k označování dat

Po vytvoření schématu a vytvoření projektu budete muset data označovat. Označení dat je důležité, aby model věděl, která slova a věty budou přidružené k záměrům a entitám v projektu. Budete chtít strávit čas označováním promluv – představujeme a zpřesníte data, která se použijí při trénování modelů.

Při přidávání promluv a jejich označování mějte na paměti:

Modely strojového učení se generalizují na základě označených příkladů, které jí poskytnete; čím více příkladů zadáte, tím více datových bodů musí model zlepšit generalizaci.
Přesnost, konzistence a úplnost označených dat jsou klíčovými faktory pro určení výkonu modelu.
- Popisek přesně: Vždy označte každý záměr a entitu správným typem. Uveďte jenom to, co chcete klasifikovat a extrahovat, abyste se vyhnuli zbytečným datům v popiscích.
- Štítek konzistentně: Stejná entita by měla mít stejný popisek ve všech promluvách.
- Popisek zcela: Zadejte různé promluvy pro každý záměr. Označte všechny instance entity ve všech promluvách.

Jasně označovat promluvy

Ujistěte se, že koncepty, na které odkazují vaše entity, jsou dobře definované a oddělitelné. Zkontrolujte, jestli můžete spolehlivě určit rozdíly. Pokud to nemůžete, může tento nedostatek rozlišení znamenat, že naučená komponenta bude mít také potíže.
Pokud existuje podobnost mezi entitami, ujistěte se, že existují určité aspekty vašich dat, které poskytují signál pro rozdíl mezi nimi.

Pokud jste například vytvořili model pro rezervaci letů, může uživatel použít promluvu typu "Chci let z Bostonu do Seattlu". U takových promluv by se očekávalo, že město původu a cílové město budou podobné. Signál k rozlišení města původu může být, že slovo od něj často předchází.
Ujistěte se, že v trénovacích i testovacích datech označíte všechny instance každé entity. Jedním z přístupů je použití vyhledávací funkce k vyhledání všech výskytů slova nebo fráze v datech, abyste zjistili, jestli jsou správně označené.
Označte testovací data pro entity, které nemají žádnou naučenou komponentu , a také pro entity, které to dělají. Tento postup pomáhá zajistit, aby metriky vyhodnocení byly přesné.

U vícejazyčných projektů přidávání promluv v jiných jazycích zvyšuje výkon modelu v těchto jazycích, ale vyhněte se duplikování dat napříč všemi jazyky, které chcete podporovat. Pokud například chcete zlepšit výkon robota s kalendářem s uživateli, může vývojář přidat příklady převážně v angličtině a několik také ve španělštině nebo francouzštině. Můžou přidávat promluvy, jako jsou:
- "Nastavte schůzku s Mattem a Kevinemzítra v 12:00." (Angličtina)
- "Odpovědět jako nezávazně na týdenní aktualizaci schůzky."" (Angličtina)
- "Cancelar mi próxima reunión." (španělština)

Jak označovat promluvy

K označení promluv použijte následující postup:

Přejděte na stránku projektu v sadě Language Studio.
V nabídce na levé straně vyberte Popisky dat. Na této stránce můžete začít přidávat promluvy a označovat je. Promluvu můžete nahrát také přímo kliknutím na nahrát soubor promluvy v horní nabídce, ujistěte se, že odpovídá přijatému formátu.
V horních pivotech můžete změnit zobrazení tak, aby bylo trénovací sada nebo testovací sada. Přečtěte si další informace o trénovacích a testovacích sadách a o tom, jak se používají k trénování a vyhodnocení modelu.

Tip

Pokud plánujete použít automatické rozdělení testovací sady z rozdělení trénovacích dat , přidejte do trénovací sady všechny promluvy.
V rozevírací nabídce Vybrat záměr vyberte jeden ze záměrů, jazyk promluvy (pro vícejazyčné projekty) a samotnou promluvu. Stisknutím klávesy Enter do textového pole promluvy přidejte promluvu.

Entity v promluvě můžete označovat dvěma způsoby:

Možnost	Popis
Popisek pomocí štětce	Vyberte ikonu štětce vedle entity v pravém podokně a pak zvýrazněte text v promluvě, kterou chcete označovat.
Popisek pomocí vložené nabídky	Zvýrazněte slovo, které chcete označit jako entitu, a zobrazí se nabídka. Vyberte entitu, pomocí které chcete tato slova označovat.

V pravém bočním podokně pod pivotem Popisky najdete všechny typy entit v projektu a počet instancí označených pro každý z nich.
V pivotu Distribuce můžete zobrazit distribuci napříč trénovacími a testovacími sadami. Máte dvě možnosti zobrazení:
- Total instances per labeled entity where you can view count of all labeled instances of a specific entity.
- Jedinečné promluvy na označenou entitu , kde se počítá každá promluva, pokud obsahuje aspoň jednu označenou instanci této entity.
- Promluvy na záměr , kde můžete zobrazit počet promluv na záměr.

Poznámka:

Seznam a předem připravené komponenty se nezobrazují na stránce popisků dat a všechny popisky zde platí jenom pro naučenou komponentu.

Odebrání popisku:

V promluvě vyberte entitu, ze které chcete odebrat popisek.
Procházejte zobrazenou nabídku a vyberte Odebrat popisek.

Odstranění entity:

V pravém podokně vyberte entitu, kterou chcete upravit.
Vyberte tři tečky vedle entity a v rozevírací nabídce vyberte požadovanou možnost.

Návrhy promluv pomocí Azure OpenAI

V MODULU CLU pomocí Azure OpenAI navrhněte promluvy, které se mají přidat do projektu pomocí modelů GPT. Nejprve potřebujete získat přístup a vytvořit prostředek v Azure OpenAI. Pak budete muset vytvořit nasazení pro modely GPT. Postupujte podle zde požadovaných kroků.

Než začnete, je funkce navrhnout promluvy dostupná jenom v případě, že je váš prostředek jazyka v následujících oblastech:

USA – východ
Středojižní USA
Západní Evropa

Na stránce Popisování dat:

Vyberte tlačítko Navrhnout promluvy. Na pravé straně se otevře podokno s výzvou k výběru prostředku a nasazení Azure OpenAI.
Při výběru prostředku Azure OpenAI vyberte Připojit, což umožňuje vašemu prostředku jazyka přímý přístup k vašemu prostředku Azure OpenAI. Přiřadí váš prostředek jazyka roli Cognitive Services User prostředku Azure OpenAI, což umožňuje vašemu aktuálnímu prostředku jazyka přístup ke službě Azure OpenAI. Pokud se připojení nezdaří, pomocí následujícího postupu přidejte do prostředku Azure OpenAI správnou roli ručně.
Po připojení prostředku vyberte nasazení. Doporučeným modelem pro nasazení Azure OpenAI je text-davinci-002.
Vyberte záměr, pro který chcete získat návrhy. Ujistěte se, že vybraný záměr obsahuje alespoň 5 uložených promluv, které mají být povolené pro návrhy promluv. Návrhy, které poskytuje Azure OpenAI, vycházejí z nejnovějších promluv, které jste pro tento záměr přidali.
Vyberte Vygenerovat promluvy. Po dokončení se navrhované promluvy zobrazí s tečkovanou čárou kolem ní s poznámkou vygenerovanou AI. Tyto návrhy je potřeba přijmout nebo odmítnout. Přijetí návrhu ho jednoduše přidá do projektu, jako byste ho přidali sami. Když ho odmítnete, návrh se úplně odstraní. Součástí projektu budou jenom přijaté promluvy, které se použijí k trénování nebo testování. Můžete přijmout nebo odmítnout kliknutím na zelené zaškrtnutí nebo červeně zrušit tlačítka vedle každé promluvy. Můžete také použít Accept all tlačítka na Reject all panelu nástrojů.

Použití této funkce zahrnuje poplatky za prostředek Azure OpenAI za podobný počet tokenů, které se vygenerovaly navrhovaným promluvám. Podrobnosti o cenách Azure OpenAI najdete tady.

Přidání požadovaných konfigurací do prostředku Azure OpenAI

Pokud připojení prostředku jazyka k prostředku Azure OpenAI selže, postupujte takto:

Povolte správu identit pro prostředek jazyka pomocí následujících možností:

Azure Portal
Language Studio

Váš prostředek jazyka musí mít správu identit, aby ho bylo možné povolit pomocí webu Azure Portal:

Přechod na prostředek jazyka
V nabídce vlevo v části Správa prostředků vyberte Identita.
Na kartě Přiřazený systém nezapomeňte nastavit stav na Zapnuto.

Po povolení spravované identity přiřaďte roli Cognitive Services User prostředku Azure OpenAI pomocí spravované identity prostředku jazyka.

Přihlaste se k webu Azure Portal a přejděte k prostředku Azure OpenAI.
Na levé straně vyberte kartu Řízení přístupu (IAM).
Vyberte Přidat > přiřazení role.
Vyberte Role funkce úlohy a klikněte na Další.
Vyberte Cognitive Services User ze seznamu rolí a klikněte na Další.
Vyberte Přiřadit přístup ke spravované identitě a vyberte Vybrat členy.
V části Spravovaná identita vyberte Jazyk.
Vyhledejte prostředek a vyberte ho. Pak vyberte tlačítko Vybrat níže a pak proces dokončete.
Zkontrolujte podrobnosti a vyberte Zkontrolovat a přiřadit.

Po několika minutách aktualizujte Language Studio a budete se moct úspěšně připojit k Azure OpenAI.

Další kroky

Trénování modelu

Sdílet prostřednictvím