Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V porozumění konverzačnímu jazyku jsou entity relevantními informacemi, které se extrahují z promluv. Entitu lze extrahovat různými metodami. Mohou se naučit prostřednictvím kontextu, spárovat se ze seznamu nebo být detekovány předem vytvořeným rozpoznávacím modelem. Každá entita v projektu se skládá z jedné nebo více těchto metod, které jsou definovány jako komponenty vaší entity.
Pokud je entita definována více než jednou komponentou, jejich předpovědi se mohou překrývat. Chování predikce entity můžete určit, když se její komponenty překrývají, pomocí pevné sady možností v možnostech entity.
Typy komponent
Komponenta entity určuje způsob, jak entitu extrahovat. Entita může obsahovat jednu komponentu, která určuje jedinou metodu, která se má použít k extrakci entity. Entita může také obsahovat více komponent, aby se rozšířily způsoby, kterými je entita definována a extrahována.
Naučená součástka
Naučená komponenta používá značky entit, kterými označíte své promluvy, k natrénování strojově naučeného modelu. Model se učí předpovídat, kde se entita nachází na základě kontextu v promluvě. Popisky poskytují příklady toho, kde se očekává výskyt entity v promluvě, na základě významu slov kolem ní a jako označených slov.
Tato komponenta je definována pouze tehdy, když přidáte štítky označením promluv pro entitu. Pokud neoznačíte žádné promluvy s entitou, nebude mít naučenou komponentu.
Komponenta seznamu
Součást seznamu představuje pevnou uzavřenou sadu souvisejících slov spolu s jejich synonymy. Komponenta provádí přesnou shodu textu se seznamem hodnot, které zadáte jako synonyma. Každé synonymum patří ke klíči seznamu, který lze použít jako normalizovanou standardní hodnotu synonyma, která se vrátí ve výstupu, pokud se komponenta seznamu shoduje. Seznamové klíče se nepoužívají k párování.
Ve vícejazyčných projektech můžete pro každý jazyk zadat jinou sadu synonym. Při použití rozhraní API pro predikce můžete zadat jazyk ve vstupním požadavku, který odpovídá pouze synonymům přidruženým k tomuto jazyku.
Předem připravená komponenta
Předem připravená komponenta umožňuje vybrat si z knihovny běžných typů, jako jsou čísla, data a časy a názvy. Po přidání se automaticky zjistí předem připravená komponenta. Pro každou entitu můžete mít až pět předem připravených komponent. Další informace najdete v seznamu podporovaných předem připravených komponent.
Komponenta Regex
Komponenta regulárních výrazů odpovídá regulárním výrazům za účelem zachycení konzistentních vzorů. Po přidání se extrahuje veškerý text, který odpovídá regulárnímu výrazu. V rámci stejné entity můžete mít více regulárních výrazů, z nichž každý má jiný identifikátor klíče. Výraz, který se shoduje, vrátí klíč jako součást výsledku predikce.
Ve vícejazyčných projektech můžete pro každý jazyk zadat jiný výraz. Při použití rozhraní API pro predikce můžete zadat jazyk ve vstupním požadavku, který odpovídá pouze regulárnímu výrazu přidruženému k tomuto jazyku.
Možnosti entit
Pokud je pro entitu definovaných více komponent, jejich předpovědi se můžou překrývat. Když dojde k překrytí, konečná předpověď každé entity je určena jednou z následujících možností.
Kombinování součástí
Spojte komponenty do jedné entity, když se překrývají, sjednocením všech komponent.
Tuto možnost použijte ke kombinování všech součástí, když se překrývají. Když se komponenty zkombinují, získáte všechny další informace, které jsou spojené se seznamem nebo předem připravenou komponentou, když jsou k dispozici.
Příklad
Předpokládejme, že máte entitu s názvem Software , která má součást seznamu, která jako položku obsahuje "Operační systém Proseware". V datech promluvy máte záznam "Chci koupit Proseware OS 9", kde je "Proseware OS 9" označeno jako Software:
Když použijete kombinované komponenty, vrátí entita úplný kontext jako "Proseware OS 9" spolu s klíčem ze komponenty seznamu:
Předpokládejme, že jste měli stejnou promluvu, ale naučená komponenta předpověděla pouze "OS 9":
V případě kombinovaných komponent se entita stále vrací jako "Proseware OS 9" s klíčem ze komponenty seznamu:
Nekombinovat komponenty
Každá překrývající se komponenta se vrátí jako samostatná instance entity. Použijte vlastní logiku po predikci s touto volbou.
Příklad
Předpokládejme, že máte entitu s názvem Software , která má součást seznamu, která obsahuje položku "Proseware Desktop" jako položku. V datech promluvy máte "Chci koupit Proseware Desktop Pro" se značkou "Proseware Desktop Pro" označený jako Software:
Pokud komponenty nekombinujete, vrátí entita dvakrát:
Požadované komponenty
Někdy může být entita definována několika komponentami, ale vyžaduje, aby byla přítomna jedna nebo více z nich. Každou komponentu je možné nastavit podle potřeby, což znamená, že entita se nevrátí , pokud tato komponenta nebyla k dispozici. Pokud máte například entitu se součástí seznamu a požadovanou naučenou komponentou, je zaručeno, že každá vrácená entita obsahuje naučenou komponentu. Pokud ne, entita se nevrátí.
Požadované komponenty se nejčastěji používají s naučenými komponentami, protože můžou omezit ostatní typy komponent na konkrétní kontext, který je běžně přidružený k rolím. Můžete také vyžadovat všechny komponenty, abyste měli jistotu, že každá komponenta existuje pro entitu.
V sadě Language Studio má každá komponenta v entitě přepínač, který umožňuje nastavit ji podle potřeby.
Příklad
Předpokládejme, že máte entitu s názvem Ticket Quantity , která se pokouší extrahovat počet lístků, které chcete rezervovat pro lety, pro promluvy, jako je například "Rezervovat dvě letenky zítra do Káhiry".
Obvykle přidáte předem připravenou komponentu pro Quantity.Number
, která už extrahuje všechna čísla. Pokud byla vaše entita definována pouze pomocí předem připravené komponenty, extrahuje také další čísla jako součást entity Ticket Quantity, například: "Rezervovat dva lístky zítra do Káhiry na 15:00."
Pokud chcete tento scénář vyřešit, označíte v trénovacích datech naučenou komponentu pro všechna čísla, která mají být typu Množství lístků. Entita má teď dvě komponenty: předem připravenou komponentu, která zná všechna čísla, a naučenou komponentu, která předpovídá, kde je množství lístku ve větě. Pokud potřebujete naučenou komponentu, ujistěte se, že Množství lístků se vrátí pouze tehdy, když jej naučená komponenta predikuje ve správném kontextu. Pokud také potřebujete předpřipravenou komponentu, mohli byste zaručit, že vrácená entita Ticket Quantity představuje číslo a nachází se ve správné pozici.
Použijte součásti a možnosti
Komponenty poskytují flexibilitu při definování entity více než jedním způsobem. Při kombinování součástí se ujistěte, že je každá komponenta reprezentovaná a snížíte počet entit vrácených v předpovědích.
Běžným postupem je rozšířit předem připravenou komponentu se seznamem hodnot, které předem sestavené součásti nemusí podporovat. Pokud máte například entitu organizace , která má přidanou předem připravenou General.Organization
komponentu, nemusí entita předpovědět všechny organizace specifické pro vaši doménu. Komponentu seznamu můžete použít k rozšíření hodnot entity organizace a rozšířit předdefinovanou komponentu vlastními organizacemi.
Jindy vás může zajímat extrakce entity pomocí kontextu, jako je produkt v maloobchodním projektu. Označíte naučenou komponentu produktu, abyste určili kde se produkt nachází na základě jeho pozice ve větě. Můžete mít také seznam produktů, které už víte předem, že chcete vždy extrahovat. Kombinace obou komponent v jedné entitě umožňuje získat obě možnosti pro entitu.
Pokud komponenty nekombinujete, můžete všem komponentám umožnit, aby fungovaly jako nezávislý extraktor entit. Jedním ze způsobů, jak tuto možnost použít, je oddělit entity extrahované ze seznamu na entity extrahované prostřednictvím naučených nebo předem připravených komponent pro zpracování a zacházení s nimi odlišně.
Poznámka:
Dříve ve verzi Public Preview služby byly k dispozici čtyři možnosti: nejdelší překrytí, přesné překrytí, sjednocené překrytí a vrácení všech samostatně. Nejdelší překrývání a Přesná překrytí jsou zastaralé a podporují se pouze u projektů, které dříve měly tyto možnosti vybrané. Spojení překrývajících se částí bylo přejmenováno na Kombinovat součásti, zatímco Return all zvlášť bylo přejmenováno na Nekombinovat součásti.