Rychlý start: Vlastní Analýza textu pro stav

Článek
01/10/2024

V tomto článku můžete začít vytvářet vlastní Analýza textu pro projekt stavu, kde můžete trénovat vlastní modely nad Analýza textu pro rozpoznávání vlastních entit. Model je software umělé inteligence, který je natrénovaný k určitému úkolu. V tomto systému modely extrahují pojmenované entity související se zdravotnictvím a trénují se učením z označených dat.

V tomto článku používáme Language Studio k předvedení klíčových konceptů vlastních Analýza textu pro stav. Jako příklad vytvoříme vlastní Analýza textu pro zdravotnický model, který extrahuje zařízení nebo místo léčby z krátkých poznámek k propuštění.

Požadavky

Předplatné Azure: Můžete si ho vytvořit zdarma.

Název	Popis
Předplatné	Vaše předplatné Azure.
Skupina prostředků	Skupina prostředků, která bude obsahovat váš prostředek. Můžete použít existující nebo vytvořit nový.
Oblast	Oblast vašeho prostředku Jazyk. Například "USA – západ 2".
Název	Název vašeho prostředku
Cenová úroveň	Cenová úroveň vašeho prostředku Jazyk. Službu můžete vyzkoušet pomocí úrovně Free (F0).

Hodnota účtu úložiště	Doporučená hodnota
Název účtu úložiště	Libovolný název
Storage account type	Standardní LRS

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. U této hodnoty se rozlišují malá a velká písmena.	`myProject`
`{API-VERSION}`	Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je určená pro nejnovější vydané verze. Další informace o dalších dostupných verzích rozhraní API najdete v tématu Životní cyklus modelu.	`2022-05-01`

Key	Zástupný symbol	Hodnota	Příklad
`multilingual`	`true`	Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.	`true`
`projectName`	`{PROJECT-NAME}`	Název projektu	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Název kontejneru	`mycontainer`
`entities`		Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, které se z dokumentů extrahují.
`category`		Název typu entity, který lze definovat pro nové definice entit nebo předdefinovaný pro předem připravené entity.
`compositionSetting`	`{COMPOSITION-SETTING}`	Pravidlo, které definuje, jak spravovat více komponent ve vaší entitě. Možnosti jsou `combineComponents` nebo `separateComponents`.	`combineComponents`
`list`		Pole obsahující všechny dílčí seznamy, které máte v projektu pro konkrétní entitu. Seznamy lze přidat do předem připravených entit nebo nových entit s naučenými komponentami.
`sublists`	`[]`	Pole obsahující dílčí seznamy. Každý dílčí seznam je klíč a jeho přidružené hodnoty.	`[]`
`listKey`	`One`	Normalizovaná hodnota pro seznam synonym, která se mají namapovat zpět do predikce.	`One`
`synonyms`	`[]`	Pole obsahující všechna synonyma	Synonymum
`language`	`{LANGUAGE-CODE}`	Řetězec určující kód jazyka pro synonymum v podsestavě. Pokud je projekt vícejazyčný a chcete podporovat seznam synonym pro všechny jazyky v projektu, musíte do každého jazyka explicitně přidat synonyma. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Seznam řetězců oddělených čárkami, které budou přesně odpovídat extrakci a mapování na klíč seznamu.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Název předem připravené komponenty naplňující předem připravenou entitu. Předem připravené entity se ve výchozím nastavení automaticky načtou do projektu, ale v souboru popisků je můžete rozšířit o komponenty seznamu.	`MedicationName`
`documents`		Pole obsahující všechny dokumenty v projektu a seznam entit označených v rámci každého dokumentu	[]
`location`	`{DOCUMENT-NAME}`	Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Testovací sada , na kterou tento soubor přejde při rozdělení před trénováním. Možné hodnoty pro toto pole jsou `Train` a `Test`.	`Train`
`regionOffset`		Inkluzivní pozice znaku začátku textu.	`0`
`regionLength`		Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti.	`500`
`category`		Typ entity přidružené k rozsahu zadaného textu.	`Entity1`
`offset`		Počáteční pozice textu entity.	`25`
`length`		Délka entity z hlediska znaků UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků.	`en`

Key	Zástupný symbol	Hodnota	Příklad
modelLabel	`{MODEL-NAME}`	Název modelu, který je přiřazen k vašemu modelu po úspěšném natrénování.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Toto je verze modelu, která se používá k trénování modelu.	`2022-05-01`
evaluationOptions		Možnost rozdělení dat mezi trénovací a testovací sady	`{}`
kind	`percentage`	Rozdělte metody. Možné hodnoty jsou `percentage` nebo `manual`. Další informace najdete v tématu Jak vytrénovat model .	`percentage`
trainingSplitPercentage	`80`	Procento označených dat, která se mají zahrnout do trénovací sady Doporučená hodnota je `80`.	`80`
testingSplitPercentage	`20`	Procento označených dat, která se mají zahrnout do testovací sady Doporučená hodnota je `20`.	`20`

Key	Zástupný symbol	Hodnota	Příklad
`displayName`	`{JOB-NAME}`	Název vaší práce.	`MyJobName`
`documents`	[{},{}]	Seznam dokumentů, na kterých se mají spouštět úkoly	`[{},{}]`
`id`	`{DOC-ID}`	Název nebo ID dokumentu	`doc1`
`language`	`{LANGUAGE-CODE}`	Řetězec určující kód jazyka dokumentu. Pokud tento klíč není zadaný, služba bude předpokládat výchozí jazyk projektu, který byl vybrán během vytváření projektu. Seznam podporovaných jazykových kódů najdete v podpoře jazyků.	`en-us`
`text`	`{DOC-TEXT}`	Úlohu dokumentu, ve které chcete úkoly spouštět.	`Lorem ipsum dolor sit amet`
`tasks`		Seznam úkolů, které chceme provést	`[]`
`taskName`	`Custom Text Analytics for Health Test`	Název úkolu	`Custom Text Analytics for Health Test`
`kind`	`CustomHealthcare`	Typ projektu nebo úkolu, který se snažíme provést	`CustomHealthcare`
`parameters`		Seznam parametrů, které se mají předat úkolu
`project-name`	`{PROJECT-NAME}`	Název projektu. U této hodnoty se rozlišují malá a velká písmena.	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	Název nasazení. U této hodnoty se rozlišují malá a velká písmena.	`prod`

Key	Ukázková hodnota	Popis
entities	[]	Pole obsahující všechny extrahované entity.
entityComponentKind	`prebuiltComponent`	Proměnná, která označuje, která komponenta vrátila konkrétní entitu. Možné hodnoty: `prebuiltComponent`, `learnedComponent`, `listComponent`
offset	`0`	Číslo označující výchozí bod extrahované entity indexováním znaků
length	`10`	Číslo označující délku extrahované entity v počtu znaků.
text	`first entity`	Text extrahovaný pro konkrétní entitu.
category	`MedicationName`	Název typu entity nebo kategorie odpovídající extrahovanému textu.
confidenceScore	`0.9`	Číslo označující úroveň jistoty modelu extrahované entity v rozsahu od 0 do 1 s vyšší jistotou.
assertion	`certainty`	Kontrolní výrazy přidružené k extrahované entitě. Kontrolní výrazy jsou podporovány pouze pro předem připravené Analýza textu pro entity stavu.
name	`Ibuprofen`	Normalizovaný název entity, která je přidružená k extrahované entitě. Propojení entit je podporováno pouze u předem připravených Analýza textu pro entity stavu.
propojení	[]	Pole obsahující všechny výsledky z entity, která je přidružená k extrahované entitě. Propojení entit je podporováno pouze u předem připravených Analýza textu pro entity stavu.
Datasource	`UMLS`	Referenční standard, který je výsledkem propojení entity přidružené k extrahované entitě. Propojení entit je podporováno pouze u předem připravených Analýza textu pro entity stavu.
ID	`C0020740`	Referenční kód, který je výsledkem propojení entity přidružené k extrahované entitě patřící do extrahovaného zdroje dat. Propojení entit je podporováno pouze u předem připravených Analýza textu pro entity stavu.
Vztahy	[]	Pole obsahující všechny extrahované relace. Extrakce relací se podporuje jenom u předem připravených Analýza textu pro entity stavu.
relationType	`DosageOfMedication`	Kategorie extrahované relace. Extrakce relací se podporuje jenom u předem připravených Analýza textu pro entity stavu.
entities	`"Dosage", "Medication"`	Entity přidružené k extrahované relaci. Extrakce relací se podporuje jenom u předem připravených Analýza textu pro entity stavu.

Sdílet prostřednictvím

Rychlý start: Vlastní Analýza textu pro stav

Požadavky

Vytvoření nového prostředku Azure AI Language a účtu úložiště Azure

Vytvoření nového prostředku z webu Azure Portal

Nahrání ukázkových dat do kontejneru objektů blob

Vytvoření vlastního Analýza textu pro projekt stavu

Trénování vašeho modelu

Nasazení modelu

Testování modelu

Vyčištění prostředků

Požadavky

Vytvoření nového prostředku Azure AI Language a účtu úložiště Azure

Vytvoření nového prostředku z webu Azure Portal

Nahrání ukázkových dat do kontejneru objektů blob

Získání klíčů prostředků a koncového bodu

Vytvoření vlastního Analýza textu pro projekt stavu

Aktivace úlohy importu projektu

Hlavičky

Body

Získání stavu úlohy importu

Adresa URL požadavku

Hlavičky

Trénování vašeho modelu

Zahájení trénovací úlohy

Hlavičky

Text požadavku

Získání stavu trénovací úlohy

Adresa URL požadavku

Hlavičky

Text odpovědi

Nasazení modelu

Spuštění úlohy nasazení

Hlavičky

Text požadavku

Získání stavu úlohy nasazení

Hlavičky

Text odpovědi

Vytváření předpovědí pomocí natrénovaného modelu

Odeslání vlastního Analýza textu pro úlohu stavu

Hlavičky

Body

Response

Získání výsledků úkolů

Hlavičky

Text odpovědi

Vyčištění prostředků

Hlavičky

Další kroky

Váš názor

Váš názor

Další materiály