Než vytvoříte model klasifikace kategorie

Článek
01/10/2024

Než vytvoříte model klasifikace kategorie, bude vhodné zajistit, aby data byla v Microsoft Dataverse a byla strukturována ve správném formátu.

Požadavky

Tento model vyžaduje, aby trénovací data byla dostupná v tabulce Dataverse. Podpora dat z externích zdrojů v současné době není k dispozici.
Ověřte, že vám správce přiřadil roli zabezpečení s oprávněním ke čtení tabulky obsahující trénovací data.
Ověřte, že máte příslušná oprávnění k vytváření tabulek v prostředí Power Platform. Můžete použít integrovanou roli zabezpečení Úpravce systému nebo Správce systému.

Podporované jazyky

Klasifikace kategorií AI Builder podporuje následující jazyky. Pokud se pokusíte klasifikovat text v jiných jazycích, nemusí model správně fungovat.

Angličtina
Francouzština
Němčina
Italština
Španělština
Portugalština

Příprava dat

Tréninková data použitá k trénování modelu z tabulky Dataverse by měla vyhovovat následujícím požadavkům:

Text a značky jsou uloženy ve stejné tabulce jako dva sloupce. Každý řádek musí obsahovat data ve sloupci Text.
Do dat ve stejném řádku ve sloupci Text můžete zadat jednu nebo více značek. Sloupec Značky můžete také ponechat prázdný.

Pokud jste v textové ukázce identifikovali více značek, zadejte je jako oddělený text do polí Značky. V současné době jsou jako oddělovače podporovány čárky (,), středníky (;) a tabulátory.

Text	Štítky
Prostorná čistá a tichá místnost se snídaní dle vlastního výběru	Stolování, místnost
Malá, ale dobře koncipovaná pohodlná místnost	Místnost
Miluji výhled ze 13. patra	(žádné)

Pro každou značku, kterou chcete extrahovat, zajistěte minimálně 10 odlišných textových ukázek. Značky s méně než 10 ukázkami nebudou trénovány. V předchozím příkladu mělo být minimálně 10 řádků se značkami Stolování a Místnost.
Pokud byla značka Místnost u méně než 10 řádků, bude ignorována. Model nebude vycvičen pro kategorizaci dat pro tuto značku.
Pro každou použitou značku poskytněte minimálně 10 textových ukázek, kde nejsou žádné použity.

Text Štítky

Prostorná čistá a tichá místnost se snídaní dle vlastního výběru Místnost

Malá, ale dobře koncipovaná pohodlná místnost Místnost

(žádné) Místnost

Pokud jsou označeny všechny řádky v tabulce jako Místnost a neexistují žádné řádky – nebo méně než 10 řádků –, které byly označeny jinou značkou, model neprojde procesem trénování.
Tabulka musí obsahovat alespoň dvě značky a každá z nich musí mít 10 textových ukázek.
Můžete definovat až 200 různých značek. Každá značka je kategorie, která bude identifikována a extrahována z daného textu.
Každý vzorek textových dat musí mít méně než 5 000 znaků.

Text	Štítky
Prostorná čistá a tichá místnost se snídaní dle vlastního výběru	Místnost
Malá, ale dobře koncipovaná pohodlná místnost	Místnost
(žádné)	Místnost

Pokud nemáte trénovací data a chcete vyzkoušet klasifikaci kategorií AI Builder, můžete pomocí těchto pokynů použít ukázková data.

Příklady formátu trénovacích dat

Tato sekce poskytuje příklady formátu trénovacích dat v tabulce Dataverse.

Sloupce	Datový typ	Velikost
Komentáře	Text	3,000
Štítky	Text	100

Komentáře	Štítky
Během svého pobytu jsem byl úplně ignorován. Personál u mě nerozpoznal nastupující a aktivní IMC. Také jsem měl zápal plic.	Péče
Při každé návštěvě jsem byl rychle prohlédnut a veškerý personál, zdravotní sestra, lékař a anesteziolog byli velmi nápomocní. Zdá se, že tu dobře funguje týmová práce.	Personál, prohlídka
Vybavení vypadalo moderně. Sestra / zdravotnický asistent se docela starali.	Zařízení, personál

Poznámka:

Pokud nemáte vlastní tréninková data a chcete vyzkoušet klasifikaci kategorií AI Builder, začněte stažením vzorových dat pro model klasifikace kategorií. Další informace: Použití ukázkových dat pro klasifikaci kategorie

Import dat do Dataverse

Protože trénovací data pro model klasifikace kategorie musí být k dispozici jako tabulka Dataverse, začněme s přípravou dat v tabulce Dataverse.

Dataverse obsahuje výkonnou sadu konektorů, které vám pomůžou importovat z mnoha zdrojů. Více informací: Přidání dat do tabulky v Microsoft Dataverse pomocí Power Query.

Jako příklad zde uvádíme, jak importovat trénovací data z excelového sešitu. Tento příklad používá soubor obsahující to, co je uvedeno v následující tabulce.

Id	Štítky	Text
0	Stolování	Snídaně nebyla úplně bez problémů.
2	Stolování, místnost	Prostorná čistá a tichá místnost se snídaní dle vlastního výběru.
3	Pokoj, stolování, poloha	Personál, se kterým jsme se setkali, byl velmi přátelský a ochotný. Chodby a náš pokoj byly čisté a pohodlné. Snídaně (v ceně) byly muffiny a bagely.
4	Poloha, stolování	Okolí je plné barů a restaurací.
5	Service	Personál byl uctivý.

V tomto příkladu jsou značky odděleny čárkou (,). Alternativně můžete použít středník (;) nebo znak tabulátoru.

Přihlaste se ke službě Power Apps.
Vyberte prostředí, ve kterém chcete pracovat.
Vyberte Data>Tabulky.
Vyberte svou tabulku. Pokud tabulku ještě nemáte, postupujte podle pokynů v části Vytvoření vlastní tabulky.
Vyberte Data>Získat data>Získat data z Excelu z pásu vybrané tabulky.
Na obrazovce Import dat vyberte soubor aplikace Excel, který obsahuje data uvedená v sekci Příklady formátu trénovacích dat dříve v tomto tématu, a poté vyberte Nahrát.
Chcete-li zkontrolovat mapování polí na obrazovce Mapování sloupců pro kategorii Text, vyberte Mapovat sloupce.

Na levé straně jsou uvedeny všechny sloupce definované v tabulce. Rozevírací seznam vpravo zobrazuje sloupce dostupné v souboru aplikace Excel.

Mapujte sloupce Značky, Text a ID z Excelu do příslušných sloupců v tabulce.
Poté namapování sloupců přejděte zpět na krok importu výběrem možnosti Uložit změny v pravém horním rohu.
Poté, co uvidíte Stav mapování jako úspěšný, spusťte proces importu volbou Importovat v pravém horním rohu.
Proces importu může trvat několik minut v závislosti na objemu importovaných dat. Po několika minutách aktualizujte kartu Data v tabulce, čímž vyhledáte všechny záznamy importované ze souboru aplikace Excel.