Overzicht van ongestructureerde documentverwerking in Microsoft Syntex

Artikel
01/16/2024

Opmerking

Tot juni 2024 kunt u ongestructureerde documentverwerking en andere geselecteerde Syntex-services gratis uitproberen als u betalen per gebruik-facturering hebt ingesteld. Zie Microsoft Syntex uitproberen en de services ervan verkennen voor informatie en beperkingen.

Gebruik het niet-gestructureerde documentverwerkingsmodel (lesmethode) om bestanden automatisch te classificeren en informatie te extraheren. Het werkt het beste voor ongestructureerde documenten, zoals brieven of contracten.

Opmerking

Microsoft respecteert de privacy en het eigendom van gegevens die u gebruikt voor het trainen en verwerken van modellen in Syntex. Geen van de gegevens van uw organisatie wordt door Microsoft gebruikt of overgedragen om AI-modellen, grote taalmodellen of andere modellen te trainen. Uw gegevens blijven veilig binnen de tenant van uw organisatie. Zie Gegevensbescherming en privacy van Microsoft voor meer informatie.

Inleiding tot ongestructureerde modellen

Het ongestructureerde documentverwerkingsmodel (voorheen bekend als document understanding model) maakt gebruik van kunstmatige intelligentie (AI) om documenten te verwerken. Deze documenten moeten tekst bevatten die kan worden geïdentificeerd op basis van frasen of patronen. De geïdentificeerde tekst duidt aan wat het bestandstype is (de classificatie) en wat u eruit wilt halen (de extractoren).

Opmerking

Zie Aan de slag met de acceptatie van Microsoft Syntex en scenario's en use cases voor Microsoft Syntex voor meer informatie over het gebruik van Syntex en scenariovoorbeelden.

Niet-gestructureerde documentverwerkingsmodellen worden gemaakt en beheerd in een type SharePoint-site dat een inhoudscentrum wordt genoemd. Wanneer het model wordt toegepast op een SharePoint-documentbibliotheek, wordt het gekoppeld aan een inhoudstype dat kolommen bevat waarin de geëxtraheerde informatie wordt opgeslagen. De inhoud die u maakt, wordt opgeslagen in de SharePoint-inhoudstypegalerie. U kunt er ook voor kiezen om het schema van bestaande inhoudstypen te gebruiken.

Opmerking

Alleen-lezen of verzegelde inhoudstypen kunnen niet worden bijgewerkt, dus ze kunnen niet worden gebruikt in een model.

Voeg classificaties en extractoren toe aan uw ongestructureerde documentverwerkingsmodellen om de volgende acties uit te voeren:

Classificaties worden gebruikt om documenten die worden geüpload naar de documentbibliotheek te identificeren en classificeren. Een classificatie kan bijvoorbeeld worden ‘getraind’ om alle documenten met contractverlengingen te identificeren die naar de bibliotheek worden geüpload. Het inhoudstype contractverlenging wordt door u gedefinieerd wanneer u de classificatie maakt.
Extractoren halen informatie uit deze documenten. Voor elk contractverlengingsdocument dat in uw documentbibliotheek wordt geïdentificeerd, worden bijvoorbeeld kolommen weergegeven met de begindatum van de service en de client voor elk document.

U kunt voorbeeldbestanden gebruiken om de classificaties en extractoren in uw model te trainen en te testen. Voorbeeldbestanden voorzien uw model van voorbeelden van waar ze naar moeten zoeken bij het identificeren en extraheren van gegevens uit bestanden. U kunt bijvoorbeeld uw contractverlengingsclassificaties en -extractoren trainen met voorbeelden van contractverlengingsdocumenten waar uw bedrijf mee werkt. U kunt voorbeeldbestanden ook gebruiken om de effectiviteit van uw model te testen.

Nadat u uw model hebt gepubliceerd, gebruikt u het inhoudscentrum om het toe te passen op een SharePoint-documentbibliotheek waartoe u toegang hebt.

Vereisten en beperkingen

Zie Vereisten en beperkingen voor modellen in Microsoft Syntex voor meer informatie over vereisten die u moet overwegen bij het kiezen van dit model.

Overzicht van ongestructureerde documentverwerking in Microsoft Syntex

Inleiding tot ongestructureerde modellen

Vereisten en beperkingen

Feedback

Feedback

Aanvullende resources