Partilhar via


Criar um extrator no Microsoft Syntex

Aplica-se a: ✓ Processamento de documentos não estruturados



Antes ou depois de criar um modelo de classificador para automatizar a identificação e classificação de tipos de documentos específicos, pode optar por adicionar extratores ao seu modelo para extrair informações específicas destes documentos. Por exemplo, poderá querer que o modelo identifique não só todos os documentos de Renovação do Contrato adicionados à sua biblioteca de documentos, mas também que apresente a data de Início do Serviço para cada documento como um valor de coluna na biblioteca de documentos.

Tem de criar um extrator para cada entidade no documento que pretende extrair. No nosso exemplo, queremos extrair a Data de Início do Serviço para cada documento de Renovação do Contrato identificado pelo modelo. Queremos poder ver uma vista na biblioteca de documentos de todos os documentos de Renovação do Contrato , com uma coluna que mostra o valor data de Início do Serviço de cada documento.

Nota

Para criar um extrator, utilize os mesmos ficheiros que carregou anteriormente para preparar o classificador.

Atribua um nome ao seu extrator

  1. Na home page do modelo, no mosaico Criar e preparar extratores , selecione Preparar extrator.

  2. No ecrã Novo extrator de entidades , escreva o nome do seu extrator no campo Novo nome do extrator . Por exemplo, atribua-lhe o nome Data de Início do Serviço se quiser extrair a data de início do serviço de cada documento de Renovação do Contrato. Também pode optar por reutilizar uma coluna criada anteriormente (por exemplo, uma coluna de metadados geridos).

    Por predefinição, o tipo de coluna é Uma linha de texto. Se quiser alterar o tipo de coluna, selecione Definições avançadas>Tipo de coluna e, em seguida, selecione o tipo que pretende utilizar.

    Captura de ecrã da parte Definições avançadas do painel Novo extrator de entidades a mostrar a opção Tipo de coluna.

    Nota

    Para extratores com o tipo de coluna Linha única de texto, o limite máximo de carateres é 255. Todos os carateres que selecionar que excedam o limite são truncados. Para selecionar mais de 255 carateres, selecione o tipo de coluna Múltiplas linhas de texto ao criar o extrator.

    Por predefinição, são criadas várias linhas de colunas de texto com um limite para a quantidade de texto que pode ser adicionada. Neste caso, o texto extraído pode aparecer truncado. Se isto ocorrer, a definição de coluna Permitir comprimento ilimitado nas bibliotecas de documentos pode ser utilizada para remover o limite.

  3. Quando terminar, selecione Criar.

Adicionar uma etiqueta

O passo seguinte é etiquetar a entidade que pretende extrair nos seus ficheiros de preparação de exemplo.

A criação do extrator abre a página do extrator. Aqui, verá uma lista dos seus ficheiros de exemplo, com o primeiro ficheiro na lista apresentado no visualizador.

  1. No visualizador, selecione os dados que pretende extrair dos ficheiros. Por exemplo, se quiser extrair a Data de Início do Serviço, realça o valor de data no primeiro ficheiro (segunda-feira, 14 de outubro de 2022). e, em seguida, selecione Guardar. Deverá ver o valor apresentado no ficheiro na lista Exemplos etiquetados, na coluna Etiqueta .

  2. Selecione Ficheiro seguinte para guardar automaticamente e abrir o ficheiro seguinte na lista no visualizador. Em alternativa, selecione Guardar e, em seguida, selecione outro ficheiro na lista Exemplos etiquetados .

  3. No visualizador, repita os passos 1 e 2 e, em seguida, repita até guardar a etiqueta nos cinco ficheiros.

    Definições avançadas.

Depois de etiquetar cinco ficheiros, é apresentada uma faixa de notificação a informá-lo de que pretende mudar para a formação. Pode optar por etiquetar mais documentos ou avançar para a formação.

Utilizar a funcionalidade Localizar para procurar o seu ficheiro

Pode utilizar a funcionalidade Localizar para procurar uma entidade no documento que pretende etiquetar.

Localizar no ficheiro.

A funcionalidade Localizar é útil se estiver a procurar um documento grande ou se existirem várias instâncias da entidade no documento. Se encontrar várias instâncias, pode selecionar a que precisa nos resultados da pesquisa para aceder a essa localização no visualizador para a etiquetar.

Adicionar uma explicação

Para o nosso exemplo, vamos criar uma explicação que fornece uma sugestão sobre o próprio formato da entidade e as variações que pode ter nos documentos de exemplo. Por exemplo, um valor de data pode estar em vários formatos diferentes, tais como:

  • 10/14/2022
  • 14 de outubro de 2022
  • Segunda, outubro 14, 2022

Para ajudar a identificar a Data de Início do Serviço, pode criar uma explicação de padrão.

  1. Na secção Explicação, selecione Novo e escreva um nome (por exemplo, Data).
  2. Em Tipo, selecione Lista de padrões.
  3. Para Valor, indique a variação de data tal como aparecem nos ficheiros de exemplo. Por exemplo, se tiver formatos de data que aparecem como 0/00/0000, introduza quaisquer variações que apareçam nos seus documentos, tais como:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Seleccione Guardar.

Nota

Para obter mais informações sobre os tipos de explicação, veja Tipos de explicação.

Utilizar a biblioteca de explicações

Para criar explicações para itens como datas, é mais fácil utilizar a biblioteca de explicações do que introduzir manualmente todas as variações. A biblioteca de explicações é um conjunto de explicações de expressões e padrões pré-criadas. A biblioteca tenta fornecer todos os formatos para listas de expressões ou padrões comuns, como datas, números de telefone, códigos postais e muitos outros.

Para o exemplo data de início do serviço , é mais eficiente utilizar a explicação pré-criada para Data na biblioteca de explicações:

  1. Na secção Explicação, selecione Novo e, em seguida, selecione Da biblioteca de explicações.

  2. Na biblioteca de explicações, selecione Data. Pode ver todas as variações de data reconhecidas.

  3. Selecione Adicionar.

    Biblioteca de explicações.

  4. Na página Criar uma explicação , as informações de Data da biblioteca de explicações preenchem automaticamente os campos. Seleccione Guardar.

    Data.

Preparar o modelo

Guardar a sua explicação inicia a preparação. Se o seu modelo tiver informações suficientes para extrair os dados dos seus ficheiros de exemplo etiquetados, verá cada ficheiro etiquetado com Correspondência.

Correspondência.

Se a explicação não tiver informações suficientes para localizar os dados que pretende extrair, cada ficheiro será etiquetado com Erro de Correspondência. Pode selecionar Ficheiros sem correspondência para ver mais informações sobre o motivo pelo qual ocorreu um erro de correspondência.

Adicionar outra explicação

Muitas vezes, o erro de correspondência é uma indicação de que a explicação que fornecemos não forneceu informações suficientes para extrair o valor da data de início do serviço para corresponder aos nossos ficheiros etiquetados. Poderá ter de editá-lo ou adicionar outra explicação.

Para o nosso exemplo, repare que a cadeia de texto Data de Início do Serviço de precede sempre o valor real. Para ajudar a identificar a Data de Início do Serviço, tem de criar uma explicação de expressão.

  1. Na secção Explicação, selecione Novo e, em seguida, escreva um nome (por exemplo, Cadeia de Prefixo).

  2. Para o Tipo, selecione Lista de expressões.

  3. Utilize a Data de Início do Serviço de como o valor.

  4. Seleccione Guardar.

    Cadeia de prefixo.

Preparar o modelo novamente

Guardar a explicação volta a iniciar a preparação, desta vez com ambas as explicações no exemplo. Se o modelo tiver informações suficientes para extrair os dados dos ficheiros de exemplo etiquetados, verá cada ficheiro etiquetado com Correspondência.

Se receber novamente um Erro de Correspondência nos ficheiros etiquetados, provavelmente terá de criar outra explicação para fornecer ao modelo mais informações para identificar o tipo de documento ou considerar fazer alterações aos existentes.

Testar o modelo

Se receber uma correspondência nos seus ficheiros de exemplo etiquetados, pode agora testar o modelo nos restantes ficheiros de exemplo não etiquetados. Este passo é opcional, mas útil para avaliar a "condição física" ou a preparação do modelo antes de o utilizar, ao testá-lo em ficheiros que o modelo nunca viu antes.

  1. Na home page do modelo, selecione o separador Testar . Esta ação irá executar o modelo nos seus ficheiros de exemplo sem etiqueta.

  2. Na lista Ficheiros de teste , os ficheiros de exemplo são apresentados para mostrar se o modelo consegue extrair as informações de que precisa. Utilize estas informações para ajudar a determinar a eficácia do classificador na identificação dos seus documentos.

    Teste os seus ficheiros.

Refinar ainda mais um extrator

Se tiver entidades duplicadas e quiser extrair apenas um valor ou um determinado número de valores, pode definir uma regra para especificar como pretende que seja processada. Para adicionar uma regra para refinar as informações extraídas, siga estes passos:

  1. Na home page do modelo, na secção Extratores de entidades , selecione o extrator que pretende refinar e, em seguida, selecione Refinar informações extraídas.

    Captura de ecrã da secção Extratores de entidades a mostrar a opção Refinar informações extraídas realçada.

  2. Na página Refinar informações extraídas, selecione uma das seguintes regras:

    • Manter um ou mais dos primeiros valores
    • Manter um ou mais dos últimos valores
    • Remover valores duplicados
    • Manter uma ou mais das primeiras linhas
    • Manter uma ou mais das últimas linhas

    Captura de ecrã a mostrar a página Refinar informações extraídas com as opções de regras.

  3. Introduza o número de linhas ou valores que pretende utilizar e, em seguida, selecione Refinar.

  4. Se quiser editar uma regra ao alterar o número de linhas ou valores, selecione o extrator que pretende editar, selecione Refinar informações extraídas, altere o número e, em seguida, selecione Guardar.

  5. Quando testar o extrator, poderá ver o refinamento na coluna Resultado do refinamento da lista Ficheiros de Teste .

    Lista Ficheiros de Teste a mostrar a coluna de resultados Refinamento.

  6. Se quiser eliminar uma regra de refinamento num extrator, selecione o extrator a partir do qual pretende remover a regra, selecione Refinar informações extraídas e, em seguida, selecione Eliminar.

Consulte também

Criar um classificador

Tipos de explicação

Tirar proveito da taxonomia do arquivo de termos ao criar um extrator

Modo de acessibilidade Syntex