Partilhar via


Tipos de explicação no Microsoft Syntex

Aplica-se a: ✓ Processamento de documentos não estruturados

As explicações são utilizadas para ajudar a definir as informações que pretende etiquetar e extrair nos modelos de processamento de documentos não estruturados no Microsoft Syntex. Quando cria uma explicação, tem de selecionar um tipo de explicação. Este artigo ajuda-o a compreender os diferentes tipos de explicação e como são utilizados.

Captura de ecrã a mostrar o painel Criar uma explicação com os três tipos de explicação.

Estes tipos de explicação estão disponíveis:

  • Lista de expressões: lista de palavras, expressões, números ou outros carateres que pode utilizar no documento ou informações que está a extrair. Por exemplo, o médico de referência da cadeia de texto está em todos os documentos de Referência Médica que está a identificar. Ou o número de telefone do médico referenciado de todos os documentos de Referência Médica que está a identificar.

  • Expressão regular: utiliza uma notação de correspondência de padrões para localizar padrões de carateres específicos. Por exemplo, pode utilizar uma expressão regular para encontrar todas as instâncias de um padrão de endereço de e-mail num conjunto de documentos.

  • Proximidade: descreve o quão próximas são as explicações entre si. Por exemplo, uma lista de expressões de número de rua é apresentada imediatamente antes da lista de expressões de nome de rua , sem tokens no meio (irá saber mais sobre tokens mais à frente neste artigo). Utilizar o tipo de proximidade requer que tenha, pelo menos, duas explicações no seu modelo ou a opção será desativada.

Lista de expressões

Normalmente, um tipo de explicação da lista de expressões é utilizado para identificar e classificar um documento através do modelo. Conforme descrito no exemplo de etiqueta de médico de referência, é uma cadeia de palavras, expressões, números ou carateres que está consistentemente nos documentos que está a identificar.

Embora não seja um requisito, pode alcançar um melhor sucesso com a sua explicação se a expressão que está a capturar estiver localizada numa localização consistente no seu documento. Por exemplo, a etiqueta do médico referenciado pode estar consistentemente localizada no primeiro parágrafo do documento. Também pode utilizar a definição Configurar onde as expressões ocorrem na definição avançada do documento para selecionar áreas específicas onde a expressão está localizada, especialmente se existir a possibilidade de a expressão ocorrer em várias localizações no seu documento.

Se a sensibilidade a maiúsculas e minúsculas for um requisito para identificar a etiqueta, utilizar o tipo de lista de expressões permite-lhe especificá-la na sua explicação ao selecionar a caixa de verificação Apenas maiúsculas e exatas maiúsculas .

Sensibilidade a maiúsculas e minúsculas.

Um tipo de expressão é especialmente útil quando cria uma explicação que identifica e extrai informações em diferentes formatos, como datas, números de telefone e números de cartão de crédito. Por exemplo, uma data pode ser apresentada em vários formatos diferentes (1/1/2020, 1-1-2020, 01/01/20, 01/01/2020 ou 1 de janeiro de 2020). Definir uma lista de expressões torna a sua explicação mais eficiente ao capturar eventuais variações nos dados que está a tentar identificar e extrair.

Para o exemplo de número de telefone , extrai o número de telefone de cada médico referenciado de todos os documentos de Referência Médica que o modelo identifica. Quando criar a explicação, escreva os diferentes formatos que um número de telefone pode apresentar no seu documento para que possa capturar possíveis variações.

Padrões de expressão de número de telefone.

Neste exemplo, em Definições Avançadas , selecione a caixa de verificação Qualquer dígito de 0 a 9 para reconhecer cada valor "0" utilizado na sua lista de expressões para ser qualquer dígito de 0 a 9.

Qualquer dígito de 0 a 9.

Da mesma forma, se criar uma lista de expressões que inclua carateres de texto, selecione a caixa de verificação Qualquer letra de a-z para reconhecer cada caráter "a" utilizado na lista de expressões para ser qualquer caráter de "a" a "z".

Por exemplo, se criar uma lista de Expressões de data e quiser certificar-se de que um formato de data como 1 de janeiro de 2020 é reconhecido, tem de:

  • Adicione aaaa 0, 0000 e aaaa 00 0000 à sua lista de expressões.
  • Certifique-se de que a opção Qualquer letra de a-z também está selecionada.

Qualquer carta de a-z.

Se tiver requisitos de uso de maiúsculas/minúsculas na sua lista de expressões, pode selecionar a caixa de verificação Apenas maiúsculas e exatas maiúsculas . Para o exemplo de data, se precisar que a primeira letra do mês seja em maiúscula, tem de:

  • Adicione Aaa 0, 0000 e Aaa 00,0000 à sua lista de expressões.
  • Certifique-se de que a opção Apenas maiúsculas e exatas maiúsculas também está selecionada.

Apenas maiúsculas e exatas maiúsculas.

Nota

Em vez de criar manualmente uma explicação da lista de expressões, utilize a biblioteca de explicações para utilizar modelos de lista de expressões para uma lista de expressões comum, como data, número de telefone ou número de cartão de crédito.

Expressão regular

Um tipo de explicação de expressão regular permite-lhe criar padrões que ajudam a localizar e identificar determinadas cadeias de texto em documentos. Pode utilizar expressões regulares para analisar rapidamente grandes quantidades de texto para:

  • Localizar padrões de carateres específicos.
  • Valide o texto para garantir que corresponde a um padrão predefinido (como um endereço de e-mail).
  • Extrair, editar, substituir ou eliminar subcadeias de texto.

Um tipo de expressão regular é especialmente útil quando cria uma explicação que identifica e extrai informações em formatos semelhantes, como endereços de e-mail, números de contas bancárias ou URLs. Por exemplo, um endereço de e-mail, como megan@contoso.com, é apresentado num determinado padrão ("megan" é a primeira parte e "com" é a última parte).

A expressão regular de um endereço de e-mail é: [A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[ A-Za-z]{2,6}.

Esta expressão consiste em cinco partes, por esta ordem:

  1. Qualquer quantidade dos seguintes carateres:

    a. Cartas de a a z

    b. Números de 0 a 9

    c. Ponto final, caráter de sublinhado, percentagem ou travessão

  2. O símbolo @

  3. Qualquer quantidade dos mesmos carateres que a primeira parte do endereço de e-mail

  4. Um período

  5. Duas a seis letras

Para adicionar um tipo de explicação de expressão regular:

  1. No painel Criar uma explicação , em Tipo de explicação, selecione Expressão regular.

    Captura de ecrã a mostrar o painel Criar uma explicação com a opção Expressão Regular selecionada.

  2. Pode escrever uma expressão na caixa de texto Expressão regular ou selecionar Adicionar uma expressão regular a partir de um modelo.

    Quando adiciona uma expressão regular através de um modelo, este adiciona automaticamente o nome e a expressão regular à caixa de texto. Por exemplo, se escolher o modelo de endereço Email, o painel Criar uma explicação será preenchido.

    Captura de ecrã a mostrar o painel Criar uma explicação com Email modelo de endereço aplicado.

Limitações

A tabela seguinte mostra opções de carateres inline que atualmente não estão disponíveis para utilização em padrões de expressão regulares.

Opção Estado Funcionalidade atual
Sensibilidade a maiúsculas e minúsculas Atualmente, não é suportado. Todas as correspondências efetuadas não são sensíveis a maiúsculas e minúsculas.
Âncoras de linha Atualmente, não é suportado. Não é possível especificar uma posição específica numa cadeia onde tem de ocorrer uma correspondência.

Proximidade

O tipo de explicação de proximidade ajuda o modelo a identificar dados ao definir a proximidade de outro conjunto de dados. Por exemplo, no seu modelo, diz que definiu duas explicações que etiquetam o número de endereço de rua do cliente e o número de telefone.

Repare que os números de telefone do cliente são sempre apresentados antes do número da rua.

Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034

Utilize a explicação de proximidade para definir a distância da explicação do número de telefone para identificar melhor o número de endereço de rua nos seus documentos.

Explicação da proximidade.

Nota

Atualmente, as expressões regulares não podem ser utilizadas com o tipo de explicação de proximidade.

O que são tokens?

Para utilizar o tipo de explicação de proximidade, tem de compreender o que é um token. O número de tokens é a forma como a explicação de proximidade mede a distância de uma explicação para outra. Um token é um intervalo contínuo (sem incluir espaços ou pontuação) de letras e números.

A tabela seguinte mostra exemplos de como determinar o número de tokens numa expressão.

Expressão Número de tokens Explicação
Dog 1 Uma única palavra sem pontuação ou espaços.
RMT33W 1 Um número de localizador de registos. Pode incluir números e letras, mas não tem pontuação.
425-555-5555 5 Um número de telefone. Cada marca de pontuação é um token único, assim como 425-555-5555 5 tokens:
425
-
555
-
5555
https://luis.ai 7 https
:
/
/
luis
.
ai

Configurar o tipo de explicação de proximidade

Por exemplo, configure a definição de proximidade para definir o intervalo do número de tokens na explicação do número de telefone a partir da explicação do número de endereço de rua . Repare que o intervalo mínimo é "0", porque não existem tokens entre o número de telefone e o número de rua.

No entanto, alguns números de telefone nos documentos de exemplo são acrescentados com (dispositivos móveis).

Nestor Wilke
111-111-1111 (móvel)
One Microsoft Way
Redmond, WA 98034

Existem três tokens no (mobile):

Expressão Contagem de tokens
( 1
dispositivos móveis 2
) 3

Configure a definição de proximidade para ter um intervalo de 0 a 3.

Exemplo de proximidade.

Configurar onde as expressões ocorrem no documento

Quando cria uma explicação, por predefinição, todo o documento é procurado pela expressão que está a tentar extrair. No entanto, pode utilizar a definição em que estas expressões ocorrem avançadas para ajudar a isolar uma localização específica no documento em que ocorre uma expressão. Esta definição é útil em situações em que instâncias semelhantes de uma expressão podem aparecer noutro local no documento e quer certificar-se de que a correta está selecionada.

Referindo-se ao nosso exemplo de documento de Referência Médica, o médico referenciado é sempre mencionado no primeiro parágrafo do documento. Com a definição Onde estas expressões ocorrem , neste exemplo, pode configurar a sua explicação para procurar esta etiqueta apenas na secção inicial do documento ou em qualquer outra localização na qual possa ocorrer.

Definição em que estas expressões ocorrem.

Pode escolher as seguintes opções para esta definição:

  • Em qualquer parte do ficheiro: todo o documento é procurado pela expressão.

  • Início do ficheiro: o documento é pesquisado desde o início até à localização da expressão.

    Início do ficheiro.

    No visualizador, pode ajustar manualmente a caixa de seleção para incluir a localização onde a fase ocorre. O valor Posição final será atualizado para mostrar o número de tokens que a área selecionada inclui. Também pode atualizar o valor da Posição de fim para ajustar a área selecionada.

    Início da caixa de posição do ficheiro.

  • Fim do ficheiro: o documento é pesquisado do fim para a localização da expressão.

    Fim do ficheiro.

    No visualizador, pode ajustar manualmente a caixa de seleção para incluir a localização onde a fase ocorre. O valor Posição inicial será atualizado para mostrar o número de tokens que a área selecionada inclui. Também pode atualizar o valor da Posição inicial para ajustar a área selecionada.

    Fim da caixa de fim do ficheiro.

  • Intervalo personalizado: o documento é procurado dentro de um intervalo especificado para a localização da expressão.

    Intervalo personalizado.

    No visualizador, pode ajustar manualmente a caixa de seleção para incluir a localização onde a fase ocorre. Para esta definição, tem de selecionar uma posição Iniciar e Terminar . Estes valores representam o número de tokens desde o início do documento. Embora possa introduzir manualmente estes valores, é mais fácil ajustar manualmente a caixa de seleção no visualizador.

Considerações ao configurar explicações

Ao preparar um classificador, existem alguns aspetos a ter em conta que produzirão resultados mais previsíveis:

  • Quanto mais documentos preparar, mais preciso será o classificador. Sempre que possível, utilize mais de 5 documentos válidos e utilize mais de 1 documento incorreto. Se as bibliotecas com que está a trabalhar tiverem vários tipos de documento diferentes, vários de cada tipo levam a resultados mais previsíveis.

  • A etiquetagem do documento desempenha um papel importante no processo de preparação. São utilizados juntamente com explicações para preparar o modelo. Poderá ver algumas anomalias ao preparar um classificador com documentos que não têm muitos conteúdos. A explicação pode não corresponder a nada no documento, mas uma vez que foi etiquetado como um documento "bom", poderá ser uma correspondência durante a preparação.

  • Ao criar explicações, utiliza a lógica OR em combinação com a etiqueta para determinar se é uma correspondência. A expressão regular que utiliza a lógica AND pode ser mais previsível. Eis uma expressão regular de exemplo para utilizar em documentos reais como formação. Tenha em atenção que o texto realçado a vermelho é a expressão que procura.

    (?=.*network provider)(?=.*participating providers).*
  • As etiquetas e as explicações funcionam em conjunto e são utilizadas na preparação do modelo. Não se trata de uma série de regras que podem ser desacopladas e de pesos precisos ou predição aplicadas a cada variável que tenha sido configurada. Quanto maior for a variação dos documentos utilizados na preparação, maior será a precisão no modelo.

Consulte também

Utilizar modelos de explicação no Microsoft Syntex