Perguntas frequentes sobre a IA do Azure para Informação de Documentos

Este conteúdo se aplica a:marca de seleçãov4.0 (versão prévia)marca de seleçãov3.1 (GA)marca de seleçãov3.0 (GA)marca de seleçãov2.1 (GA)

Conceitos gerais

O que é IA do Azure para Informação de Documentos e o que aconteceu com o Reconhecimento de Formulários do Azure?

IA do Azure para Informação de Documentos é um serviço baseado em nuvem que utiliza modelos de aprendizagem automática para extrair pares chave-valor, texto e tabelas dos documentos. O resultado retornado é uma saída JSON estruturada. Os casos de uso da Informação de Documentos incluem processamento de dados automatizado, estratégias controladas por dados aprimoradas e funcionalidades de pesquisa de documentos enriquecidas.

O serviço de Informação de Documentos faz parte dos serviços de IA do Azure. A partir de julho de 2023, os serviços de IA do Azure passaram a abranger tudo o que antes era conhecido como Serviços Cognitivos do Azure e Serviços de IA Aplicada do Azure.

O nome anterior do serviço de Informação de Documentos era Reconhecimento de Formulários do Azure. O Reconhecimento de Formulários do Azure tornou-se oficialmente Informação de Documentos em julho de 2023.

Não houve alterações nos preços. Os nomes Serviços Cognitivos e Serviços de IA Aplicada continuam sendo utilizados nas APIs de preço, listas de preços, análises de custo e cobranças do Azure.

Não há alterações interruptivas em APIs ou bibliotecas de clientes (SDKs). As APIs REST e as versões do SDK 2024-02-29-preview, 2023-10-31-preview e posteriores foram renomeadas como document intelligence.

Algumas plataformas ainda estão aguardando a atualização de renomeação. Na documentação da Microsoft, todas as menções ao Reconhecimento de Formulários e à Informação de Documentos referem-se ao mesmo serviço do Azure.

Como a Informação de Documentos está relacionado à IA generativa de documentos?

É possível usar uma solução de IA generativa de documentos para conversar com os documentos, gerar conteúdos interessantes a partir desses documentos e acessar os modelos do Serviço OpenAI do Azure nos dados. Com a IA do Azure para Informação de Documentos e o OpenAI do Azure combinados, você pode criar um aplicativo empresarial para interagir perfeitamente com os documentos usando linguagens naturais, encontrar respostas facilmente, obter insights valiosos e gerar conteúdos novos e envolventes a partir dos documentos existentes. Encontre mais detalhes no blog da comunidade técnica.

Como a Informação de Documentos está relacionada à RAG (geração aumentada de recuperação)?

A segmentação semântica é uma etapa fundamental na RAG (geração aumentada de recuperação) para garantir armazenamento e recuperação eficientes. O Modelo de layout da Informação de Documentos oferece uma solução abrangente para recursos avançados de extração de conteúdo e análise de estrutura de documentos.

Com o modelo de layout, você poderá extrair facilmente texto e elementos estruturais para dividir grandes corpos de texto em partes menores e significativas com base no conteúdo semântico, em vez de divisões arbitrárias. Em seguida, você poderá enviar as informações extraídas para o formato Markdown e poder definir a estratégia de segmentação semântica com base nos blocos de construção fornecidos. Encontre mais detalhes na visão geral da RAG em Informação de Documentos.

Quais casos de uso da Informação de Documentos exigem uma consideração especial?

Considere especialmente os projetos de processamento de documentos que incluam dados financeiros, dados de saúde protegidos, dados pessoais ou dados altamente confidenciais.

É necessário estar em conformidade com todos os requisitos nacionais/regionais e específicos do setor.

Quais idiomas dão suporte ao Informação de Documentos?

Os modelos universais baseados em aprendizado profundo na Informação de Documentos dá suporte a vários idiomas que podem extrair texto multilíngue de imagens e documentos, incluindo linhas de texto com idiomas mistos.

Os idiomas compatíveis variam de acordo com a funcionalidade do serviço de Informação de Documentos. Para obter uma lista completa de manuscritos e textos impressos com suporte na Informação de Documentos, consulte Suporte a idiomas.

A Informação de Documentos está disponível na minha região do Azure?

A Informação de Documentos geralmente está disponível em muitas das mais de 60 regiões de infraestrutura global do Azure.

Escolha a região mais adequada para você e seus clientes.

A Informação de Documentos integra-se a outros serviços Microsoft?

Sim, a Informação de Documentos está integrada aos seguintes serviços:

Como a Informação de Documentos está relacionada ao reconhecimento óptico de caracteres?

A Informação de Documentos é um serviço baseado em nuvem que incorpora OCR (reconhecimento óptico de caracteres), análise de textos e classificação de textos personalizada dos serviços de IA do Azure.

A Informação de Documentos usa o OCR para detectar e extrair informações de documentos tipográficos e textos manuscritos com suporte de IA para fornecer mais estrutura e informações à extração do texto.

Por quanto tempo meu modelo personalizado estará disponível para uso?

Um modelo tem o mesmo ciclo de vida que a versão da API usada para treiná-lo. Modelos personalizados treinados com uma versão de GA (disponibilidade geral) da API têm o mesmo ciclo de vida da versão da API. Quando a versão da API for preterida, o modelo não estará mais disponível para inferência. Modelos treinados com uma versão prévia da API também têm o mesmo ciclo de vida da API de visualização.

Espere a descontinuação da API de visualização dentro de três meses após uma versão atualizada da API de visualização ou uma versão da API de GA mais recente.

Qual é a pontuação de precisão e como é calculada?

A saída de uma operação de modelo personalizado build (v 3.0 e versões posteriores) ou train (v 2.1) inclui a pontuação de precisão estimada. Essa Pontuação representa a capacidade do modelo de prever com precisão o valor rotulado em um documento visualmente semelhante.

A precisão é medida dentro de um intervalo de valores percentuais de 0% (baixa) a 100% (alta).

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Como posso melhorar as pontuações de precisão?

Variações na estrutura visual dos seus documentos podem influenciar a precisão de um modelo. Veja algumas dicas:

  • Inclua todas as variações de um documento no conjunto de dados de treinamento. As variações incluem formatos diferentes; por exemplo, PDFs digitais versus PDFs digitalizados.

  • Separe tipos de documento visualmente distintos e treine modelos diferentes.

  • Verifique se você não tem rótulos estranhos.

  • Para rotular assinatura e região, não inclua o texto ao redor.

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Qual é a pontuação de confiança e com é calculada?

Uma pontuação de confiança indica a probabilidade, medindo o grau de certeza estatística de que o resultado extraído é detectado corretamente.

O intervalo de valores de confiança é uma porcentagem de 0% (baixo) a 100% (alto). É melhor ter como objetivo uma pontuação de 80% ou mais. Para casos mais confidenciais, como registros financeiros ou médicos, é recomendável uma pontuação próxima de 100%. Você também pode exigir uma revisão humana.

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Como posso melhorar as pontuações de confiança?

Após uma operação de análise, examine a saída JSON. Examine os valores de confidence para cada resultado de chave-valor no nó pageResults. Você também deve examinar a pontuação de confiança no nó readResults, que corresponde à operação de leitura de texto. A confiança dos resultados de leitura não afeta a confiança dos resultados de extração de chave-valor, portanto, você deve verificar ambos. Veja algumas dicas:

  • Se a pontuação de confiança do objeto readResults for baixa, melhore a qualidade dos documentos de entrada.

  • Se a pontuação de confiança do objeto pageResults for baixa, verifique se os documentos que você está analisando são do mesmo tipo.

  • Considere a incorporação de análise humana em seus fluxos de trabalho.

  • Use formulários que tenham valores diferentes em cada campo.

  • Para modelos personalizados, use um conjunto maior de documentos de treinamento. A marcação de mais documentos ensina seu modelo a reconhecer campos com maior precisão.

Para obter mais informações, consulte Pontuações de precisão e de confiança.

O que é uma caixa delimitadora?

Uma caixa delimitadora (polygon na v3.0 e versões posteriores) é um retângulo abstrato que circunda elementos de texto em um documento ou formulário. Ele é usado como um ponto de referência para detecção de objetos.

A caixa delimitadora especifica a posição utilizando um plano de coordenadas x e y apresentado em uma matriz de quatro pares numéricos. Cada par representa um canto da caixa na seguinte ordem: superior esquerdo, superior direito, inferior direito, inferior esquerdo.

Para uma imagem, as coordenadas são em pixels. Para um PDF, as coordenadas são em polegadas.

A Informação de Documentos pode me ajudar a classificar documentos?

A Informação de Documentos fornece modelos de classificação personalizados que podem analisar documentos de arquivo único ou arquivos múltiplos para identificar se um arquivo de entrada contém algum dos tipos de documentos treinados. O serviço dá suporte aos seguintes cenários:

  • Um arquivo único contendo um tipo de documento como, por exemplo, um formulário de solicitação de empréstimo.

  • Um arquivo único contendo vários documentos. Um exemplo é um pacote de solicitação de empréstimo contendo um formulário de solicitação de empréstimo, um contracheque e extrato bancário.

  • Um arquivo único contendo várias instâncias do mesmo documento. Um exemplo é uma coleção de faturas digitalizadas.

Para obter mais informações, consulte a visão geral dos modelos de classificação personalizada.

Desenvolvimento de aplicativos

Quais são as opções de desenvolvimento da Informação de Documentos?

a Informação de Documentos oferece as opções de desenvolvimento mais recentes nas seguintes plataformas:

Onde posso encontrar a versão de API compatível para os SDKs da linguagem de programação mais recentes?

Esta tabela fornece links para as versões mais recentes do SDK e mostra a relação entre o SDK de Informação de Documentos com suporte e as versões de API:

Referência de SDK do Azure de idioma com suporte Versões de API com suporte
• C#/.NET: 4.0.0

• Java: 4.0.0

• JavaScript: 4.0.0

• Python 3.2.0
31-10-2023-versão prévia
v3.0
v2.1
v2.0

Para obter mais informações, consulte Clientes com suporte para v4.0 e Clientes com suporte para v3.1..

Qual é a diferença entre a Informação de Documentos v3.0 e v2.1 e como migrar para a versão mais recente?

Para melhorar a usabilidade, a Informação de Documentos v3.0 apresenta uma biblioteca de clientes totalmente reprojetada. Para usar com êxito os recursos mais recentes da API da Informação de Documentos, será necessário ter o SDK mais recente e o código do aplicativo atualizado para usar os novos clientes.

Essa tabela fornece links para instruções detalhadas para migrar para a versão mais recente da Informação de Documentos:

API/Idioma Guia de migração
API REST v3
C# / .NET 4.0.0
Java 4.0.0
JavaScript 4.0.0
Python 3.2.0

Quais formatos de arquivo são compatíveis com a Informação de Documentos? Há limitações de tamanho para documentos de entrada?

Para obter os melhores resultados, consulte os requisitos de entrada.

Como especificar um intervalo de páginas a serem analisadas em um documento?

Use o parâmetro pages (com suporte na v2.1, v3.0 e versões posteriores da API REST) para especificar páginas para documentos PDF e TIFF de várias páginas. A entrada aceita inclui os seguintes intervalos:

  • Páginas únicas. Por exemplo, se você especificar 1, 2 serão processadas as páginas 1 e 2.
  • Intervalos finitos. Por exemplo, se você especificar 2-5 serão processadas as páginas de 2 a 5.
  • Intervalos em aberto. Por exemplo, se você especificar 5- serão processadas todas as páginas da página 5. Se você especificar -10 serão processadas as páginas de 1 a 10.

Você pode combinar esses parâmetros e os intervalos podem se sobrepor. Por exemplo, se você especificar -5, 1, 3, 5-10 serão processadas as páginas de 1 a 10.

O serviço aceita a solicitação se puder processar pelo menos uma página do documento. Por exemplo, usar 5-100 em um documento de cinco páginas é uma entrada válida e significa que a página 5 foi processada.

Se você não fornecer um intervalo de páginas, todo o documento será processado.

A Informação de Documentos e a Ferramenta de rotulagem de exemplo FOTT estão disponíveis. Qual deles devo usar?

Na maioria das vezes, é recomendável o Estúdio da Informação de Documentos porque pode reduzir o tempo de configuração de recursos e os serviços de armazenamento da Informação de Documentos.

Considere usar FOTT (Ferramenta de Teste de OCR de Formulário) para os seguintes cenários:

Preços e limites de serviço

Como o Azure calcula o preço do uso da Informação de Documentos?

A cobrança da Informação de Documentos é calculada mensalmente com base no tipo de modelo e na quantidade de páginas analisadas. Aqui estão alguns detalhes:

  • Quando você envia um documento para análise, o serviço analisa todas as páginas, a menos que você especifique um intervalo de páginas usando o parâmetro pages na solicitação. Quando o serviço analisa os documentos do Microsoft Excel e do PowerPoint por meio do modelo de leitura, OCR ou layout, ele conta cada planilha do Excel e slide do PowerPoint como uma página.

  • Quando o serviço analisa os arquivos PDF e TIFF, ele conta cada página do arquivo PDF ou cada imagem do arquivo TIFF como uma página sem limite máximo de caracteres.

  • Quando o serviço analisa arquivos do Microsoft Word e HTML com suporte dos modelos de leitura e layout, ele conta as páginas em blocos de 3.000 caracteres cada. Por exemplo, se o documento contém 7.000 caracteres, as duas páginas com 3.000 caracteres cada e uma página com 1.000 caracteres somam um total de três páginas.

  • Quando você usa o modelo de leitura ou layout para analisar arquivos do Microsoft Word, Excel, PowerPoint e HTML, não há suporte para imagens inseridas ou vinculadas. Portanto, o serviço não conta essas imagens como imagens adicionadas.

  • O treinamento de um modelo personalizado é sempre gratuito com a Informação de Documentos. Você será cobrado somente quando o serviço usar um modelo para analisar um documento.

  • O preço do contêiner é o mesmo que o preço do serviço de nuvem.

  • A Informação de Documentos oferece um nível gratuito (F0) em que é possível testar todos os recursos do serviço.

  • A Informação de Documentos tem um modelo de preços baseado em compromisso para cargas de trabalho grandes.

Saiba mais sobre as opções de preços da IA do Azure para Informação de Documentos.

Como posso verificar meu uso da Informação de Documentos e estimar o preço?

Você pode localizar as métricas de uso no painel de métricas no portal do Azure. O painel exibe o número de páginas que a IA do Azure para Informação de Documentos processa. É possível verificar o custo estimado gasto no recurso usando a calculadora de preços do Azure. Para obter instruções detalhadas, consulte Verificar o uso e estimar o custo.

Quais são as melhores práticas para mitigar a limitação?

A Informação de Documentos usa dimensionamento automático para fornecer os recursos computacionais necessários sob demanda, mantendo os custos dos clientes baixos. Para reduzir a suspensão durante o dimensionamento automático, recomendamos a seguinte abordagem:

  • Implemente a lógica de repetição no seu aplicativo.

  • Se você achar o número de solicitações POST está restrito, adicione um atraso entre as solicitações.

  • Aumente a carga de trabalho gradualmente. Evite alterações significativas.

  • Criar uma solicitação de suporte para aumentar o limite de TPS (transações por segundo).

Saiba mais sobre as cotas e os limites de serviço da Informação de Documentos.

Quanto tempo demora para analisar um documento?

O tempo para analisar um documento depende do tamanho (por exemplo, o número de páginas) e do conteúdo associado em cada página.

A Informação de Documentos é um serviço multilocatário em que a latência para documentos semelhantes é comparável, mas nem sempre idêntica. A latência é a quantidade de tempo que leva para um servidor de API manipular e processar uma solicitação de entrada e fornecer a resposta de saída para o cliente. A variabilidade ocasional em latência e desempenho é inerente em qualquer serviço assíncrono baseado em microsserviço, sem estado, que processa imagens e documentos grandes em escala.

Embora ocorra continuamente a colocação em escala do hardware, a capacidade e os recursos de dimensionamento, você ainda poderá ter problemas de latência em runtime.

Modelos personalizados

Como fazer para reunir os melhores dados de treinamento?

Ao usar o modelo personalizado da Informação de Documentos, você fornece seus próprios dados de treinamento. Aqui estão algumas dicas para ajudar a treinar seus modelos com eficiência:

  • Use PDFs em texto em vez de PDFs em imagem quando possível. Você pode identificar um PDF em imagem ao tentar selecionar um texto específico no documento. Se você puder selecionar apenas a imagem inteira do texto, o documento será baseado em imagem e não em texto.

  • Organize seus documentos de treinamento usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).

  • Use formulários que tenham todos os campos disponíveis preenchidos.

  • Use formulários com valores diferentes em cada campo.

  • Se as imagens forem de baixa qualidade, use um conjunto de dados maior (mais de cinco documentos de treinamento).

Saiba mais sobre como compilar um conjunto de dados de treinamento.

Quais são as melhores práticas para treinar um modelo personalizado altamente preciso?

O nível de precisão do modelo depende da qualidade dos materiais de treinamento. Veja algumas dicas:

  • Determine se você precisa usar um único modelo ou vários modelos compostos em um único modelo.

  • A precisão do modelo pode diminuir quando você tem formatos diferentes analisados com um único modelo. Planeje segmentar o conjunto de seus conjuntos de dados em pastas, em que cada pasta é um modelo exclusivo. Treine um modelo por pasta e componha os modelos resultantes em um único ponto de extremidade.

  • Formulários personalizados dependem de um modelo visual consistente. Se o formulário tiver variações com formatos e quebras de página, considere segmentar seu conjuntos de dados para treinar vários modelos.

  • Verifique se você tem um conjunto de dados equilibrado, considerando os formatos, os tipos de documentos e a estrutura.

Saiba mais sobre modelos compostos.

Posso treinar um modelo personalizado?

A Informação de Documentos não tem uma operação explícita de retreinamento. Cada operação de treinamento gera um novo modelo.

Se você achar que o modelo precisa de novo treinamento, adicione mais amostras ao conjunto de dados de treinamento e treine um novo modelo.

Quantos modelos personalizados posso compor em um único modelo personalizado?

Com a operação do Model Compose, você pode atribuir até 200 modelos para uma única ID de modelo. Quando você faz a solicitação de Analyze Document com uma ID de modelo composto, a Informação de Documentos classifica o formulário enviado, escolhe o melhor modelo e retorna os resultados. O Model Compose está disponível atualmente apenas para modelos personalizados treinados com rótulos.

Analisar um documento usando modelos compostos é idêntico a analisar um documento usando um modelo único. O resultado Analyze Document retorna uma propriedade docType que indica os modelos de componentes que você selecionou para analisar o documento. Não há alteração no preço da análise de um documento usando um modelo personalizado individual ou um modelo personalizado composto.

Saiba mais sobre modelos compostos.

Se a quantidade de modelos que desejo compor ultrapassar o limite superior de um modelo composto, quais serão as alternativas?

Você poderá usar uma destas alternativas:

Como fazer para refinar um modelo além do treinamento inicial?

Cada operação de treinamento gera um novo modelo.

  1. Crie um conjunto de dados para seu novo modelo.

  2. Rotular e treinar um novo modelo.

  3. Confirme se o novo modelo tem um bom desempenho para seus tipos de documento específicos.

  4. Componha seu novo modelo com o modelo existente em um único ponto de extremidade. A Informação de Documentos pode determinar o melhor modelo para cada documento a ser analisado.

Saiba mais sobre modelos compostos.

Estou compilando um modelo personalizado. O que o rótulo de detecção de assinatura retorna?

A detecção de assinatura procura a presença de uma assinatura, não a identidade da pessoa que assina o documento.

Se o modelo retornar não assinado em detecção de assinatura, o modelo não encontrou uma assinatura no campo definido.

O que devo considerar e quais são as melhores práticas para extrair as tabelas de documentos?

Você pode começar com o modelo de layout da Informação de Documentos para extrair textos, tabelas, marcas de seleção e informações de estrutura de documentos e imagens. Em geral, considere os seguintes fatores:

  • Os dados que você deseja extrair são apresentados como uma tabela e a estrutura da tabela é significativa?

  • Se os dados não estiverem em formato de tabela, poderão caber em uma grade bidimensional?

  • Suas tabelas abrangem várias páginas? Nesse caso, para evitar rotular todas as páginas, divida o PDF em páginas antes de enviá-lo para a Informação de Documentos. Após a análise, faça o pós-processamento das páginas em uma tabela única.

  • Se você estiver criando modelos personalizados, consulte Rotulagem como tabelas. As tabelas dinâmicas possuem um número variável de linhas para cada coluna. As tabelas fixas possuem um número constante de linhas para cada coluna.

Como posso mover meus modelos treinados de um ambiente (como beta) para outro (como produção)?

Você pode usar a API de Cópia para copiar os modelos personalizados de uma conta da Informação de Documentos para outras existentes em qualquer região geográfica com suporte. Para obter instruções detalhadas, consulte Recuperação de desastre.

A operação de cópia está limitada à cópia de modelos dentro do ambiente de nuvem específico onde você treinou o modelo. Por exemplo, não há suporte para copiar modelos da nuvem pública para a nuvem do Azure Governamental.

Por que fui cobrado pelo layout ao executar o treinamento personalizado?

O layout é necessário para gerar rótulos para o conjunto de dados. Se o conjunto de dados utilizado para o treinamento personalizado não tiver arquivos de rótulos disponíveis, o serviço os gerará para você.

Conta de armazenamento

Consegui acessar minha conta de armazenamento há alguns dias. Por que agora estou tendo problemas para reconectar?

Ao criar uma assinatura de acesso compartilhado, a duração padrão é de 48 horas. Após 48 horas, será necessário criar um novo token.

Defina um período de duração mais longo para o tempo que você estiver usando a conta de armazenamento com a Informação de Documentos.

Se a minha conta de armazenamento estiver protegida por uma rede virtual ou firewall, como conceder o acesso aos dados para a Informação de Documentos?

Se você tiver uma conta de armazenamento do Azure protegida por uma rede virtual ou firewall, a Informação de Documentos não poderá acessar diretamente sua conta de armazenamento. No entanto, o acesso e a autenticação da conta de armazenamento privado do Azure dá suporte a identidades gerenciadas para recursos do Azure. Quando você usa uma identidade gerenciada, o serviço de Informação de Documentos poderá acessar a conta de armazenamento utilizando uma credencial atribuída.

Se você pretende analisar os dados da conta de armazenamento privado utilizando FOTT, será necessário implementar a ferramenta atrás da rede virtual ou do firewall.

Saiba como criar e usar a identidade gerenciada no recurso da Informação de Documentos.

Estúdio de Informação de Documentos

De quais permissões preciso para acessar o Estúdio da Informação de Documentos?

É necessário ter uma conta do Azure ativa e uma assinatura com pelo menos uma função de Leitor para acessar o Estúdio da Informação de Documentos.

Para análise de documentos e modelos predefinidos, aqui estão os requisitos de função para cenários de usuário:

  • Basic

  • Avançado

    • Colaborador: é necessário ter essa função para criar um grupo de recursos ou um recurso da Informação de Documentos. A função Colaborador não permite que você liste as chaves para os Serviços Cognitivos. Para usar o Estúdio da Informação de Documentos, também será necessário ter a função de Usuário dos Serviços Cognitivos.

Para projetos de modelo personalizados, aqui estão os requisitos de função para cenários de usuário:

  • Basic

    • Usuário de Serviços Cognitivos: é necessário ter essa função para um recurso de Informação de Documentos ou Serviços Cognitivos de múltiplos serviços para treinar um modelo personalizado ou analisar com modelos treinados.

    • Colaborador de Dados de Armazenamento de Blobs: é necessário ter essa função para uma conta de armazenamento criar dados de projeto e rótulo.

  • Avançado

    • Colaborador de Conta de Armazenamento: é necessário ter essa função para que a conta de armazenamento defina as configurações de CORS (compartilhamento de recursos entre origens). É um esforço único se você reutilizar a mesma conta de armazenamento.

      A função Colaborador não permite que você acesse os dados no blob. Para usar o Estúdio da Informação de Documentos, também será necessário ter a função de Colaborador de Dados de Armazenamento de Blobs.

    • Colaborador: você precisa dessa função para criar recursos e um grupo de recursos. A função Colaborador não fornece acesso para usar os recursos ou os armazenamento criados. Para usar o Estúdio da Informação de Documentos, também será necessário ter as funções básicas.

Para obter mais informações, consulte Funções internas do Microsoft Entra e as seções sobre as atribuições de função no Início rápido do estúdio da Informação de Documentos.

Eu tenho várias páginas em um documento. Por que somente duas páginas são analisadas no Estúdio da Informação de Documentos?

Para recursos de camada gratuita (F0), se você estiver usando o estúdio da Informação de Documentos, a API REST os SDKs serão analisadas somente as duas primeiras páginas.

No Estúdio da Informação de Documentos, selecione o botão Configurações (engrenagem), selecione a guia Recursos e verifique a camada de preço que você está usando para analisar os documentos. Se você quiser analisar todas as páginas de um documento, altere para um recurso pago (S0).

Como posso alterar os diretórios ou as assinaturas no Estúdio da Informação de Documentos?

Para alterar um diretório no Estúdio da Informação de Documentos, selecione o botão Configurações (engrenagem). Em Diretório, selecione o diretório na lista e, em seguida, selecione Alternar Diretório. Após alterar o diretório, será solicitado que você entre novamente.

Para alterar uma assinatura ou um recurso, vá para a guia Recursos em Configurações.

Por que estou recebendo um erro de armazenamento em um compartilhamento de projeto, rotulagem automática ou operação de atualização de OCR quando meu recurso de conta de armazenamento está configurado com um firewall ou uma rede virtual?

Consulte Identidades gerenciadas para Informação de Documentos para configurar seus recursos do Azure.

Por que estou recebendo o erro "Acesso negado devido a regras de rede virtual/firewall" em uma rotulagem automática ou operação de atualização de OCR quando meu recurso de Informação de Documentos está configurado com um firewall ou uma rede virtual?

É necessário adicionar o endereço IP dedicado 20.3.165.95 à lista de permissões de firewall para o recurso de Informação de Documentos.

Posso reutilizar ou personalizar a experiência de rotulagem do Estúdio da Informação de Documentos e incorporá-la em meu próprio aplicativo?

Sim. A experiência de rotulagem do Estúdio da Informação de Documentos é de código aberto no repositório Toolkit.

Por que estou recebendo o erro "Reconhecimento de Formulários Não Encontrado" ao abrir meu projeto personalizado?

O recurso Informação de Documentos está associado a esse projeto personalizado foi eliminado ou movido para outro grupo de recursos. Há duas maneiras de resolver esse problema:

  • Crie novamente o recurso de Informação de Documentos na mesma assinatura e grupo de recursos com o mesmo nome.

  • Recrie um projeto personalizado com o recurso migrado da Informação de Documentos e especifique a mesma conta de armazenamento.

Contêineres

Preciso de uma conexão com a Internet para usar contêineres da Informação de Documentos?

Sim. Os contêineres da Informação de Documentos exigem conectividade com a Internet para enviar as informações de cobrança para o Azure. Saiba mais sobre a Segurança de contêiner do Azure.

Qual é a diferença entre contêineres desconectados e conectados?

Os contêineres conectados enviam as informações de cobrança para o Azure utilizando um recurso de Informação de Documentos na conta do Azure. Com os contêineres conectados, a conectividade com a Internet é necessária para enviar informações de cobrança para o Azure.

Os contêineres desconectados permitem que você use APIs desconectadas da Internet. As informações de cobrança não são enviadas pela Internet. Em vez disso, você é cobrado com base em uma camada de compromisso adquirida. Atualmente, o uso de contêiner desconectado está disponível para modelos personalizados e de fatura da Informação de Documentos.

Os recursos do modelo fornecidos em contêineres conectados e desconectados são os mesmos e têm suporte da Informação de Documentos v2.1.

Quais dados os contêineres conectados enviam para a nuvem?

Os contêineres conectados da Informação de Documentos enviam informações de cobrança para o Azure usando um recurso da Informação de Documentos em sua conta do Azure. Os contêineres conectados não enviam dados do cliente, como imagem ou texto que está sendo analisado, para a Microsoft.

Para obter um exemplo das informações que os contêineres conectados enviam à Microsoft para cobrança, consulte as Perguntas frequentes sobre os contêineres de IA do Azure.

Por que estou recebendo o erro "O contêiner não está em um estado válido. Falha na validação da assinatura com o status "chave de API 'OutOfQuota' está fora da cota"?

Os contêineres conectados da Informação de Documentos enviam informações de cobrança para o Azure usando um recurso da Informação de Documentos em sua conta do Azure. Você poderá receber essa mensagem, se os contêineres não puderem se comunicar com o ponto de extremidade de cobrança.

Posso usar o armazenamento local para o contêiner da Ferramenta de Rotulagem de Amostra da Informação de Documentos (FOTT)?

A FOTT tem uma versão que usa o armazenamento local. A versão precisa ser instalada em um computador Windows. Você pode instalá-la neste local.

Na página do projeto, especifique o URI da pasta de rótulos como /shared ou /shared/sub-dir se os arquivos de rotulagem estiverem em um subdiretório. Todos os outros comportamentos da ferramenta de rotulagem de amostra da Informação de Documentos são os mesmos do serviço hospedado.

Qual é a melhor prática para escala vertical?

Para chamadas assíncronas, é possível executar vários contêineres com armazenamento compartilhado. O contêiner que está processando a chamada POST analyze armazena a saída no armazenamento. Em seguida, qualquer outro contêiner pode buscar os resultados do armazenamento e atender às chamadas GET. A ID da solicitação não está vinculada a um contêiner.

Para chamadas síncronas, é possível executar vários contêineres, mas apenas um contêiner atende a uma solicitação. Por ser uma chamada de bloqueio, qualquer contêiner do pool pode atender a solicitação e enviar a resposta. Aqui, apenas um contêiner está vinculado a uma solicitação por vez e nenhuma pesquisa é necessária.

Como posso configurar contêineres com armazenamento compartilhado?

Os contêineres usam a propriedade Mounts:Shared durante a inicialização para especificar o armazenamento compartilhado para armazenar os arquivos de processamento. Para ver o uso dessa propriedade, consulte a documentação de contêineres.

Segurança e privacidade

Quais são os métodos e os requisitos para autenticar as solicitações aos serviços de IA do Azure?

Cada solicitação a um serviço do Azure deve incluir um cabeçalho de autenticação. É possível autenticar uma solicitação usando vários métodos:

A Informação de Documentos armazena meus dados?

Para todos os recursos, a Informação de Documentos armazena temporariamente os dados e os resultados no Armazenamento do Microsoft Azure na mesma região da solicitação. Seus dados serão excluídos dentro de 24 horas a partir do momento em que você enviar uma solicitação de análise.

Saiba mais sobre Dados, privacidade e segurança da Informação de Documentos.

Como meus modelos personalizados treinados são armazenados e utilizados na Informação de Documentos?

As saídas provisórias após análise e rotulagem são armazenadas no mesmo local de Armazenamento do Microsoft Azure em que você armazena os dados de treinamento. Os modelos personalizados treinados são armazenados no Armazenamento do Microsoft Azure na mesma região e estão logicamente isolados com a assinatura do Azure e as credenciais de API.

Ajuda e suporte adicionais

Onde posso encontrar mais soluções para minhas perguntas sobre a IA do Azure para Informação de Documentos?

O Microsoft Q&A é o local de perguntas e respostas técnicas da Microsoft. É possível filtrar consultas específicas para Informação de Documentos.

O que fazer se o serviço não reconhecer um texto específico, ou reconhecê-lo incorretamente, quando eu estiver rotulando documentos?

Atualizamos e aprimoramos continuamente o modelo de OCR da Informação de Documentos. Você pode enviar um email à equipe da Informação de Documentos. Se possível, compartilhe um documento de exemplo com o problema realçado.