Q: Qual é a pontuação de precisão e como é calculada?

A saída de uma operação de modelo personalizado build (v 3.0 e versões posteriores) ou train (v 2.1) inclui a pontuação de precisão estimada. Essa Pontuação representa a capacidade do modelo de prever com precisão o valor rotulado em um documento visualmente semelhante. A precisão é medida dentro de um intervalo de valores percentuais de 0% (baixa) a 100% (alta). Para obter mais informações, consulte Pontuações de precisão e de confiança .

Question 1

O que é IA do Azure para Informação de Documentos e o que aconteceu com o Reconhecimento de Formulários do Azure?

Accepted Answer

IA do Azure para Informação de Documentos é um serviço baseado em nuvem que utiliza modelos de aprendizagem automática para extrair pares chave-valor, texto e tabelas dos documentos. O resultado retornado é uma saída JSON estruturada. Os casos de uso da Informação de Documentos incluem processamento de dados automatizado, estratégias controladas por dados aprimoradas e funcionalidades de pesquisa de documentos enriquecidas.

O serviço de Informação de Documentos faz parte dos serviços de IA do Azure. A partir de julho de 2023, os serviços de IA do Azure passaram a abranger tudo o que antes era conhecido como Serviços Cognitivos do Azure e Serviços de IA Aplicada do Azure.

O nome anterior do serviço de Informação de Documentos era Reconhecimento de Formulários do Azure. O Reconhecimento de Formulários do Azure tornou-se oficialmente Informação de Documentos em julho de 2023.

Não houve alterações nos preços. Os nomes Serviços Cognitivos e Serviços de IA Aplicada continuam sendo utilizados nas APIs de preço, listas de preços, análises de custo e cobranças do Azure.

Não há alterações interruptivas em APIs ou bibliotecas de clientes (SDKs). As APIs REST e as versões do SDK 2024-02-29-preview, 2023-10-31-preview e posteriores foram renomeadas como document intelligence.

Algumas plataformas ainda estão aguardando a atualização de renomeação. Na documentação da Microsoft, todas as menções ao Reconhecimento de Formulários e à Informação de Documentos referem-se ao mesmo serviço do Azure.

Question 2

Como a Informação de Documentos está relacionado à IA generativa de documentos?

Accepted Answer

É possível usar uma solução de IA generativa de documentos para conversar com os documentos, gerar conteúdos interessantes a partir desses documentos e acessar os modelos do Serviço OpenAI do Azure nos dados. Com a IA do Azure para Informação de Documentos e o OpenAI do Azure combinados, você pode criar um aplicativo empresarial para interagir perfeitamente com os documentos usando linguagens naturais, encontrar respostas facilmente, obter insights valiosos e gerar conteúdos novos e envolventes a partir dos documentos existentes. Encontre mais detalhes no blog da comunidade técnica.

Question 3

Como a Informação de Documentos está relacionada à RAG (geração aumentada de recuperação)?

Accepted Answer

A segmentação semântica é uma etapa fundamental na RAG (geração aumentada de recuperação) para garantir armazenamento e recuperação eficientes. O Modelo de layout da Informação de Documentos oferece uma solução abrangente para recursos avançados de extração de conteúdo e análise de estrutura de documentos.

Com o modelo de layout, você poderá extrair facilmente texto e elementos estruturais para dividir grandes corpos de texto em partes menores e significativas com base no conteúdo semântico, em vez de divisões arbitrárias. Em seguida, você poderá enviar as informações extraídas para o formato Markdown e poder definir a estratégia de segmentação semântica com base nos blocos de construção fornecidos. Encontre mais detalhes na visão geral da RAG em Informação de Documentos.

Question 4

Quais casos de uso da Informação de Documentos exigem uma consideração especial?

Accepted Answer

Considere especialmente os projetos de processamento de documentos que incluam dados financeiros, dados de saúde protegidos, dados pessoais ou dados altamente confidenciais.

É necessário estar em conformidade com todos os requisitos nacionais/regionais e específicos do setor.

Question 5

Quais idiomas dão suporte ao Informação de Documentos?

Accepted Answer

Os modelos universais baseados em aprendizado profundo na Informação de Documentos dá suporte a vários idiomas que podem extrair texto multilíngue de imagens e documentos, incluindo linhas de texto com idiomas mistos.

Os idiomas compatíveis variam de acordo com a funcionalidade do serviço de Informação de Documentos. Para obter uma lista completa de manuscritos e textos impressos com suporte na Informação de Documentos, consulte Suporte a idiomas.

Question 6

A Informação de Documentos está disponível na minha região do Azure?

Accepted Answer

A Informação de Documentos geralmente está disponível em muitas das mais de 60 regiões de infraestrutura global do Azure.

Escolha a região mais adequada para você e seus clientes.

Question 7

A Informação de Documentos integra-se a outros serviços Microsoft?

Accepted Answer

Sim, a Informação de Documentos está integrada aos seguintes serviços:

Fluxos de trabalho do AI Builder
IA do Azure Search
Azure Functions
Aplicativos Lógicos do Azure

Question 8

Como a Informação de Documentos está relacionada ao reconhecimento óptico de caracteres?

Accepted Answer

A Informação de Documentos é um serviço baseado em nuvem que incorpora OCR (reconhecimento óptico de caracteres), análise de textos e classificação de textos personalizada dos serviços de IA do Azure.

A Informação de Documentos usa o OCR para detectar e extrair informações de documentos tipográficos e textos manuscritos com suporte de IA para fornecer mais estrutura e informações à extração do texto.

Question 9

Por quanto tempo meu modelo personalizado estará disponível para uso?

Accepted Answer

Um modelo tem o mesmo ciclo de vida que a versão da API usada para treiná-lo. Modelos personalizados treinados com uma versão de GA (disponibilidade geral) da API têm o mesmo ciclo de vida da versão da API. Quando a versão da API for preterida, o modelo não estará mais disponível para inferência. Modelos treinados com uma versão prévia da API também têm o mesmo ciclo de vida da API de visualização.

Espere a descontinuação da API de visualização dentro de três meses após uma versão atualizada da API de visualização ou uma versão da API de GA mais recente.

Question 10

Qual é a pontuação de precisão e como é calculada?

Accepted Answer

A saída de uma operação de modelo personalizado build (v 3.0 e versões posteriores) ou train (v 2.1) inclui a pontuação de precisão estimada. Essa Pontuação representa a capacidade do modelo de prever com precisão o valor rotulado em um documento visualmente semelhante.

A precisão é medida dentro de um intervalo de valores percentuais de 0% (baixa) a 100% (alta).

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Question 11

Como posso melhorar as pontuações de precisão?

Accepted Answer

Variações na estrutura visual dos seus documentos podem influenciar a precisão de um modelo. Veja algumas dicas:

Inclua todas as variações de um documento no conjunto de dados de treinamento. As variações incluem formatos diferentes; por exemplo, PDFs digitais versus PDFs digitalizados.
Separe tipos de documento visualmente distintos e treine modelos diferentes.
Verifique se você não tem rótulos estranhos.
Para rotular assinatura e região, não inclua o texto ao redor.

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Question 12

Qual é a pontuação de confiança e com é calculada?

Accepted Answer

Uma pontuação de confiança indica a probabilidade, medindo o grau de certeza estatística de que o resultado extraído é detectado corretamente.

O intervalo de valores de confiança é uma porcentagem de 0% (baixo) a 100% (alto). É melhor ter como objetivo uma pontuação de 80% ou mais. Para casos mais confidenciais, como registros financeiros ou médicos, é recomendável uma pontuação próxima de 100%. Você também pode exigir uma revisão humana.

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Question 13

Como posso melhorar as pontuações de confiança?

Accepted Answer

Após uma operação de análise, examine a saída JSON. Examine os valores de confidence para cada resultado de chave-valor no nó pageResults. Você também deve examinar a pontuação de confiança no nó readResults, que corresponde à operação de leitura de texto. A confiança dos resultados de leitura não afeta a confiança dos resultados de extração de chave-valor, portanto, você deve verificar ambos. Veja algumas dicas:

Se a pontuação de confiança do objeto readResults for baixa, melhore a qualidade dos documentos de entrada.
Se a pontuação de confiança do objeto pageResults for baixa, verifique se os documentos que você está analisando são do mesmo tipo.
Considere a incorporação de análise humana em seus fluxos de trabalho.
Use formulários que tenham valores diferentes em cada campo.
Para modelos personalizados, use um conjunto maior de documentos de treinamento. A marcação de mais documentos ensina seu modelo a reconhecer campos com maior precisão.

Para obter mais informações, consulte Pontuações de precisão e de confiança.

Question 14

O que é uma caixa delimitadora?

Accepted Answer

Uma caixa delimitadora (polygon na v3.0 e versões posteriores) é um retângulo abstrato que circunda elementos de texto em um documento ou formulário. Ele é usado como um ponto de referência para detecção de objetos.

A caixa delimitadora especifica a posição utilizando um plano de coordenadas x e y apresentado em uma matriz de quatro pares numéricos. Cada par representa um canto da caixa na seguinte ordem: superior esquerdo, superior direito, inferior direito, inferior esquerdo.

Para uma imagem, as coordenadas são em pixels. Para um PDF, as coordenadas são em polegadas.

Question 15

A Informação de Documentos pode me ajudar a classificar documentos?

Accepted Answer

A Informação de Documentos fornece modelos de classificação personalizados que podem analisar documentos de arquivo único ou arquivos múltiplos para identificar se um arquivo de entrada contém algum dos tipos de documentos treinados. O serviço dá suporte aos seguintes cenários:

Um arquivo único contendo um tipo de documento como, por exemplo, um formulário de solicitação de empréstimo.
Um arquivo único contendo vários documentos. Um exemplo é um pacote de solicitação de empréstimo contendo um formulário de solicitação de empréstimo, um contracheque e extrato bancário.
Um arquivo único contendo várias instâncias do mesmo documento. Um exemplo é uma coleção de faturas digitalizadas.

Para obter mais informações, consulte a visão geral dos modelos de classificação personalizada.

Question 16

Quais são as opções de desenvolvimento da Informação de Documentos?

Accepted Answer

a Informação de Documentos oferece as opções de desenvolvimento mais recentes nas seguintes plataformas:

REST API
Estúdio da Informação de Documentos
C# / .NET
Java
JavaScript/TypeScript
Python

Question 17

Onde posso encontrar a versão de API compatível para os SDKs da linguagem de programação mais recentes?

Accepted Answer

Esta tabela fornece links para as versões mais recentes do SDK e mostra a relação entre o SDK de Informação de Documentos com suporte e as versões de API:

Referência de SDK do Azure de idioma com suporte	Versões de API com suporte
• C#/.NET: 4.0.0 • Java: 4.0.0 • JavaScript: 4.0.0 • Python 3.2.0	31-10-2023-versão prévia v3.0 v2.1 v2.0

Para obter mais informações, consulte Clientes com suporte para v4.0 e Clientes com suporte para v3.1..

Question 18

Qual é a diferença entre a Informação de Documentos v3.0 e v2.1 e como migrar para a versão mais recente?

Accepted Answer

Para melhorar a usabilidade, a Informação de Documentos v3.0 apresenta uma biblioteca de clientes totalmente reprojetada. Para usar com êxito os recursos mais recentes da API da Informação de Documentos, será necessário ter o SDK mais recente e o código do aplicativo atualizado para usar os novos clientes.

Essa tabela fornece links para instruções detalhadas para migrar para a versão mais recente da Informação de Documentos:

API/Idioma	Guia de migração
API REST	v3
C# / .NET	4.0.0
Java	4.0.0
JavaScript	4.0.0
Python	3.2.0

Question 19

Quais formatos de arquivo são compatíveis com a Informação de Documentos? Há limitações de tamanho para documentos de entrada?

Accepted Answer

Para obter os melhores resultados, consulte os requisitos de entrada.

Question 20

Como especificar um intervalo de páginas a serem analisadas em um documento?

Accepted Answer

Use o parâmetro pages (com suporte na v2.1, v3.0 e versões posteriores da API REST) para especificar páginas para documentos PDF e TIFF de várias páginas. A entrada aceita inclui os seguintes intervalos:

Páginas únicas. Por exemplo, se você especificar 1, 2 serão processadas as páginas 1 e 2.
Intervalos finitos. Por exemplo, se você especificar 2-5 serão processadas as páginas de 2 a 5.
Intervalos em aberto. Por exemplo, se você especificar 5- serão processadas todas as páginas da página 5. Se você especificar -10 serão processadas as páginas de 1 a 10.

Você pode combinar esses parâmetros e os intervalos podem se sobrepor. Por exemplo, se você especificar -5, 1, 3, 5-10 serão processadas as páginas de 1 a 10.

O serviço aceita a solicitação se puder processar pelo menos uma página do documento. Por exemplo, usar 5-100 em um documento de cinco páginas é uma entrada válida e significa que a página 5 foi processada.

Se você não fornecer um intervalo de páginas, todo o documento será processado.

Question 21

A Informação de Documentos e a Ferramenta de rotulagem de exemplo FOTT estão disponíveis. Qual deles devo usar?

Accepted Answer

Na maioria das vezes, é recomendável o Estúdio da Informação de Documentos porque pode reduzir o tempo de configuração de recursos e os serviços de armazenamento da Informação de Documentos.

Considere usar FOTT (Ferramenta de Teste de OCR de Formulário) para os seguintes cenários:

Seus dados devem permanecer dentro de um único computador. Use a Ferramenta de Rotulagem de Exemplos FOTT e o Contêiner de Informação de Documentos.
Seu projeto é altamente dependente da Informação de Documentos v2.1 e você quer continuar usando as APIs v2.1.

Question 22

Como o Azure calcula o preço do uso da Informação de Documentos?

Accepted Answer

A cobrança da Informação de Documentos é calculada mensalmente com base no tipo de modelo e na quantidade de páginas analisadas. Aqui estão alguns detalhes:

Quando você envia um documento para análise, o serviço analisa todas as páginas, a menos que você especifique um intervalo de páginas usando o parâmetro pages na solicitação. Quando o serviço analisa os documentos do Microsoft Excel e do PowerPoint por meio do modelo de leitura, OCR ou layout, ele conta cada planilha do Excel e slide do PowerPoint como uma página.
Quando o serviço analisa os arquivos PDF e TIFF, ele conta cada página do arquivo PDF ou cada imagem do arquivo TIFF como uma página sem limite máximo de caracteres.
Quando o serviço analisa arquivos do Microsoft Word e HTML com suporte dos modelos de leitura e layout, ele conta as páginas em blocos de 3.000 caracteres cada. Por exemplo, se o documento contém 7.000 caracteres, as duas páginas com 3.000 caracteres cada e uma página com 1.000 caracteres somam um total de três páginas.
Quando você usa o modelo de leitura ou layout para analisar arquivos do Microsoft Word, Excel, PowerPoint e HTML, não há suporte para imagens inseridas ou vinculadas. Portanto, o serviço não conta essas imagens como imagens adicionadas.
O treinamento de um modelo personalizado é sempre gratuito com a Informação de Documentos. Você será cobrado somente quando o serviço usar um modelo para analisar um documento.
O preço do contêiner é o mesmo que o preço do serviço de nuvem.
A Informação de Documentos oferece um nível gratuito (F0) em que é possível testar todos os recursos do serviço.
A Informação de Documentos tem um modelo de preços baseado em compromisso para cargas de trabalho grandes.

Saiba mais sobre as opções de preços da IA do Azure para Informação de Documentos.

Question 23

Como posso verificar meu uso da Informação de Documentos e estimar o preço?

Accepted Answer

Você pode localizar as métricas de uso no painel de métricas no portal do Azure. O painel exibe o número de páginas que a IA do Azure para Informação de Documentos processa. É possível verificar o custo estimado gasto no recurso usando a calculadora de preços do Azure. Para obter instruções detalhadas, consulte Verificar o uso e estimar o custo.

Question 24

Quais são as melhores práticas para mitigar a limitação?

Accepted Answer

A Informação de Documentos usa dimensionamento automático para fornecer os recursos computacionais necessários sob demanda, mantendo os custos dos clientes baixos. Para reduzir a suspensão durante o dimensionamento automático, recomendamos a seguinte abordagem:

Implemente a lógica de repetição no seu aplicativo.
Se você achar o número de solicitações POST está restrito, adicione um atraso entre as solicitações.
Aumente a carga de trabalho gradualmente. Evite alterações significativas.
Criar uma solicitação de suporte para aumentar o limite de TPS (transações por segundo).

Saiba mais sobre as cotas e os limites de serviço da Informação de Documentos.

Question 25

Quanto tempo demora para analisar um documento?

Accepted Answer

O tempo para analisar um documento depende do tamanho (por exemplo, o número de páginas) e do conteúdo associado em cada página.

A Informação de Documentos é um serviço baseado em nuvem que incorpora OCR (reconhecimento óptico de caracteres), análise de textos e classificação de textos personalizada dos serviços de IA do Azure.

A Informação de Documentos usa o OCR para detectar e extrair informações de documentos tipográficos e textos manuscritos com suporte de IA para fornecer mais estrutura e informações à extração do texto.

Embora ocorra continuamente a colocação em escala do hardware, a capacidade e os recursos de dimensionamento, você ainda poderá ter problemas de latência em runtime.

Question 26

Como fazer para reunir os melhores dados de treinamento?

Accepted Answer

Ao usar o modelo personalizado da Informação de Documentos, você fornece seus próprios dados de treinamento. Aqui estão algumas dicas para ajudar a treinar seus modelos com eficiência:

Use PDFs em texto em vez de PDFs em imagem quando possível. Você pode identificar um PDF em imagem ao tentar selecionar um texto específico no documento. Se você puder selecionar apenas a imagem inteira do texto, o documento será baseado em imagem e não em texto.
Organize seus documentos de treinamento usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).
Use formulários que tenham todos os campos disponíveis preenchidos.
Use formulários com valores diferentes em cada campo.
Se as imagens forem de baixa qualidade, use um conjunto de dados maior (mais de cinco documentos de treinamento).

Saiba mais sobre como compilar um conjunto de dados de treinamento.

Question 27

Quais são as melhores práticas para treinar um modelo personalizado altamente preciso?

Accepted Answer

O nível de precisão do modelo depende da qualidade dos materiais de treinamento. Veja algumas dicas:

Determine se você precisa usar um único modelo ou vários modelos compostos em um único modelo.
A precisão do modelo pode diminuir quando você tem formatos diferentes analisados com um único modelo. Planeje segmentar o conjunto de seus conjuntos de dados em pastas, em que cada pasta é um modelo exclusivo. Treine um modelo por pasta e componha os modelos resultantes em um único ponto de extremidade.
Formulários personalizados dependem de um modelo visual consistente. Se o formulário tiver variações com formatos e quebras de página, considere segmentar seu conjuntos de dados para treinar vários modelos.
Verifique se você tem um conjunto de dados equilibrado, considerando os formatos, os tipos de documentos e a estrutura.

Saiba mais sobre modelos compostos.

Question 28

Posso treinar um modelo personalizado?

Accepted Answer

A Informação de Documentos não tem uma operação explícita de retreinamento. Cada operação de treinamento gera um novo modelo.

Se você achar que o modelo precisa de novo treinamento, adicione mais amostras ao conjunto de dados de treinamento e treine um novo modelo.

Question 29

Quantos modelos personalizados posso compor em um único modelo personalizado?

Accepted Answer

Com a operação do Model Compose, você pode atribuir até 200 modelos para uma única ID de modelo. Quando você faz a solicitação de Analyze Document com uma ID de modelo composto, a Informação de Documentos classifica o formulário enviado, escolhe o melhor modelo e retorna os resultados. O Model Compose está disponível atualmente apenas para modelos personalizados treinados com rótulos.

Analisar um documento usando modelos compostos é idêntico a analisar um documento usando um modelo único. O resultado Analyze Document retorna uma propriedade docType que indica os modelos de componentes que você selecionou para analisar o documento. Não há alteração no preço da análise de um documento usando um modelo personalizado individual ou um modelo personalizado composto.

Saiba mais sobre modelos compostos.

Question 30

Se a quantidade de modelos que desejo compor ultrapassar o limite superior de um modelo composto, quais serão as alternativas?

Accepted Answer

Você poderá usar uma destas alternativas:

Classifique os documentos antes de chamar o modelo personalizado. Você pode usar o modelo de leitura e compilar uma classificação com base no texto extraído dos documentos e em certas frases usando fontes como código, expressões regulares ou pesquisa.
Se você quiser extrair os mesmos campos de vários documentos estruturados, semiestruturados e não estruturados, considere usar o modelo neural personalizado de aprendizado profundo. Saiba mais sobre as diferenças entre o modelo padrão personalizado e o modelo neural personalizado.

Question 31

Como fazer para refinar um modelo além do treinamento inicial?

Accepted Answer

Cada operação de treinamento gera um novo modelo.

Crie um conjunto de dados para seu novo modelo.
Rotular e treinar um novo modelo.
Confirme se o novo modelo tem um bom desempenho para seus tipos de documento específicos.
Componha seu novo modelo com o modelo existente em um único ponto de extremidade. A Informação de Documentos pode determinar o melhor modelo para cada documento a ser analisado.

Saiba mais sobre modelos compostos.

Question 32

Estou compilando um modelo personalizado. O que o rótulo de detecção de assinatura retorna?

Accepted Answer

A detecção de assinatura procura a presença de uma assinatura, não a identidade da pessoa que assina o documento.

Se o modelo retornar não assinado em detecção de assinatura, o modelo não encontrou uma assinatura no campo definido.

Question 33

O que devo considerar e quais são as melhores práticas para extrair as tabelas de documentos?

Accepted Answer

Você pode começar com o modelo de layout da Informação de Documentos para extrair textos, tabelas, marcas de seleção e informações de estrutura de documentos e imagens. Em geral, considere os seguintes fatores:

Os dados que você deseja extrair são apresentados como uma tabela e a estrutura da tabela é significativa?
Se os dados não estiverem em formato de tabela, poderão caber em uma grade bidimensional?
Suas tabelas abrangem várias páginas? Nesse caso, para evitar rotular todas as páginas, divida o PDF em páginas antes de enviá-lo para a Informação de Documentos. Após a análise, faça o pós-processamento das páginas em uma tabela única.
Se você estiver criando modelos personalizados, consulte Rotulagem como tabelas. As tabelas dinâmicas possuem um número variável de linhas para cada coluna. As tabelas fixas possuem um número constante de linhas para cada coluna.

Question 34

Como posso mover meus modelos treinados de um ambiente (como beta) para outro (como produção)?

Accepted Answer

Você pode usar a API de Cópia para copiar os modelos personalizados de uma conta da Informação de Documentos para outras existentes em qualquer região geográfica com suporte. Para obter instruções detalhadas, consulte Recuperação de desastre.

A operação de cópia está limitada à cópia de modelos dentro do ambiente de nuvem específico onde você treinou o modelo. Por exemplo, não há suporte para copiar modelos da nuvem pública para a nuvem do Azure Governamental.

Question 35

Por que fui cobrado pelo layout ao executar o treinamento personalizado?

Accepted Answer

O layout é necessário para gerar rótulos para o conjunto de dados. Se o conjunto de dados utilizado para o treinamento personalizado não tiver arquivos de rótulos disponíveis, o serviço os gerará para você.

Question 36

Consegui acessar minha conta de armazenamento há alguns dias. Por que agora estou tendo problemas para reconectar?

Accepted Answer

Ao criar uma assinatura de acesso compartilhado, a duração padrão é de 48 horas. Após 48 horas, será necessário criar um novo token.

Defina um período de duração mais longo para o tempo que você estiver usando a conta de armazenamento com a Informação de Documentos.

Question 37

Se a minha conta de armazenamento estiver protegida por uma rede virtual ou firewall, como conceder o acesso aos dados para a Informação de Documentos?

Accepted Answer

Se você tiver uma conta de armazenamento do Azure protegida por uma rede virtual ou firewall, a Informação de Documentos não poderá acessar diretamente sua conta de armazenamento. No entanto, o acesso e a autenticação da conta de armazenamento privado do Azure dá suporte a identidades gerenciadas para recursos do Azure. Quando você usa uma identidade gerenciada, o serviço de Informação de Documentos poderá acessar a conta de armazenamento utilizando uma credencial atribuída.

Se você pretende analisar os dados da conta de armazenamento privado utilizando FOTT, será necessário implementar a ferramenta atrás da rede virtual ou do firewall.

Saiba como criar e usar a identidade gerenciada no recurso da Informação de Documentos.

Se você pretende analisar os dados da conta de armazenamento privado utilizando FOTT, será necessário implementar a ferramenta atrás da rede virtual ou do firewall.

Saiba como criar e usar a identidade gerenciada no recurso da Informação de Documentos.

Question 38

De quais permissões preciso para acessar o Estúdio da Informação de Documentos?

Accepted Answer

É necessário ter uma conta do Azure ativa e uma assinatura com pelo menos uma função de Leitor para acessar o Estúdio da Informação de Documentos.

Para análise de documentos e modelos predefinidos, aqui estão os requisitos de função para cenários de usuário:

Basic
- Usuário de Serviços Cognitivos: é necessário ter essa função para um recurso de Informação de Documentos ou Serviços Cognitivos do Azure de múltiplos serviços para usar o Estúdio da Informação de Documentos.
Avançado
- Colaborador: é necessário ter essa função para criar um grupo de recursos ou um recurso da Informação de Documentos. A função Colaborador não permite que você liste as chaves para os Serviços Cognitivos. Para usar o Estúdio da Informação de Documentos, também será necessário ter a função de Usuário dos Serviços Cognitivos.

Para projetos de modelo personalizados, aqui estão os requisitos de função para cenários de usuário:

Basic
- Usuário de Serviços Cognitivos: é necessário ter essa função para um recurso de Informação de Documentos ou Serviços Cognitivos de múltiplos serviços para treinar um modelo personalizado ou analisar com modelos treinados.
- Colaborador de Dados de Armazenamento de Blobs: é necessário ter essa função para uma conta de armazenamento criar dados de projeto e rótulo.
Avançado
- Colaborador de Conta de Armazenamento: é necessário ter essa função para que a conta de armazenamento defina as configurações de CORS (compartilhamento de recursos entre origens). É um esforço único se você reutilizar a mesma conta de armazenamento.
  
  A função Colaborador não permite que você acesse os dados no blob. Para usar o Estúdio da Informação de Documentos, também será necessário ter a função de Colaborador de Dados de Armazenamento de Blobs.
- Colaborador: você precisa dessa função para criar recursos e um grupo de recursos. A função Colaborador não fornece acesso para usar os recursos ou os armazenamento criados. Para usar o Estúdio da Informação de Documentos, também será necessário ter as funções básicas.

Para obter mais informações, consulte Funções internas do Microsoft Entra e as seções sobre as atribuições de função no Início rápido do estúdio da Informação de Documentos.

Question 39

Eu tenho várias páginas em um documento. Por que somente duas páginas são analisadas no Estúdio da Informação de Documentos?

Accepted Answer

Para recursos de camada gratuita (F0), se você estiver usando o estúdio da Informação de Documentos, a API REST os SDKs serão analisadas somente as duas primeiras páginas.

No Estúdio da Informação de Documentos, selecione o botão Configurações (engrenagem), selecione a guia Recursos e verifique a camada de preço que você está usando para analisar os documentos. Se você quiser analisar todas as páginas de um documento, altere para um recurso pago (S0).

Question 40

Como posso alterar os diretórios ou as assinaturas no Estúdio da Informação de Documentos?

Accepted Answer

Para alterar um diretório no Estúdio da Informação de Documentos, selecione o botão Configurações (engrenagem). Em Diretório, selecione o diretório na lista e, em seguida, selecione Alternar Diretório. Após alterar o diretório, será solicitado que você entre novamente.

Para alterar uma assinatura ou um recurso, vá para a guia Recursos em Configurações.

Question 41

Por que estou recebendo um erro de armazenamento em um compartilhamento de projeto, rotulagem automática ou operação de atualização de OCR quando meu recurso de conta de armazenamento está configurado com um firewall ou uma rede virtual?

Accepted Answer

Consulte Identidades gerenciadas para Informação de Documentos para configurar seus recursos do Azure.

Question 42

Por que estou recebendo o erro "Acesso negado devido a regras de rede virtual/firewall" em uma rotulagem automática ou operação de atualização de OCR quando meu recurso de Informação de Documentos está configurado com um firewall ou uma rede virtual?

Accepted Answer

É necessário adicionar o endereço IP dedicado 20.3.165.95 à lista de permissões de firewall para o recurso de Informação de Documentos.

Question 43

Posso reutilizar ou personalizar a experiência de rotulagem do Estúdio da Informação de Documentos e incorporá-la em meu próprio aplicativo?

Accepted Answer

Sim. A experiência de rotulagem do Estúdio da Informação de Documentos é de código aberto no repositório Toolkit.

Question 44

Por que estou recebendo o erro "Reconhecimento de Formulários Não Encontrado" ao abrir meu projeto personalizado?

Accepted Answer

O recurso Informação de Documentos está associado a esse projeto personalizado foi eliminado ou movido para outro grupo de recursos. Há duas maneiras de resolver esse problema:

Crie novamente o recurso de Informação de Documentos na mesma assinatura e grupo de recursos com o mesmo nome.
Recrie um projeto personalizado com o recurso migrado da Informação de Documentos e especifique a mesma conta de armazenamento.

Question 45

Preciso de uma conexão com a Internet para usar contêineres da Informação de Documentos?

Accepted Answer

Sim. Os contêineres da Informação de Documentos exigem conectividade com a Internet para enviar as informações de cobrança para o Azure. Saiba mais sobre a Segurança de contêiner do Azure.

Question 46

Qual é a diferença entre contêineres desconectados e conectados?

Accepted Answer

Os contêineres conectados enviam as informações de cobrança para o Azure utilizando um recurso de Informação de Documentos na conta do Azure. Com os contêineres conectados, a conectividade com a Internet é necessária para enviar informações de cobrança para o Azure.

Os contêineres desconectados permitem que você use APIs desconectadas da Internet. As informações de cobrança não são enviadas pela Internet. Em vez disso, você é cobrado com base em uma camada de compromisso adquirida. Atualmente, o uso de contêiner desconectado está disponível para modelos personalizados e de fatura da Informação de Documentos.

Os recursos do modelo fornecidos em contêineres conectados e desconectados são os mesmos e têm suporte da Informação de Documentos v2.1.

Question 47

Quais dados os contêineres conectados enviam para a nuvem?

Accepted Answer

Os contêineres conectados da Informação de Documentos enviam informações de cobrança para o Azure usando um recurso da Informação de Documentos em sua conta do Azure. Os contêineres conectados não enviam dados do cliente, como imagem ou texto que está sendo analisado, para a Microsoft.

Para obter um exemplo das informações que os contêineres conectados enviam à Microsoft para cobrança, consulte as Perguntas frequentes sobre os contêineres de IA do Azure.

Question 48

Por que estou recebendo o erro "O contêiner não está em um estado válido. Falha na validação da assinatura com o status "chave de API 'OutOfQuota' está fora da cota"?

Accepted Answer

Os contêineres conectados da Informação de Documentos enviam informações de cobrança para o Azure usando um recurso da Informação de Documentos em sua conta do Azure. Os contêineres conectados não enviam dados do cliente, como imagem ou texto que está sendo analisado, para a Microsoft.

Para obter um exemplo das informações que os contêineres conectados enviam à Microsoft para cobrança, consulte as Perguntas frequentes sobre os contêineres de IA do Azure.

Question 49

Posso usar o armazenamento local para o contêiner da Ferramenta de Rotulagem de Amostra da Informação de Documentos (FOTT)?

Accepted Answer

A FOTT tem uma versão que usa o armazenamento local. A versão precisa ser instalada em um computador Windows. Você pode instalá-la neste local.

Na página do projeto, especifique o URI da pasta de rótulos como /shared ou /shared/sub-dir se os arquivos de rotulagem estiverem em um subdiretório. Todos os outros comportamentos da ferramenta de rotulagem de amostra da Informação de Documentos são os mesmos do serviço hospedado.

Question 50

Qual é a melhor prática para escala vertical?

Accepted Answer

Para chamadas assíncronas, é possível executar vários contêineres com armazenamento compartilhado. O contêiner que está processando a chamada POST analyze armazena a saída no armazenamento. Em seguida, qualquer outro contêiner pode buscar os resultados do armazenamento e atender às chamadas GET. A ID da solicitação não está vinculada a um contêiner.

Para chamadas síncronas, é possível executar vários contêineres, mas apenas um contêiner atende a uma solicitação. Por ser uma chamada de bloqueio, qualquer contêiner do pool pode atender a solicitação e enviar a resposta. Aqui, apenas um contêiner está vinculado a uma solicitação por vez e nenhuma pesquisa é necessária.

Question 51

Como posso configurar contêineres com armazenamento compartilhado?

Accepted Answer

Os contêineres usam a propriedade Mounts:Shared durante a inicialização para especificar o armazenamento compartilhado para armazenar os arquivos de processamento. Para ver o uso dessa propriedade, consulte a documentação de contêineres.

Question 52

Quais são os métodos e os requisitos para autenticar as solicitações aos serviços de IA do Azure?

Accepted Answer

Cada solicitação a um serviço do Azure deve incluir um cabeçalho de autenticação. É possível autenticar uma solicitação usando vários métodos:

Question 53

A Informação de Documentos armazena meus dados?

Accepted Answer

Para todos os recursos, a Informação de Documentos armazena temporariamente os dados e os resultados no Armazenamento do Microsoft Azure na mesma região da solicitação. Seus dados serão excluídos dentro de 24 horas a partir do momento em que você enviar uma solicitação de análise.

Saiba mais sobre Dados, privacidade e segurança da Informação de Documentos.

Question 54

Como meus modelos personalizados treinados são armazenados e utilizados na Informação de Documentos?

Accepted Answer

As saídas provisórias após análise e rotulagem são armazenadas no mesmo local de Armazenamento do Microsoft Azure em que você armazena os dados de treinamento. Os modelos personalizados treinados são armazenados no Armazenamento do Microsoft Azure na mesma região e estão logicamente isolados com a assinatura do Azure e as credenciais de API.

Question 55

Onde posso encontrar mais soluções para minhas perguntas sobre a IA do Azure para Informação de Documentos?

Accepted Answer

O Microsoft Q&A é o local de perguntas e respostas técnicas da Microsoft. É possível filtrar consultas específicas para Informação de Documentos.

Question 56

O que fazer se o serviço não reconhecer um texto específico, ou reconhecê-lo incorretamente, quando eu estiver rotulando documentos?

Accepted Answer

Atualizamos e aprimoramos continuamente o modelo de OCR da Informação de Documentos. Você pode enviar um email à equipe da Informação de Documentos. Se possível, compartilhe um documento de exemplo com o problema realçado.

Perguntas frequentes sobre a IA do Azure para Informação de Documentos

Conceitos gerais

O que é IA do Azure para Informação de Documentos e o que aconteceu com o Reconhecimento de Formulários do Azure?

Como a Informação de Documentos está relacionado à IA generativa de documentos?

Como a Informação de Documentos está relacionada à RAG (geração aumentada de recuperação)?

Quais casos de uso da Informação de Documentos exigem uma consideração especial?

Quais idiomas dão suporte ao Informação de Documentos?

A Informação de Documentos está disponível na minha região do Azure?

A Informação de Documentos integra-se a outros serviços Microsoft?

Como a Informação de Documentos está relacionada ao reconhecimento óptico de caracteres?

Por quanto tempo meu modelo personalizado estará disponível para uso?

Qual é a pontuação de precisão e como é calculada?

Como posso melhorar as pontuações de precisão?

Qual é a pontuação de confiança e com é calculada?

Como posso melhorar as pontuações de confiança?

O que é uma caixa delimitadora?

A Informação de Documentos pode me ajudar a classificar documentos?

Desenvolvimento de aplicativos

Quais são as opções de desenvolvimento da Informação de Documentos?

Onde posso encontrar a versão de API compatível para os SDKs da linguagem de programação mais recentes?

Qual é a diferença entre a Informação de Documentos v3.0 e v2.1 e como migrar para a versão mais recente?

Quais formatos de arquivo são compatíveis com a Informação de Documentos? Há limitações de tamanho para documentos de entrada?

Como especificar um intervalo de páginas a serem analisadas em um documento?

A Informação de Documentos e a Ferramenta de rotulagem de exemplo FOTT estão disponíveis. Qual deles devo usar?

Preços e limites de serviço

Como o Azure calcula o preço do uso da Informação de Documentos?

Como posso verificar meu uso da Informação de Documentos e estimar o preço?

Quais são as melhores práticas para mitigar a limitação?

Quanto tempo demora para analisar um documento?

Modelos personalizados

Como fazer para reunir os melhores dados de treinamento?

Quais são as melhores práticas para treinar um modelo personalizado altamente preciso?

Posso treinar um modelo personalizado?

Quantos modelos personalizados posso compor em um único modelo personalizado?

Se a quantidade de modelos que desejo compor ultrapassar o limite superior de um modelo composto, quais serão as alternativas?

Como fazer para refinar um modelo além do treinamento inicial?

Estou compilando um modelo personalizado. O que o rótulo de detecção de assinatura retorna?

O que devo considerar e quais são as melhores práticas para extrair as tabelas de documentos?

Como posso mover meus modelos treinados de um ambiente (como beta) para outro (como produção)?

Por que fui cobrado pelo layout ao executar o treinamento personalizado?

Conta de armazenamento

Consegui acessar minha conta de armazenamento há alguns dias. Por que agora estou tendo problemas para reconectar?

Se a minha conta de armazenamento estiver protegida por uma rede virtual ou firewall, como conceder o acesso aos dados para a Informação de Documentos?

Estúdio de Informação de Documentos

De quais permissões preciso para acessar o Estúdio da Informação de Documentos?

Eu tenho várias páginas em um documento. Por que somente duas páginas são analisadas no Estúdio da Informação de Documentos?

Como posso alterar os diretórios ou as assinaturas no Estúdio da Informação de Documentos?

Por que estou recebendo um erro de armazenamento em um compartilhamento de projeto, rotulagem automática ou operação de atualização de OCR quando meu recurso de conta de armazenamento está configurado com um firewall ou uma rede virtual?

Por que estou recebendo o erro "Acesso negado devido a regras de rede virtual/firewall" em uma rotulagem automática ou operação de atualização de OCR quando meu recurso de Informação de Documentos está configurado com um firewall ou uma rede virtual?

Posso reutilizar ou personalizar a experiência de rotulagem do Estúdio da Informação de Documentos e incorporá-la em meu próprio aplicativo?

Por que estou recebendo o erro "Reconhecimento de Formulários Não Encontrado" ao abrir meu projeto personalizado?

Contêineres

Preciso de uma conexão com a Internet para usar contêineres da Informação de Documentos?

Qual é a diferença entre contêineres desconectados e conectados?

Quais dados os contêineres conectados enviam para a nuvem?

Por que estou recebendo o erro "O contêiner não está em um estado válido. Falha na validação da assinatura com o status "chave de API 'OutOfQuota' está fora da cota"?

Posso usar o armazenamento local para o contêiner da Ferramenta de Rotulagem de Amostra da Informação de Documentos (FOTT)?

Qual é a melhor prática para escala vertical?

Como posso configurar contêineres com armazenamento compartilhado?

Segurança e privacidade

Quais são os métodos e os requisitos para autenticar as solicitações aos serviços de IA do Azure?

A Informação de Documentos armazena meus dados?

Como meus modelos personalizados treinados são armazenados e utilizados na Informação de Documentos?

Ajuda e suporte adicionais

Onde posso encontrar mais soluções para minhas perguntas sobre a IA do Azure para Informação de Documentos?

O que fazer se o serviço não reconhecer um texto específico, ou reconhecê-lo incorretamente, quando eu estiver rotulando documentos?

Comentários

Recursos adicionais