Guia de início rápido: criar um conjunto de habilidades no portal do Azure

Neste guia de início rápido, você aprenderá como um conjunto de habilidades na Pesquisa de IA do Azure adiciona OCR (Reconhecimento Óptico de Caracteres), análise de imagem, detecção de idioma, tradução de texto e reconhecimento de entidade para gerar conteúdo pesquisável por texto em um índice de pesquisa.

Você pode executar o assistente Importar dados no portal do Azure para aplicar habilidades que criam e transformam o conteúdo textual durante a indexação. A entrada são seus dados brutos, geralmente blobs no Armazenamento do Azure. A saída é um índice pesquisável que contém texto de imagem, legendas e entidades gerados por IA. O conteúdo gerado pode ser consultado no portal usando o Gerenciador de pesquisa.

Para se preparar, crie alguns recursos e carregue arquivos de exemplo antes de executar o assistente.

Pré-requisitos

Antes de começar, os seguintes pré-requisitos precisam estar em vigor:

Observação

Esse guia de início rápido usa os serviços de IA do Azure para IA. Como a carga de trabalho é muito pequena, os serviços de IA do Azure são aproveitados nos bastidores para processamento gratuito de até 20 transações. Você pode concluir esse exercício sem precisar criar um recurso multisserviço do Azure AI.

Configurar seus dados

Nas etapas a seguir, configure um contêiner de blobs no Armazenamento do Azure para armazenar arquivos de conteúdo heterogêneos.

  1. Fazer o download de dados de exemplo consiste em um conjunto de pequenos arquivos de tipos diferentes. Descompacte os arquivos.

  2. Entre no portal do Azure com sua conta do Azure.

  3. Crie uma conta de Armazenamento do Azure ou localize uma existente.

    • Escolha a mesma região da IA do Azure Search para evitar preços de largura de banda.

    • Escolha o StorageV2 (V2 de uso geral).

  4. No portal do Azure, abra sua página de Armazenamento do Microsoft Azure e crie um contêiner. Você pode usar o nível de acesso padrão.

  5. Em Contêiner, selecione Carregar para carregar os arquivos de exemplo. Observe que você tem uma ampla variedade de tipos de conteúdo, incluindo imagens e arquivos de aplicativos que não são texto completo pesquisável em seus formatos nativos.

    Screenshot of source files in Azure Blob Storage.

Agora você está pronto para avançar no assistente de importação de dados.

Executar o assistente de Importação de dados

  1. Entre no portal do Azure com sua conta do Azure.

  2. Encontre seu serviço de pesquisa e, na página Visão geral, selecione Importar dados na barra de comandos para criar conteúdo pesquisável em quatro etapas.

    Screenshot of the Import data command.

Etapa 1: Criar uma fonte de dados

  1. Em Conectar-se aos seus dados, escolha Armazenamento de Blobs do Azure.

  2. Escolha uma conexão existente com a conta de armazenamento e selecione o contêiner que você criou. Dê um nome de fonte de dados e use valores padrão para o restante.

    Screenshot of the data source definition page.

    Continue para a próxima página.

Se você receber "Erro ao detectar o esquema de índice da fonte de dados", o indexador que está alimentando o assistente não poderá se conectar à sua fonte de dados. Provavelmente, a fonte de dados tem proteções de segurança. Experimente as seguintes soluções e execute novamente o assistente.

Recurso de segurança Solução
O recurso requer que as funções do Azure ou suas chaves de acesso estejam desabilitadas Conecte-se como um serviço confiável ou usando uma identidade gerenciada
O recurso está por trás de um firewall de IP Criar uma regra de entrada para Pesquisar e para o portal do Azure
O recurso requer uma conexão de ponto de extremidade privada Conectar-se a um ponto de extremidade privado

Etapa 2: Adicionar habilidades cognitivas

Em seguida, configure o enriquecimento de IA para invocar o OCR, a análise de imagem e o processamento em idioma natural.

  1. Para este guia rápido, usamos o recurso Gratuito de serviços de IA do Azure. Os dados de exemplo consistem em 14 arquivos, portanto, a alocação gratuita de 20 transações nos serviços de IA do Azure é suficiente para esse início rápido.

    Screenshot of the Attach Azure AI services tab.

  2. Expanda Adicionar enriquecimentos e faça seis seleções.

    Habilite o OCR para adicionar habilidades de análise de imagem à página do assistente.

    Escolha reconhecimento de entidade (pessoas, organizações, localizações) e habilidades de análise de imagem (marcas, legendas).

    Screenshot of the skillset definition page.

    Continue para a próxima página.

Etapa 3: Configurar o índice

Um índice contém seu conteúdo pesquisável e o assistente Importar dados geralmente pode criar o esquema por amostragem da fonte de dados. Nesta etapa, revise o esquema gerado e, potencialmente, revise as configurações.

Para este guia de início rápido, o assistente faz um bom trabalho configurando padrões razoáveis:

  • Os campos padrão são baseados nas propriedades de metadados dos blobs existentes, além dos novos campos para a saída de enriquecimento (por exemplo, , , peopleorganizationslocations). Os tipos de dados são inferidos dos metadados e pela amostragem de dados.

  • A chave do documento padrão é metadata_storage_path (selecionado porque o campo contém valores exclusivos).

  • Os atributos padrão são Recuperável e Pesquisável. Pesquisável permite a pesquisa de texto completo de um campo. Recuperável significa que os valores de campo podem ser retornados nos resultados. O assistente pressupõe que você deseja que esses campos sejam recuperáveis e pesquisáveis porque você os criou por meio de um conjunto de qualificações esses campos. Selecione Filtrável se você quiser usar campos em uma expressão de filtro.

    Screenshot of the index definition page.

Marcar um campo como Recuperável não significa que ele deve estar presente nos resultados da pesquisa. Você pode controlar a composição dos resultados da pesquisa usando o parâmetro de consulta select para especificar quais campos incluir.

Continue para a próxima página.

Etapa 4: Configurar o indexador

O indexador conduz o processo de indexação. Ele especifica o nome da fonte de dados, um índice de destino e a frequência de execução. O assistente Importar dados cria vários objetos, incluindo um indexador que você pode redefinir e executar várias vezes.

  1. Na página Indexador, aceite o nome padrão e selecione Uma vez.

    Screenshot of the indexer definition page.

  2. Selecione Enviar para criar e executar o indexador simultaneamente.

Monitorar status

Selecione Indexadores no painel de navegação esquerdo para monitorar o status e, em seguida, selecione o indexador. A indexação baseada em habilidades leva mais tempo do que a indexação baseada em texto, especialmente OCR e análise de imagem.

Screenshot of the indexer status page.

Para exibir detalhes sobre o status de execução, selecione Êxito (ou Falha) para exibir detalhes da execução.

Nesta demonstração, há alguns avisos: "Could not execute skill because one or more skill input was invalid." Ele informa que um arquivo PNG na fonte de dados não fornece uma entrada de texto para o Reconhecimento de Entidade. Esse aviso ocorre porque a habilidade de OCR upstream não reconheceu nenhum texto na imagem e, portanto, não pôde fornecer uma entrada de texto para a habilidade de Reconhecimento de Entidade downstream.

Avisos são comuns na execução do conjunto de habilidades. À medida que você se familiariza com a forma como as habilidades iteram sobre seus dados, você começará a observar padrões e aprenderá quais avisos são seguros de ignorar.

Consultar no Gerenciador de pesquisa

Depois que um índice for criado, use o Gerenciador de Pesquisa para retornar resultados.

  1. À esquerda, selecione Índices e, em seguida, selecione o índice. O explorador de pesquisa está na primeira guia.

  2. Insira uma cadeia de caracteres de pesquisa para consultar o índice, como satya nadella. A barra de pesquisa aceita palavras-chave, frases entre aspas e operadores ("Satya Nadella" +"Bill Gates" +"Steve Ballmer").

Os resultados são retornados em JSON detalhado, que podem ser difíceis de serem lidos, especialmente em documentos grandes. Algumas dicas para pesquisa nessa ferramenta incluem as seguintes técnicas:

  • Alterne para o modo de exibição JSON para especificar os parâmetros que moldam os resultados.

  • Adicionar select para limitar os campos nos resultados.

  • Adicionar count para mostrar o número de correspondências.

  • Use CTRL-F para pesquisa no JSON em busca de propriedades ou termos específicos.

    Screenshot of the Search explorer page.

Aqui estão alguns JSON que você pode colar na exibição:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Dica

As cadeias de consulta diferenciam maiúsculas de minúsculas e, portanto, se você receber uma mensagem "campo desconhecido", verifique Campos ou Definição de Índice (JSON) para verificar o nome e as maiúsculas e as minúsculas.

Observações

Agora você criou seu primeiro conjunto de habilidades e aprendeu as etapas básicas da indexação baseada em habilidades.

Alguns conceitos-chave que esperamos que você tenha aprendido incluem as dependências. Um conjunto de habilidades é associado a um indexador e os indexadores são específicos do Azure e de origem. Embora este guia de início rápido use o Armazenamento de Blobs do Azure, outras fontes de dados do Azure são possíveis. Para obter mais informações, consulte Indexadores na IA do Azure Search.

Outro conceito importante é que as habilidades operam sobre os tipos de conteúdo e, ao trabalhar com um conteúdo heterogêneo, algumas entradas serão ignoradas. Além disso, arquivos ou campos grandes podem exceder os limites de indexador da sua camada de serviço. É normal ver avisos quando esses eventos ocorrem.

A saída é roteada para um índice de pesquisa e há um mapeamento entre pares nome-valor criados durante a indexação e campos individuais no índice. Internamente, o assistente configura uma árvore de enriquecimento e define um conjunto de habilidades, estabelecendo a ordem das operações e o fluxo geral. Essas etapas ficam ocultas no assistente, mas quando você começa a escrever código, esses conceitos se tornam importantes.

Por fim, você aprendeu que pode verificar o conteúdo consultando o índice. No final, o que a IA do Azure Search fornece é um índice pesquisável, que você pode consultar usando o simples ou sintaxe de consulta totalmente estendida. Um índice que contém campos enriquecidos é como qualquer outro. Se você quiser incorporar o padrão ouanalisadores personalizados, perfis de pontuação, sinônimos, navegação facetada, pesquisa geográfica ou qualquer outro recurso da IA do Azure Search, você certamente poderá fazê-lo.

Limpar os recursos

Quando você está trabalhando em sua própria assinatura, é uma boa ideia identificar, no final de um projeto, se você ainda precisa dos recursos criados. Recursos deixados em execução podem custar dinheiro. Você pode excluir os recursos individualmente ou excluir o grupo de recursos para excluir todo o conjunto de recursos.

Você pode localizar e gerenciar recursos no portal usando o link Todos os recursos ou Grupos de recursos no painel de navegação à esquerda.

Se você usa um serviço gratuito, lembre-se de que está limitado a três índices, indexadores e fontes de dados. Você pode excluir itens individuais no portal para permanecer abaixo do limite.

Próximas etapas

Você pode criar conjuntos de habilidades usando o portal, o SDK do .NET ou a API REST. Para expandir ainda mais seus conhecimentos, experimente a API REST usando o Postman e mais dados de exemplo.