Guia de início rápido: criar um conjunto de habilidades no portal do Azure

Neste guia de início rápido, você aprenderá como um conjunto de habilidades na Pesquisa de IA do Azure adiciona Reconhecimento Ótico de Caracteres (OCR), análise de imagem, deteção de idioma, tradução de texto e reconhecimento de entidade para gerar conteúdo pesquisável por texto em um índice de pesquisa.

Você pode executar o assistente Importar dados no portal do Azure para aplicar habilidades que criam e transformam conteúdo textual durante a indexação. A entrada são seus dados brutos, geralmente blobs no Armazenamento do Azure. A saída é um índice pesquisável que contém texto, legendas e entidades de imagem gerados por IA. O conteúdo gerado pode ser consultado no portal usando o explorador de pesquisa.

Para se preparar, crie alguns recursos e carregue arquivos de exemplo antes de executar o assistente.

Pré-requisitos

Antes de começar, tenha os seguintes pré-requisitos em vigor:

Nota

Este guia de início rápido usa os serviços de IA do Azure para as transformações de IA. Como a carga de trabalho é muito pequena, os serviços de IA do Azure são aproveitados nos bastidores para processamento gratuito de até 20 transações. Você pode concluir este exercício sem precisar criar um recurso multisserviço da IA do Azure.

Configurar os seus dados

Nas etapas a seguir, configure um contêiner de blob no Armazenamento do Azure para armazenar arquivos de conteúdo heterogêneos.

  1. A transferência de dados de exemplo é constituída por um pequeno conjunto de ficheiros de diferentes tipos.

  2. Inicie sessão no portal do Azure com a sua conta do Azure.

  3. Crie uma conta de Armazenamento do Azure ou localize uma conta existente.

    • Escolha a mesma região que o Azure AI Search para evitar cobranças de largura de banda.

    • Escolha o StorageV2 (V2 de uso geral).

  4. No portal do Azure, abra sua página de Armazenamento do Azure e crie um contêiner. Você pode usar o nível de acesso padrão.

  5. Em Contêiner, selecione Carregar para carregar os arquivos de exemplo. Observe que você tem uma ampla variedade de tipos de conteúdo, incluindo imagens e arquivos de aplicativos que não podem ser pesquisados em texto completo em seus formatos nativos.

    Screenshot of source files in Azure Blob Storage.

Agora você está pronto para avançar no assistente Importar dados.

Execute o assistente Importar dados

  1. Inicie sessão no portal do Azure com a sua conta do Azure.

  2. Encontre seu serviço de pesquisa e, na página Visão geral, selecione Importar dados na barra de comandos para criar conteúdo pesquisável em quatro etapas.

    Screenshot of the Import data command.

Passo 1: criar uma origem de dados

  1. Em Conectar aos seus dados, escolha Armazenamento de Blob do Azure.

  2. Escolha uma conexão existente com a conta de armazenamento e selecione o contêiner que você criou. Dê um nome à origem de dados e utilize os valores predefinidos para o resto.

    Screenshot of the data source definition page.

    Continue para a próxima página.

Se você receber "Erro ao detetar esquema de índice da fonte de dados", o indexador que está ligando o assistente não poderá se conectar à sua fonte de dados. Muito provavelmente, a fonte de dados tem proteções de segurança. Tente as seguintes soluções e, em seguida, execute novamente o assistente.

Funcionalidade de segurança Solução
O recurso requer funções do Azure ou suas chaves de acesso estão desabilitadas Conecte-se como um serviço confiável ou conecte-se usando uma identidade gerenciada
O recurso está por trás de um firewall IP Criar uma regra de entrada para a Pesquisa e para o portal do Azure
O recurso requer uma conexão de ponto de extremidade privada Ligar através de um ponto de extremidade privado

Passo 2: adicionar capacidades cognitivas

Em seguida, configure o enriquecimento de IA para invocar OCR, análise de imagem e processamento de linguagem natural.

  1. Para este início rápido, estamos usando o recurso de serviços de IA gratuitos do Azure. Os dados de exemplo consistem em 14 arquivos, portanto, a alocação gratuita de 20 transações nos serviços de IA do Azure é suficiente para esse início rápido.

    Screenshot of the Attach Azure AI services tab.

  2. Expanda Adicionar enriquecimento e faça seis seleções.

    Habilite o OCR para adicionar habilidades de análise de imagem à página do assistente.

    Escolha o reconhecimento de entidades (pessoas, organizações, locais) e habilidades de análise de imagem (tags, legendas).

    Screenshot of the skillset definition page.

    Continue para a próxima página.

Passo 3: configurar o índice

Um índice contém seu conteúdo pesquisável e o assistente Importar dados geralmente pode criar o esquema por amostragem da fonte de dados. Nesta etapa, revise o esquema gerado e, potencialmente, revise todas as configurações.

Para este início rápido, o assistente é muito útil, pois define predefinições razoáveis:

  • Os campos padrão são baseados nas propriedades de metadados de blobs existentes, além dos novos campos para a saída de enriquecimento (por exemplo, people, organizationslocations, ). Os tipos de dados são inferidos a partir de metadados e por amostragem de dados.

  • A chave de documento padrão é metadata_storage_path (selecionada porque o campo contém valores exclusivos).

  • Os atributos padrão são Recuperável e Pesquisável. Pesquisável permite pesquisar texto completo em um campo. Recuperável significa que os valores de campo podem ser retornados nos resultados. O assistente assume que você deseja que esses campos sejam recuperáveis e pesquisáveis porque você os criou por meio de um conjunto de habilidades. Selecione Filtrável se quiser usar campos em uma expressão de filtro.

    Screenshot of the index definition page.

Marcar um campo como recuperável não significa que o campo deve estar presente nos resultados da pesquisa. Você pode controlar a composição dos resultados da pesquisa usando o parâmetro select query para especificar quais campos devem ser incluídos.

Continue para a próxima página.

Passo 4: configurar o indexador

O indexador conduz o processo de indexação. Ele especifica o nome da fonte de dados, um índice de destino e a frequência de execução. O assistente Importar dados cria vários objetos, incluindo um indexador que você pode redefinir e executar repetidamente.

  1. Na página Indexador, aceite o nome padrão e selecione Uma vez.

    Screenshot of the indexer definition page.

  2. Selecione Enviar para criar e executar simultaneamente o indexador.

Estado da monitorização

Selecione Indexadores no painel de navegação esquerdo para monitorar o status e, em seguida, selecione o indexador. A indexação baseada em habilidades leva mais tempo do que a indexação baseada em texto, especialmente OCR e análise de imagem.

Screenshot of the indexer status page.

Para exibir detalhes sobre o status de execução, selecione Êxito (ou Falha) para exibir os detalhes da execução.

Nesta demonstração, há alguns avisos: "Could not execute skill because one or more skill input was invalid." Ele informa que um arquivo PNG na fonte de dados não fornece uma entrada de texto para o Reconhecimento de Entidade. Esse aviso ocorre porque a habilidade OCR upstream não reconheceu nenhum texto na imagem e, portanto, não pôde fornecer uma entrada de texto para a habilidade de Reconhecimento de Entidade downstream.

Avisos são comuns na execução de conjuntos de habilidades. À medida que você se familiariza com a forma como as habilidades iteram sobre seus dados, você pode começar a notar padrões e aprender quais avisos são seguros para ignorar.

Consultar no Explorador de procura

Depois que um índice for criado, use o Gerenciador de Pesquisa para retornar resultados.

  1. À esquerda, selecione Índices e, em seguida, selecione o índice. O explorador de pesquisa encontra-se no primeiro separador.

  2. Insira uma cadeia de caracteres de pesquisa para consultar o índice, como satya nadella. A barra de pesquisa aceita palavras-chave, frases entre aspas e operadores ("Satya Nadella" +"Bill Gates" +"Steve Ballmer").

Os resultados são retornados como JSON detalhado, que pode ser difícil de ler, especialmente em documentos grandes. Algumas dicas para pesquisar nesta ferramenta incluem as seguintes técnicas:

  • Alterne para o modo de exibição JSON para especificar parâmetros que moldam os resultados.

  • Adicionar select para limitar os campos nos resultados.

  • Adicionar count para mostrar o número de correspondências.

  • Use CTRL-F para pesquisar propriedades ou termos específicos dentro do JSON.

    Screenshot of the Search explorer page.

Aqui estão alguns JSON que você pode colar na exibição:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Gorjeta

As cadeias de caracteres de consulta diferenciam maiúsculas de minúsculas, portanto, se você receber uma mensagem de "campo desconhecido", marque Campos ou Definição de índice (JSON) para verificar o nome e as maiúsculas e minúsculas.

Conclusões

Agora você criou seu primeiro conjunto de habilidades e aprendeu as etapas básicas da indexação baseada em habilidades.

Alguns conceitos-chave que esperamos que você tenha escolhido incluem as dependências. Um conjunto de habilidades está vinculado a um indexador, e os indexadores são do Azure e específicos da fonte. Embora este guia de início rápido use o Armazenamento de Blobs do Azure, outras fontes de dados do Azure são possíveis. Para obter mais informações, consulte Indexadores no Azure AI Search.

Outro conceito importante é que as habilidades operam sobre tipos de conteúdo e, ao trabalhar com conteúdo heterogêneo, algumas entradas são ignoradas. Além disso, arquivos ou campos grandes podem exceder os limites do indexador da sua camada de serviço. É normal ver avisos quando esses eventos ocorrem.

A saída é roteada para um índice de pesquisa e há um mapeamento entre pares nome-valor criados durante a indexação e campos individuais no índice. Internamente, o assistente configura uma árvore de enriquecimento e define um conjunto de habilidades, estabelecendo a ordem das operações e o fluxo geral. Essas etapas estão ocultas no assistente, mas quando você começa a escrever código, esses conceitos se tornam importantes.

Finalmente, você aprendeu que pode verificar o conteúdo consultando o índice. No final, o que o Azure AI Search fornece é um índice pesquisável, que você pode consultar usando a sintaxe de consulta simples ou totalmente estendida. Um índice com campos melhorados é igual a qualquer outro. Se você quiser incorporar analisadores padrão ou personalizados, perfis de pontuação, sinônimos, navegação facetada, pesquisa geográfica ou qualquer outro recurso do Azure AI Search, certamente poderá fazê-lo.

Clean up resources (Limpar recursos)

Ao trabalhar na sua própria subscrição, recomendamos que verifique, depois de concluir um projeto, se ainda vai precisar dos recursos que criou. Os recursos que deixar em execução podem custar dinheiro. Pode eliminar recursos individualmente ou eliminar o grupo de recursos para eliminar todo o conjunto de recursos.

Você pode encontrar e gerenciar recursos no portal, usando o link Todos os recursos ou Grupos de recursos no painel de navegação esquerdo.

Se você usou um serviço gratuito, lembre-se de que está limitado a três índices, indexadores e fontes de dados. Você pode excluir itens individuais no portal para ficar abaixo do limite.

Próximos passos

Você pode criar conjuntos de habilidades usando o portal, o SDK do .NET ou a API REST. Para aprofundar seu conhecimento, tente a API REST usando um cliente REST e mais dados de exemplo.