Quickstart: Criar um Azure Cognitive Search skillset no portal do Azure

Neste arranque rápido, você vai aprender como o enriquecimento de IA em Azure Cognitive Search adiciona reconhecimento de caracteres óticos (OCR), análise de imagem, deteção de linguagem, tradução de texto e reconhecimento de entidade para criar conteúdo pesquisável por texto num índice de pesquisa.

Você executará o assistente de dados de importação no portal do Azure para aplicar habilidades que transformam e enriquecem conteúdo durante a indexação. A saída é um índice pes pespável que contém texto de imagem, legendas e entidades geradas pela IA. O conteúdo enriquecido é questionável no portal utilizando o Explorador de Pesquisa.

Para preparar, criará alguns recursos e carregará ficheiros de amostras antes de executar o assistente.

Pré-requisitos

Antes de começar, tenha os seguintes pré-requisitos no lugar:

Nota

Este quickstart usa serviços cognitivos para a IA. Como a carga de trabalho é tão pequena, os Serviços Cognitivos são aproveitados nos bastidores para processamento gratuito até 20 transações. Pode completar este exercício sem ter de criar um recurso de Serviços Cognitivos.

Configurar os seus dados

Nos passos seguintes, instale um recipiente blob no Azure Storage para armazenar ficheiros de conteúdo heterogéneo.

  1. A transferência de dados de exemplo é constituída por um pequeno conjunto de ficheiros de diferentes tipos. Desaperte os ficheiros.

  2. Inicie sessão no portal do Azure com a sua conta do Azure.

  3. Crie uma conta de Armazenamento Azure ou encontre uma conta existente.

    • Escolha a mesma região que Azure Cognitive Search para evitar taxas de largura de banda.

    • Escolha o StorageV2 (finalidade geral V2).

  4. Em portal do Azure, abra a sua página de Armazenamento Azure e crie um recipiente. Pode utilizar o nível de acesso público predefinido.

  5. Em Contentor, selecione Upload para carregar os ficheiros de amostra que descarregou no primeiro passo. Note que tem uma grande variedade de tipos de conteúdo, incluindo imagens e ficheiros de aplicações que não são de texto completo pescável nos seus formatos nativos.

    Screenshot de ficheiros de origem em Armazenamento de Blobs do Azure.

Está agora pronto para avançar com o assistente de dados de importação.

Executar o assistente de dados de importação

  1. Inicie sessão no portal do Azure com a sua conta do Azure.

  2. Encontre o seu serviço de pesquisa e na página 'Vista Geral', selecione dados de importação na barra de comando para configurar o enriquecimento cognitivo em quatro etapas.

    Screenshot do comando de dados de importação.

Passo 1 - Criar uma fonte de dados

  1. Em Ligar aos seus dados, escolha Armazenamento de Blobs do Azure.

  2. Escolha uma ligação existente à conta de armazenamento e selecione o recipiente que criou. Dê um nome à origem de dados e utilize os valores predefinidos para o resto.

    Screenshot da página de definição de fonte de dados.

    Continue para a próxima página.

Passo 2 - Adicionar habilidades cognitivas

Em seguida, configurar o enriquecimento de IA para invocar OCR, análise de imagem e processamento de linguagem natural.

  1. Para este arranque rápido, estamos a usar o recurso Serviços Cognitivos Gratuitos . Os dados da amostra consistem em 14 ficheiros, pelo que o loteamento gratuito de 20 transações nos Serviços Cognitivos é suficiente para este arranque rápido.

    Screenshot do separador

  2. Expandir Adicione enriquecimentos e faça seis seleções.

    Ative o OCR para adicionar habilidades de análise de imagem à página de assistente.

    Escolha o reconhecimento de entidades (pessoas, organizações, locais) e competências de análise de imagem (tags, legendas).

    Screenshot da página de definição de skillset.

    Continue para a próxima página.

Passo 3 - Configurar o índice

Um índice contém o seu conteúdo pesmável e o assistente de dados de Importação pode normalmente criar o esquema para si através da amostragem da fonte de dados. Neste passo, reveja o esquema gerado e reveja potencialmente quaisquer definições. Abaixo está o esquema padrão criado para o conjunto de dados de demo Blob.

Para este início rápido, o assistente é muito útil, pois define predefinições razoáveis:

  • Os campos predefinidos baseiam-se em propriedades de metadados para bolhas existentes, mais os novos campos para a saída de enriquecimento (por exemplo, people, organizations. locations. Os tipos de dados são inferidos a partir de metadados e por amostragem de dados.

  • A chave de documento predefinido é metadata_storage_path (selecionada porque o campo contém valores únicos).

  • Os atributos predefinidos são recuperáveis e pescaveis. Pes para o outro lado, por um texto ou para todos os pontos de publicação. Recuperável significa que os valores de campo podem ser devolvidos em resultados. O feiticeiro assume que quer que estes campos sejam recuperáveis e pesjáveis porque os criou através de um skillset. Selecione Filtragem se quiser utilizar campos numa expressão de filtro.

    Screenshot da página de definição de índice.

Marcar um campo como Recuperável não significa que o campo deve estar presente nos resultados da pesquisa. Pode controlar a composição dos resultados da pesquisa utilizando o parâmetro de consulta $select para especificar quais os campos a incluir.

Continue para a próxima página.

Passo 4 - Configurar o indexante

O indexante impulsiona o processo de indexação. Especifica o nome da fonte de dados, um índice-alvo e a frequência da execução. O assistente de dados De importação cria vários objetos, incluindo um indexador que pode reiniciar e executar repetidamente.

  1. Na página Indexer , pode aceitar o nome predefinido e selecionar uma vez para executá-lo imediatamente.

    Screenshot da página de definição do indexante.

  2. Selecione Submeter para criar e executar simultaneamente o indexante.

Estado do monitor

A indexação de competências cognitivas demora mais tempo a completar do que a indexação típica baseada em texto, especialmente o OCR e a análise de imagem. Para monitorizar o progresso, vá à página 'Visão Geral' e selecione Indexers no meio da página.

Screenshot da página de estado do indexante.

Para verificar detalhes sobre o estado de execução, selecione um indexante da lista e, em seguida, selecione Sucesso (ou Falhado) para ver detalhes da execução.

Nesta demonstração, há um aviso: "Não podia executar habilidade porque uma ou mais habilidades de entrada era inválida." Diz-lhe que um ficheiro PNG na fonte de dados não fornece uma entrada de texto para o Reconhecimento de Entidades. Este aviso ocorre porque a habilidade OCR a montante não reconheceu nenhum texto na imagem, e assim não poderia fornecer uma entrada de texto para a habilidade de Reconhecimento de Entidade a jusante.

Os avisos são comuns na execução de skillset. À medida que se familiarizar com a forma como as habilidades iteram sobre os seus dados, começará a notar padrões e aprenderá quais os avisos seguros para ignorar.

Consultar no Explorador de procura

Depois de criar um índice, execute consultas no Explorador de Pesquisa para obter resultados de retorno.

  1. Na página do painel de instrumentos de serviço de pesquisa, selecione Explorador de pesquisa na barra de comando.

  2. Selecione Alterar Índice, na parte superior, para selecionar o índice que criou.

  3. Introduza uma cadeia de pesquisa para consultar o índice, tal como search=Satya Nadella&$select=people,organizations,locations&$count=true.

Os resultados são devolvidos como verboso JSON, que pode ser difícil de ler, especialmente em grandes documentos. Algumas dicas para pesquisar nesta ferramenta incluem as seguintes técnicas:

  • Apêndice $select para limitar os campos devolvidos em resultados.
  • Utilize o CTRL-F para procurar dentro do JSON propriedades ou termos específicos.

As cadeias de consulta são sensíveis ao caso, por isso, se receber uma mensagem de "campo desconhecido", verifique Fields ou Index Definition (JSON) para verificar o nome e a caixa.

Screenshot da página do explorador de pesquisa.

Conclusões

Criou agora o seu primeiro skillset e aprendeu conceitos importantes úteis para prototipar uma solução de pesquisa enriquecida usando os seus próprios dados.

Alguns dos conceitos-chave que esperamos que tenha assimilado incluem a dependência das origens de dados do Azure. Um skillset está ligado a um indexante, e os indexantes são Azure e específicos de origem. Embora este quickstart utilize Armazenamento de Blobs do Azure, outras fontes de dados Azure são possíveis. Para mais informações, consulte índices em Azure Cognitive Search.

Outro conceito importante é que as competências operam sobre os tipos de conteúdo, e ao trabalhar com conteúdo heterogéneo, algumas entradas serão ignoradas. Além disso, ficheiros ou campos grandes podem exceder os limites do indexante do seu nível de serviço. É normal ver avisos quando estes eventos ocorrem.

A produção é direcionada para um índice de pesquisa, e há um mapeamento entre pares de valor-nome criados durante a indexação e campos individuais no seu índice. Internamente, o portal configura as anotações e define um conjunto de competências ao estabelecer a ordem das operações e o fluxo geral. Estes passos estão ocultos no portal, mas quando começar a escrever código, estes conceitos tornam-se importantes.

Finalmente, aprendeu que pode verificar o conteúdo consultando o índice. No final, o que Azure Cognitive Search fornece é um índice pesmável, que pode consultar usando a sintaxe de consultasimples ou totalmente estendida. Um índice com campos melhorados é igual a qualquer outro. Se pretender incorporar analisadores padrão ou personalizados, perfis de pontuação, sinónimos, navegação frontal, geo-pesquisa ou qualquer outra funcionalidade Azure Cognitive Search, certamente poderá fazê-lo.

Limpar os recursos

Ao trabalhar na sua própria subscrição, recomendamos que verifique, depois de concluir um projeto, se irá precisar dos recursos que criou. Os recursos que deixar em execução podem custar-lhe dinheiro. Pode eliminar recursos individualmente ou eliminar o grupo de recursos para eliminar todo o conjunto de recursos.

Pode encontrar e gerir recursos no portal, utilizando a ligação de todos os recursos ou grupos de recursos no painel de navegação à esquerda.

Se estiver a utilizar um serviço gratuito, lembre-se que está limitado a três índices, indexadores e fontes de dados. Pode eliminar itens individuais no portal para ficar abaixo do limite.

Passos seguintes

Pode criar habilidades utilizando o portal,NET SDK ou REST API. Para aprofundar o seu conhecimento, experimente a API REST utilizando o Carteiro e mais dados da amostra.