Entenda os componentes de pesquisa

Concluído

Uma solução de Pesquisa de IA consiste em vários componentes, cada um desempenhando um papel importante no processo de extração, enriquecimento, indexação e pesquisa de dados.

Fonte de dados

A diagram showing a conceptual illustration of a data source.

A maioria das soluções de pesquisa começa com uma fonte de dados que contém os dados que você quer pesquisar. A Pesquisa de IA do Azure dá suporte a vários tipos de fonte de dados, incluindo:

  • Arquivos não estruturados em contêineres de armazenamento de blobs do Azure.
  • Tabelas no Banco de Dados SQL do Azure.
  • Documentos no Cosmos DB.

A Pesquisa de IA do Azure pode extrair dados dessas fontes de dados para indexação.

Como alternativa, aplicativos podem efetuar push de dados JSON diretamente para um índice, sem efetuar pull deles de um armazenamento de dados existente.

Conjunto de habilidades

A diagram a conceptual illustration of a skillset.

Em uma solução de pesquisa básica, você pode simplesmente indexar os dados extraídos da fonte de dados. As informações que podem ser extraídas dependem da fonte de dados. Por exemplo, é possível extrair os campos nas tabelas do banco de dados ao indexar dados em um banco de dados ou extrair metadados dos arquivos, como o nome, a data de modificação, o tamanho e o autor, com o conteúdo de texto do documento.

Embora uma solução de pesquisa básica que indexa valores de dados extraídos diretamente da fonte de dados possa ser útil, as expectativas dos usuários de aplicativos modernos geraram a necessidade de insights mais avançados sobre os dados. Na Pesquisa de IA do Azure, você pode aplicar habilidades de inteligência artificial (IA) como parte do processo de indexação para enriquecer os dados de origem com novas informações, que podem ser mapeadas para campos de índice. As habilidades usadas por um indexador são encapsuladas em um conjunto de habilidades, que define um pipeline de enriquecimento no qual cada etapa aprimora os dados de origem com insights obtidos por uma habilidade de IA específica. Exemplos de tipos de informações que podem ser extraídos por uma habilidade de IA incluem:

  • O idioma no qual um documento está escrito.
  • Frases chave que podem ajudar a determinar os principais temas ou tópicos abordados em um documento.
  • Uma pontuação de sentimento que quantifica o quão positivo ou negativo um documento é.
  • Locais, pessoas, organizações ou pontos de referência específicos mencionados no conteúdo.
  • Descrições de imagens geradas por IA ou texto de imagem extraído pelo reconhecimento óptico de caracteres.
  • Habilidades personalizadas que você desenvolve para atender a requisitos específicos.

Indexador

A diagram showing a conceputal illustration of an indexer.

O indexador é o mecanismo que realiza o processo de indexação geral. Ele usa as saídas extraídas usando as habilidades no conjunto de habilidades, junto com os valores de dados e metadados extraídos da fonte de dados original, e os mapeia para campos no índice.

Um indexador é executado automaticamente quando é criado e pode ser agendado para execução em intervalos regulares ou ser executado sob demanda para adicionar mais documentos ao índice. Em alguns casos, por exemplo, quando você adiciona novos campos a um índice ou novas habilidades a um conjunto de habilidades, pode ser necessário redefinir o índice antes de executar o indexador novamente.

Índice

A diagram showing a conceputal illustration of an index.

O índice é o resultado pesquisável do processo de indexação. Ele é composto por uma coleção de documentos JSON, com campos que contêm os valores extraídos durante a indexação. Aplicativos cliente podem consultar o índice para recuperar, filtrar e classificar informações.

Cada campo de índice pode ser configurado com os seguintes atributos:

  • key: campos que definem uma chave exclusiva para registros de índice.
  • searchable: campos que podem ser consultados usando a pesquisa de texto completo.
  • filterable: campos que podem ser incluídos em expressões de filtro para retornar apenas documentos que correspondam às restrições especificadas.
  • sortable: campos que podem ser usados para ordenar os resultados.
  • facetable: campos que podem ser usados para determinar valores para facetas (elementos da interface do usuário usados para filtrar os resultados com base em uma lista de valores de campo conhecidos).
  • retrievable: campos que podem ser incluídos nos resultados da pesquisa (por padrão, todos os campos são recuperáveis a menos que esse atributo seja removido explicitamente).