Início Rápido: criar um repositório de conhecimento no portal do Azure

Neste início rápido, você cria um repositório de conhecimento que serve como um repositório para a saída gerada a partir de um pipeline de enriquecimento de IA na IA do Azure Search. Um repositório de conhecimento disponibiliza o conteúdo gerado no Armazenamento do Microsoft Azure para cargas de trabalho diferentes da pesquisa.

Primeiro, você configura alguns dados de exemplo no Armazenamento do Microsoft Azure. Em seguida, você executa o assistente Importar dados para criar um pipeline de enriquecimento que também gera um repositório de conhecimento. O repositório de conhecimento contém o conteúdo de texto original extraído da fonte de dados (avaliações de hotéis feitas por hóspedes), além do conteúdo gerado por IA que inclui rótulo de sentimento, extração de frases-chave e tradução de texto dos comentários de hóspedes que não estão em inglês.

Pré-requisitos

Antes de começar, os seguintes pré-requisitos precisam estar em vigor:

Este início rápido também usa os serviços de IA do Azure para enriquecimento de IA. Como a carga de trabalho é muito pequena, os serviços de IA do Azure são aproveitados nos bastidores para processamento gratuito de até 20 transações. Isso significa que você pode concluir este exercício sem precisar criar um recurso extra dos serviços de IA do Azure.

Iniciar o assistente

  1. Entre no portal do Azure com sua conta do Azure.

  2. Encontre seu serviço de pesquisa e, na página Visão geral, selecione Importar dados na barra de comandos para criar um repositório de conhecimento em quatro etapas.

    Screenshot of the Import data command

Etapa 1: Criar uma fonte de dados

Como os dados são múltiplas linhas em um arquivo CSV, defina o modo de análise para obter um documento de pesquisa para cada linha.

  1. Em Conectar-se aos seus dados, escolha Armazenamento de Blobs do Azure.

  2. Para o Nome, insira "hotel-reviews-ds".

  3. Para Dados para extração, escolha Conteúdo e Metadados.

  4. Para Modo de análise, selecione Texto delimitado e, em seguido, marque a caixa de seleção A Primeira Linha Contém Cabeçalho. Verifique se o Caractere delimitador é uma vírgula (,).

  5. Em Cadeia de Conexão, escolha uma conexão existente se a conta de armazenamento estiver na mesma assinatura. Caso contrário, cole uma cadeia de conexão em sua conta do Armazenamento do Microsoft Azure.

    Uma cadeia de conexão pode ser de acesso total, tendo o seguinte formato: DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    Ou uma cadeia de conexão pode referenciar uma identidade gerenciada, supondo que ela esteja configurada e atribuída a uma função no Armazenamento do Microsoft Azure:ResourceId=/subscriptions/{YOUR-SUBSCRIPTION-ID}/resourceGroups/{YOUR-RESOURCE-GROUP-NAME}/providers/Microsoft.Storage/storageAccounts/{YOUR-ACCOUNT-NAME};

  6. Em Contêineres, insira o nome do contêiner de blob que contém os dados ("hotel-reviews").

    Esta página deve ser semelhante à seguinte captura de tela.

    Screenshot of data source definition

  7. Continue para a próxima página.

Etapa 2: Adicionar habilidades

Nesta etapa do assistente, adicione habilidades para enriquecimento de IA. Os dados de origem são compostos por resenhas de clientes em inglês e francês. As habilidades relevantes para esse conjunto de dados incluem extração de frases-chave, detecção de opiniões e tradução de texto. Em uma etapa posterior, esses aprimoramentos são “projetados” em um repositório de conhecimento como tabelas do Azure.

  1. Expanda Anexar serviços de IA do Azure. Gratuito (Aprimoramentos limitados) é selecionado por padrão. É possível usar esse recurso porque o número de registros em HotelReviews-Free.csv é 19 e esse recurso gratuito permite até 20 transações por dia.

  2. Expanda Adicionar aprimoramentos.

  3. Em Nome do conjunto de habilidades, insira "hotel-reviews-ss".

  4. Em Campo de dados de origem, selecione reviews_text.

  5. Para Nível de granularidade do enriquecimento, selecione Páginas (cinco mil partes de caracteres) .

  6. Para Habilidades Cognitivas de Texto, selecione as seguintes habilidades:

    • Extraia frases-chave
    • Traduzir o texto
    • Detecção de idioma
    • Detectar sentimento

    Sua página deverá ser semelhante a esta captura de tela:

    Screenshot of the skillset definition

  7. Role para baixo e expanda Salvar enriquecimentos no repositório de conhecimento.

  8. Selecione Escolher uma conexão existente e, em seguida, selecione uma conta do Armazenamento do Azure. A página Contêineres é exibida para que você possa criar um contêiner para projeções. É recomendável adotar uma convenção de nomenclatura por prefixo, como "kstore-hotel-reviews", para distinguir entre o conteúdo de origem e o conteúdo do repositório de conhecimento.

  9. Retornando ao assistente importar dados, selecione as projeções de tabela do Azure a seguir. O assistente sempre oferece a projeção Documentos. Outras projeções são oferecidas dependendo das habilidades que você selecionar (como Frases-chave) ou da granularidade do enriquecimento (Páginas):

    • Documentos
    • Páginas
    • Frases-chave

    A captura de tela a seguir mostra as seleções de projeção de tabela no assistente.

    Screenshot of the knowledge store definition

  10. Continue para a próxima página.

Etapa 3: Configurar o índice

Nesta etapa do assistente, configure um índice para consultas de pesquisa de texto completo opcionais. Você não precisa ter um índice de pesquisa para um repositório de conhecimento, mas o indexador requer um para ser executado.

Nesta etapa, o assistente amostra sua fonte de dados para inferir campos e tipos de dados. Só é necessário selecionar os atributos do seu comportamento desejado. Por exemplo, o atributo Recuperável permite que o serviço de pesquisa retorne um valor de campo, enquanto o atributo Pesquisável habilita a pesquisa de texto completo no campo.

  1. Para Nome do índice, insira "hotel-reviews-idx".

  2. Para atributos, aceite as seleções padrão: Recuperável e Pesquisável para os novos campos que o pipeline está criando.

    O índice deve ser semelhante à imagem a seguir. Como a lista é longa, nem todos os campos estão visíveis na imagem.

    Screenshot of the index definition

  3. Continue para a próxima página.

Etapa 4: Configurar e executar o indexador

Nesta etapa do assistente, configure um indexador que reúna a fonte de dados, o conjunto de habilidades e o índice definidos nas etapas anteriores do assistente.

  1. Para Nome, insira "hotel-reviews-idxr".

  2. Para Agenda, mantenha o padrão Uma vez.

  3. Selecione Enviar para executar o indexador. A extração de dados, a indexação e a aplicação de habilidades cognitivas acontecem nesta etapa.

Etapa 5: verificar o status

Na página de Visão geral, abra a guia Indexadores no meio da página e selecione hotels-reviews-idxr. Em um ou dois minutos, o status deve progredir de "Em andamento" para "Sucesso" sem erros e avisos.

Verificar tabelas no portal do Azure

  1. No portal do Azure, abra a Conta de armazenamento usada para criar o repositório de conhecimento.

  2. No painel de navegação esquerdo da conta de armazenamento, selecione Navegador de armazenamento (versão prévia) para exibir as novas tabelas.

    Você deverá ver três tabelas, uma para cada projeção oferecida na seção "Salvar enriquecimentos" da página "Adicionar enriquecimentos".

    • "hotelReviewssDocuments" contém todos os nós de primeiro nível da árvore de enriquecimento de um documento que não são coleções.

    • "hotelReviewssKeyPhrases" contém uma longa lista somente das frases-chave extraídas de todas as avaliações. As habilidades que geram coleções (matrizes), como frases-chave e entidades, enviam a saída para uma tabela autônoma.

    • "hotelReviewssPages" contém campos enriquecidos criados com base em cada página que foi dividida do documento. Nesse conjunto de habilidades e fonte de dados, enriquecimentos no nível da página que consistem em rótulos de sentimento e texto traduzido. Uma tabela de páginas (ou uma tabela de frases se você especificar esse nível específico de granularidade) é criada quando você escolhe a granularidade de "páginas" na definição do conjunto de habilidades.

Todas essas tabelas contêm colunas de ID para dar suporte a relações de tabela em outras ferramentas e em outros aplicativos. Ao abrir uma tabela, role para além desses campos para exibir os campos de conteúdo adicionados pelo pipeline.

Neste início rápido, a tabela para "hotelReviewssPages" deve ser semelhante à seguinte captura de tela:

Screenshot of the generated tables in Storage Browser

Limpar

Quando você está trabalhando em sua própria assinatura, é uma boa ideia identificar, no final de um projeto, se você ainda precisa dos recursos criados. Recursos deixados em execução podem custar dinheiro. Você pode excluir os recursos individualmente ou excluir o grupo de recursos para excluir todo o conjunto de recursos.

Você pode localizar e gerenciar recursos no portal usando o link Todos os recursos ou Grupos de recursos no painel de navegação à esquerda.

Se você estiver usando um serviço gratuito, estará limitado a três índices, indexadores e fontes de dados. Você pode excluir itens individuais no portal para permanecer abaixo do limite.

Dica

Se quiser repetir esse exercício ou experimentar um passo a passo de enriquecimento de IA diferente, exclua o indexador hotel-reviews-idxr e os objetos relacionados para recriá-los. A exclusão do indexador redefine o contador de transações diárias gratuito para zero.

Próximas etapas

Agora que você conhece um repositório de conhecimento, confira cada etapa com mais detalhes acessando o passo a passo da API REST. As tarefas que o assistente executou internamente são explicadas no passo a passo do REST.