Início Rápido: vetorização integrada (versão prévia)

Importante

O assistente de importação e vetorização de dados está em visualização pública sob os termos de uso complementares. Ele tem como alvo a API REST 2023-10-01-Preview.

Comece a usar a vetorização integrada (versão prévia) usando o assistente Importar e vetorizar dados no portal do Azure. Esse assistente chama um modelo de inserção de texto do OpenAI do Azure para vetorizar o conteúdo durante a indexação e para consultas.

Nesta versão prévia do assistente:

  • Os dados de origem são somente de blob, usando o modo de análise padrão (um documento de pesquisa por blob).

  • O esquema de índice não é configurável. Os campos de origem incluem content (em partes e vetorizadas), metadata_storage_name para título e uma metadata_storage_path para a chave do documento, representada como parent_id no Índice.

  • A vetorização é somente Azure OpenAI (text-embedding-ada-002), usando o algoritmo Pequenos Mundos Navegáveis Hierárquicos (HNSW) com padrões.

  • O agrupamento não é configurável. Estas são as configurações efetivas:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Para obter mais opções de configuração e fonte de dados, experimente o Python ou as APIs REST. Consulte exemplo de vetorização integrada para obter detalhes.

  • Uma assinatura do Azure. Crie um gratuitamente.

  • Azure AI Search, em qualquer região e camada. A maioria dos serviços existentes dá suporte à busca em vetores. Para um pequeno subconjunto de serviços criados antes de janeiro de 2019, um índice contendo campos de vetor falha na criação. Nessa situação, um novo serviço deve ser criado.

  • Ponto de extremidade do OpenAI do Azure com uma implantação de text-embedding-ada-002 e uma chave de API ou permissões de Usuário do OpenAI de Serviços Cognitivos para carregar dados. Você só pode escolher um vetorizador nesta versão prévia e este deve ser o OpenAI do Azure.

  • Conta de Armazenamento do Azure, desempenho padrão (v2 de uso geral), camadas de acesso quente, refrigerado e frio.

  • Blobs que fornecem conteúdo de texto, apenas documentos não estruturados e metadados. Nesta versão prévia, sua fonte de dados deve ser blobs do Azure.

  • Permissões de leitura no Armazenamento do Microsoft Azure. Uma cadeia de conexão de armazenamento que inclui uma chave de acesso dá acesso de leitura ao conteúdo de armazenamento. Se, em vez disso, você estiver usando logons e funções do Microsoft Entra, verifique se a identidade gerenciada do serviço de pesquisa tem permissões do Leitor de dados de Armazenamento de Blobs.

  • Todos os componentes (fonte de dados e ponto de extremidade de inserção) precisam ter o acesso público habilitado para que os nós do portal possam acessá-los. Caso contrário, o assistente falhará. Após a execução do assistente, os firewalls e os pontos de extremidade privados podem ser habilitados nos diferentes componentes de integração para segurança. Se os pontos de extremidade privados já estiverem presentes e não puderem ser desativados, a opção alternativa é executar o respectivo fluxo de ponta a ponta a partir de um script ou programa de uma máquina virtual na mesma rede virtual que o ponto de extremidade privado. Este é um exemplo de código Python para vetorização integrada. No mesmo repositório GitHub estão amostras em outras linguagens de programação.

Verificar o espaço

Muitos clientes começam com o serviço gratuito. A camada gratuita é limitada a três índices, três fontes de dados, três conjuntos de habilidades e três indexadores. Verifique se há espaço para itens extras antes de começar. Este guia de início rápido cria uma unidade de cada objeto.

Verificar a classificação semântica

Esse assistente dá suporte à classificação semântica, mas somente na camada Básica e acima, e somente se a classificação semântica já estiver habilitada no serviço de pesquisa. Se você estiver usando uma camada faturável, verifique se a classificação semântica está habilitada.

Captura de tela da página de configuração do classificador semântico.

Preparar os dados de exemplo

Esta seção indica os dados que funcionam neste início rápido.

  1. Entre no portal do Azure com sua conta do Azure e acesse a conta de Armazenamento do Azure.

  2. No menu de navegação, em Armazenamento de dados, selecione Contêineres.

  3. Crie um novo contêiner e carregue os documentos em PDF do plano de saúde usados neste início rápido.

  4. Antes de deixar a conta de Armazenamento do Azure no portal do Azure, conceda permissões de leitor de dados do Armazenamento de Blobs no contêiner, desde que você queira acesso baseado em função. Ou obtenha uma cadeia de conexão para a conta de armazenamento na página chaves de acesso.

Obter detalhes de conexão do OpenAI do Azure

O assistente precisa de um ponto de extremidade, uma implantação de text-embedding-ada-002 e uma chave de API ou uma identidade gerenciada do serviço de pesquisa com permissões de usuário do OpenAI de Serviços Cognitivos.

  1. Entre no portal do Azure com sua conta do Azure e acesse o recurso de OpenAI do Azure.

  2. Em Chaves e gerenciamento, copie o ponto de extremidade.

  3. Na mesma página, copie uma chave ou verifique o controle de acesso para atribuir membros de função à identidade do serviço de pesquisa.

  4. Em implantações de modelo, selecione Gerenciar implantações para abrir o Estúdio de IA do Azure. Copie o nome da implantação de text-embedding-ada-002.

Iniciar o assistente

Para começar, navegue até o serviço de IA do Azure Search no portal do Azure e abra o assistente para Importar e vetorizar dados.

  1. Entre no portal do Azure com sua conta do Azure e acesse o serviço de IA do Azure Search.

  2. Na página Visão geral, selecione Importar e vetorizar dados.

    Captura de tela do comando do assistente.

Conectar-se aos seus dados

A próxima etapa é conectar-se a uma fonte de dados a ser usada para o índice de pesquisa.

  1. No assistente Importar e vetorizar dados na guia Conectar-se aos seus dados, expanda a lista de seleção Fonte de dados e selecione Armazenamento de Blobs do Azure.

  2. Especifique a assinatura, a conta de armazenamento e o contêiner do Azure que fornece os dados.

  3. Para a conexão, forneça uma cadeia de conexão de acesso completo que inclua uma chave ou especifique uma identidade gerenciada que tenha permissões de Leitor de dados do Armazenamento de Blobs no contêiner.

  4. Especifique se deseja a detecção de exclusão:

    Captura de tela da página da fonte de dados.

  5. Selecione Próximo: vetorizar e enriquecer para continuar.

Enriquecer e vetorizar dados

Nesta etapa, especifique o modelo de inserção usado para vetorizar dados divididos em partes.

  1. Forneça a assinatura, o ponto de extremidade, a chave de API e o nome da implantação do modelo.

  2. Opcionalmente, é possível desbloquear imagens binárias (por exemplo, arquivos de documentos digitalizados) e usar o OCR para reconhecer texto.

  3. Opcionalmente, é possível adicionar classificação semântica para reclassificar os resultados no final da execução da consulta, promovendo para o topo as correspondências mais semanticamente relevantes.

  4. Especifique um agendamento de tempo de execução para o indexador.

    Captura de tela da página de enriquecimento.

  5. Selecione Próximo: criar e examinar para continuar.

Executar o assistente

Essa etapa cria estes objetos:

  • Conexão da fonte de dados ao contêiner de blob.

  • Índice com campos vetoriais, vetorizadores, perfis de vetor, algoritmos de vetor. Não é solicitado que você crie ou modifique o índice padrão durante o fluxo de trabalho do assistente. Os índices estão em conformidade com a versão 2023-10-01-Preview.

  • Conjunto de habilidades com habilidade de Divisão de texto para divisão em partes e AzureOpenAIEmbeddingModel para vetorização.

  • Indexador com mapeamentos de campo e mapeamentos de campo de saída (se aplicável).

Se você receber erros, examine as permissões primeiro. Você precisa do Usuário OpenAI dos Serviços Cognitivos no OpenAI do Azure e do Leitor de Dados do Blob de Armazenamento no Armazenamento do Microsoft Azure. Seus blobs devem ser não estruturados (os dados em partes são extraídos da propriedade "content" do blob).

Verificar os resultados

O Gerenciador de pesquisa aceita cadeias de caracteres de texto como entrada e, em seguida, vetoriza o texto para execução da consulta de vetor.

  1. Selecione seu índice.

  2. Opcionalmente, selecione Opções de consulta e oculte os valores do vetor nos resultados da pesquisa. Essa etapa facilita a leitura dos resultados da pesquisa.

    Captura de tela do botão de opções de consulta.

  3. Selecione o modo de exibição JSON para que você possa inserir texto para sua consulta de vetor no parâmetro de consulta de vetor do texto.

    Captura de tela do seletor JSON.

    Esse assistente oferece uma consulta padrão que emite uma consulta de vetor no campo "vetor", retornando os cinco vizinhos mais próximos. Se você optou por ocultar os valores do vetor, sua consulta padrão incluirá uma instrução "select" que excluirá o campo de vetor dos resultados da pesquisa.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Substitua o texto "*" por uma pergunta relacionada aos planos de integridade, como "qual plano tem a dedução mais baixa".

  5. Selecione Pesquisar para executar a consulta.

    Captura de tela dos resultados da pesquisa.

    Você deverá ver cinco correspondências, em que cada documento é uma parte do PDF original. O campo título mostra de qual PDF veio cada parte.

  6. Para ver todas as partes de um documento específico, adicione um filtro no campo de título para um PDF específico:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Limpeza

O Azure AI Search é um recurso faturável. Se não for mais necessário, exclua-o de sua assinatura para evitar encargos.

Próximas etapas

Este início rápido apresentou o assistente para Importar e vetorizar dados que cria todos os objetos necessários para a vetorização integrada. Se desejar explorar cada etapa em detalhes, experimente um exemplo de vetorização integrada.