Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Neste início rápido, você usa o assistente Importar e vetorizar dados no portal do Azure para começar a usar a vetorização integrada. O assistente fragmenta seu conteúdo e chama um modelo de incorporação para vetorizar os blocos no momento da indexação e da consulta.
Este início rápido usa PDFs baseados em texto do repositório azure-search-sample-data. No entanto, você pode usar imagens e ainda concluir este início rápido.
Pré-requisitos
Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
Um serviço Azure AI Search. Recomendamos a camada Básica ou superior.
Familiaridade com o assistente. Consulte Importar assistentes de dados no portal do Azure.
Supported data sources (Origens de dados suportadas)
O assistente Importar e vetorizar dadosdá suporte a uma ampla variedade de fontes de dados do Azure. No entanto, esse início rápido abrange apenas as fontes de dados que funcionam com arquivos inteiros, que são descritas na tabela a seguir.
Fonte de dados suportada | Descrição |
---|---|
Armazenamento de Blobs do Azure | Esta fonte de dados funciona com blobs e tabelas. Você deve usar uma conta padrão de desempenho (uso geral v2). As camadas de acesso podem ser quentes, frescas ou frias. |
Azure Data Lake Storage (ADLS) Gen2 | Esta é uma conta de Armazenamento do Azure com um namespace hierárquico habilitado. Para confirmar que você tem o Armazenamento Data Lake, verifique a guia Propriedades na página Visão geral .![]() |
OneLago | Esta fonte de dados está atualmente em versão preliminar. Para obter informações sobre limitações e atalhos suportados, consulte Indexação OneLake. |
Modelos de incorporação suportados
Para vetorização integrada, você deve usar um dos seguintes modelos de incorporação em uma plataforma de IA do Azure. As instruções de implantação são fornecidas em uma seção posterior.
Prestador | Modelos suportados |
---|---|
Azure OpenAI em Modelos Azure AI Foundry1, 2 | incorporação de texto ada 002 incorporação de texto-3-pequeno incorporação de texto-3-grande |
Recurso multi-serviço de serviços de IA do Azure3 | Para texto e imagens: Azure AI Vision multimodal4 |
Catálogo de modelos do Azure AI Foundry | Para o texto: Cohere-embed-v3-inglês Cohere-embed-v3-Multilíngue Para imagens: Facebook-DinoV2-Imagem-Embeddings-ViT-Base Facebook-DinoV2-Image-Embeddings-ViT-Giant |
1 O endpoint do seu recurso OpenAI do Azure deve ter um subdomínio personalizado, como https://my-unique-name.openai.azure.com
. Se você criou seu recurso no portal do Azure, esse subdomínio foi gerado automaticamente durante a configuração do recurso.
2 Os recursos do Azure OpenAI (com acesso a modelos de incorporação) que foram criados no portal do Azure AI Foundry não são suportados. Somente os recursos do Azure OpenAI criados no portal do Azure são compatíveis com a habilidade Azure OpenAI Embedding.
3 Para fins de cobrança, você deve anexar seu recurso multisserviço do Azure AI ao conjunto de habilidades em seu serviço Azure AI Search. A menos que você use uma conexão sem chave (visualização) para criar o conjunto de habilidades, ambos os recursos devem estar na mesma região.
4 O modelo de incorporação multimodal do Azure AI Vision está disponível em regiões selecionadas.
Requisitos do ponto final público
Para os fins deste início rápido, todos os recursos anteriores devem ter acesso público habilitado para que os nós do portal do Azure possam acessá-los. Caso contrário, o assistente falhará. Depois de executar o assistente, poderá habilitar firewalls e pontos de extremidade privados nos componentes de integração para segurança. Para obter mais informações, consulte Ligações seguras nos assistentes de importação.
Se os pontos de extremidade privados já estiverem presentes e não puderem ser desativados, a opção alternativa é executar o fluxo correspondente de ponta a ponta a partir de um script ou programa numa máquina virtual. A máquina virtual deve estar na mesma rede virtual que o endpoint privado. Aqui está um exemplo de código Python para vetorização integrada. O mesmo repositório GitHub tem exemplos em outras linguagens de programação.
Acesso baseado em funções
Você pode usar o Microsoft Entra ID com atribuições de função ou autenticação baseada em chave com cadeias de conexão com acesso total. Para conexões do Azure AI Search com outros recursos, recomendamos atribuições de função. Este guia de início rápido assume funções.
Os serviços de pesquisa gratuitos suportam ligações baseadas em funções ao Azure AI Search. No entanto, eles não oferecem suporte a identidades gerenciadas em conexões de saída com o Armazenamento do Azure ou o Azure AI Vision. Essa falta de suporte requer autenticação baseada em chave em conexões entre serviços de pesquisa gratuitos e outros recursos do Azure. Para conexões mais seguras, use a camada Básica ou superior e, em seguida, habilite funções e configure uma identidade gerenciada.
Para configurar o recomendado acesso de acordo com a função:
No serviço de pesquisa, habilite funções e configure uma identidade gerenciada atribuída ao sistema.
Atribua as seguintes funções a si mesmo:
Colaborador do Serviço de Pesquisa
Contribuidor de dados do índice de pesquisa
Leitor de dados de índice de pesquisa
Em sua plataforma de fonte de dados e provedor de modelo incorporado, crie atribuições de função que permitam que seu serviço de pesquisa acesse dados e modelos. Consulte Preparar dados de exemplo e Preparar modelos de incorporação.
Nota
Se não for possível avançar no assistente porque as opções não estão disponíveis (por exemplo, não é possível selecionar uma fonte de dados ou um modelo de integração), revise as atribuições de funções. Mensagens de erro indicam que modelos ou implantações não existem, quando a causa real é que o serviço de pesquisa não tem permissão para acessá-los.
Verificar o espaço disponível
Se estiver a começar com o serviço gratuito, está limitado a três índices, fontes de dados, conjuntos de habilidades e indexadores. O básico limita-o a 15. Este guia de arranque rápido gera um exemplar de cada objeto, portanto, assegure-se de que tem espaço disponível para itens adicionais antes de iniciar.
Preparar dados de exemplo
Esta seção aponta para o conteúdo que funciona para este início rápido. Antes de prosseguir, certifique-se de ter concluído os pré-requisitos para acesso baseado em função.
Entre no portal do Azure e selecione sua conta de Armazenamento do Azure.
No painel esquerdo, selecione Contêineres de armazenamento de> dados.
Crie um contêiner e carregue os documentos PDF do plano de saúde usados para este início rápido.
Para atribuir funções:
No painel esquerdo, selecione Controle de acesso (IAM).
Selecione Adicionar>Adicionar atribuição de função.
Em Funções profissionais, selecione Leitor de Dados de Blob de Armazenamento e selecione em seguida Avançar.
Em Membros, selecione Identidade gerenciada e, em seguida, selecione Selecionar membros.
Selecione a sua subscrição e a identidade gerida do seu serviço de pesquisa.
(Opcional) Sincronize exclusões em seu contêiner com exclusões no índice de pesquisa. Para configurar o indexador para deteção de exclusão:
Habilite a exclusão suave em sua conta de armazenamento. Se você estiver usando a exclusão suave nativa, a próxima etapa não será necessária.
Adicione metadados personalizados que um indexador pode verificar para determinar quais blobs estão marcados para exclusão. Dê à sua propriedade personalizada um nome descritivo. Por exemplo, você pode nomear a propriedade "IsDeleted" e defini-la como false. Repita esta etapa para cada blob no contêiner. Quando quiser excluir o blob, altere a propriedade para true. Para obter mais informações, consulte Alterar e excluir a deteção ao indexar do Armazenamento do Azure.
Preparar modelo de incorporação
O assistente pode usar modelos de incorporação implantados do Azure OpenAI, Azure AI Vision ou do catálogo de modelos no portal do Azure AI Foundry. Antes de prosseguir, certifique-se de ter concluído os pré-requisitos para acesso baseado em função.
O assistente suporta text-embedding-ada-002, text-embedding-3-large e text-embedding-3-small. Internamente, o assistente chama o AzureOpenAIEmbedding skill para se conectar ao Azure OpenAI.
Entre no portal do Azure e selecione seu recurso do Azure OpenAI.
Para atribuir funções:
No painel esquerdo, selecione Controle de acesso (IAM).
Selecione Adicionar>Adicionar atribuição de função.
Em Funções de função, selecione Utilizador OpenAI dos Serviços Cognitivos e, em seguida, selecione Avançar.
Em Membros, selecione Identidade gerenciada e, em seguida, selecione Selecionar membros.
Selecione a sua subscrição e a identidade gerida do seu serviço de pesquisa.
Para implantar um modelo de incorporação:
Entre no portal do Azure AI Foundry e selecione seu recurso do Azure OpenAI.
No painel esquerdo, selecione Catálogo de modelos.
Implante um modelo de incorporação suportado.
Iniciar o assistente
Para iniciar o assistente de pesquisa vetorial:
Entre no portal do Azure e selecione seu serviço Azure AI Search.
Na página Visão geral, selecione Importar e vetorizar dados.
Selecione sua fonte de dados: Azure Blob Storage, ADLS Gen2 ou OneLake.
Selecione RAG.
Ligar aos seus dados
A próxima etapa é conectar-se a uma fonte de dados para usar no índice de pesquisa.
Na página Conectar aos seus dados , especifique a assinatura do Azure.
Selecione a conta de armazenamento e o contêiner que fornecem os dados de exemplo.
Se habilitou a eliminação suave e, opcionalmente, adicionou metadados personalizados em Preparar dados amostra, selecione a caixa de seleção Habilitar rastreamento de exclusão.
Em execuções de indexação subsequentes, o índice de pesquisa é atualizado para remover quaisquer documentos de pesquisa baseados em blobs excluídos por software no Armazenamento do Azure.
Os blobs suportam eliminação suave de blobs nativos ou eliminação suave usando metadados personalizados.
Se você configurou seus blobs para exclusão suave, forneça o par nome-valor da propriedade de metadados. Recomendamos IsDeleted. Se IsDeleted estiver definido como true em um blob, o indexador descartará o documento de pesquisa correspondente na próxima execução do indexador.
O assistente não verifica se há configurações válidas no Armazenamento do Azure ou lança um erro se os requisitos não forem atendidos. Em vez disso, a deteção de exclusão não funciona e é provável que seu índice de pesquisa colete documentos órfãos ao longo do tempo.
Marque a caixa de seleção Autenticar usando identidade gerenciada .
Para o tipo de identidade gerenciada, selecione Sistema atribuído.
A identidade deverá ter uma função de Leitor de Dados de Blob de Armazenamento no Azure Storage.
Não pule esta etapa. Ocorrerá um erro de conexão durante a indexação se o assistente não puder se conectar ao Armazenamento do Azure.
Selecione Seguinte.
Vetorizar o texto
Nesta etapa, você especifica um modelo de incorporação para vetorizar dados em partes. O Chunking é incorporado e não configurável. As configurações efetivas são:
"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters"
Na página Vetorizar seu texto , selecione a origem do seu modelo de incorporação:
Azure OpenAI
Catálogo de modelos do Azure AI Foundry
Azure AI Vision (por meio de um recurso multisserviço de serviços de IA do Azure na mesma região que o Azure AI Search)
Especifique a assinatura do Azure.
Dependendo do seu recurso, faça a seguinte seleção:
Para o Azure OpenAI, selecione o modelo implantado em Preparar modelo de incorporação.
Para o catálogo de modelos do AI Foundry, selecione o modelo implantado em Preparar modelo de incorporação.
Para incorporações multimodais do AI Vision, selecione seu recurso multisserviço.
Para o tipo de autenticação, selecione Identidade atribuída ao sistema.
- A identidade deve ter uma função de Usuário de Serviços Cognitivos no recurso multisserviço de serviços de IA do Azure.
Marque a caixa de seleção que reconhece os efeitos de faturamento do uso desses recursos.
Selecione Seguinte.
Vetorize e enriqueça as suas imagens
Os PDFs do plano de saúde incluem um logotipo corporativo, mas, caso contrário, não há imagens. Você pode pular esta etapa se estiver usando os documentos de exemplo.
No entanto, se você trabalha com conteúdo que inclui imagens úteis, pode aplicar a IA de duas maneiras:
Use um modelo de incorporação de imagem com suporte do catálogo ou a API de incorporação multimodal do Azure AI Vision para vetorizar imagens.
Use o reconhecimento ótico de caracteres (OCR) para reconhecer texto em imagens. Esta opção invoca a habilidade OCR para ler texto de imagens.
A Pesquisa de IA do Azure e seu recurso de IA do Azure devem estar na mesma região ou configurados para conexões de cobrança sem chave.
Na página Vetorizar suas imagens, especifique o tipo de conexão que o assistente deve fazer. Para vetorização de imagem, o assistente pode se conectar a modelos de incorporação no portal do Azure AI Foundry ou no Azure AI Vision.
Especifique a assinatura.
Para o catálogo de modelos do Azure AI Foundry, especifique o projeto e a implantação. Para obter mais informações, consulte Preparar modelos de incorporação.
(Opcional) Quebre imagens binárias, como arquivos de documentos digitalizados, e use OCR para reconhecer texto.
Marque a caixa de seleção que reconhece os efeitos de faturamento do uso desses recursos.
Selecione Seguinte.
Adicionar classificação semântica
Na página Configurações avançadas, você pode, opcionalmente, adicionar classificação semântica para reclassificar os resultados no final da execução da consulta. A reclassificação promove as correspondências semanticamente mais relevantes para o topo.
Mapear novos campos
Pontos-chave sobre esta etapa:
O esquema de índice fornece campos vetoriais e não vetoriais para dados em partes.
Você pode adicionar campos, mas não pode excluir ou modificar campos gerados.
O modo de análise de documentos cria blocos (um documento de pesquisa por bloco).
Na página Configurações avançadas , você pode, opcionalmente, adicionar novos campos, supondo que a fonte de dados forneça metadados ou campos que não são coletados na primeira passagem. Por predefinição, o assistente gera os campos descritos na tabela a seguir.
Campo | Aplica-se ao | Descrição |
---|---|---|
Identificador_de_fragmento | Vetores de texto e imagem | Campo de cadeia de caracteres gerado. Pesquisável, recuperável e classificável. Esta é a chave do documento para o índice. |
parent_id | Vetores de texto | Campo de cadeia de caracteres gerado. Recuperável e filtrável. Identifica o documento pai do qual o fragmento se origina. |
pedaço | Vetores de texto e imagem | Campo de texto. Versão legível por humanos do bloco de dados. Pesquisável e recuperável, mas não passível de filtragem, organizável por categorias ou ordenável. |
título | Vetores de texto e imagem | Campo de texto. Título do documento legível por humanos, título da página ou número da página. Pesquisável e recuperável, mas não passível de filtragem, organizável por categorias ou ordenável. |
vetor_de_texto | Vetores de texto | Coleção(Edm.single) Representação vetorial do pedaço. Pesquisável e recuperável, mas não passível de filtragem, organizável por categorias ou ordenável. |
Não é possível modificar os campos gerados ou seus atributos, mas é possível adicionar novos campos se a fonte de dados fornecê-los. Por exemplo, o Armazenamento de Blobs do Azure fornece uma coleção de campos de metadados.
Selecione Adicionar campo.
Selecione um campo de origem nos campos disponíveis, insira um nome de campo para o índice e aceite (ou substitua) o tipo de dados padrão.
Nota
Os campos de metadados são pesquisáveis, mas não recuperáveis, filtráveis, facíneos ou classificáveis.
Se quiser restaurar o esquema para sua versão original, selecione Redefinir.
Indexação de agendas
Na página Configurações avançadas , você também pode especificar uma agenda de execução opcional para o indexador. Depois de escolher um intervalo na lista suspensa, selecione Avançar.
Terminar o assistente
Na página Revisar sua configuração, especifique um prefixo para os objetos criados pelo assistente. Um prefixo comum ajuda-o a manter-se organizado.
Selecione Criar.
Quando o assistente conclui a configuração, ele cria os seguintes objetos:
Uma ligação a uma fonte de dados.
Um índice com campos vetoriais, vetorizadores, perfis vetoriais e algoritmos vetoriais. Não é possível projetar ou modificar o índice padrão durante o fluxo de trabalho do assistente. Os índices estão em conformidade com a API REST 2024-05-01-preview.
Um conjunto de habilidades com a habilidade Text Split para fragmentação e uma habilidade de incorporação para vetorização. A competência de incorporação é a competência AzureOpenAIEmbeddingModel para o Azure OpenAI ou a competência AML para o catálogo de modelos do Azure AI Foundry. O conjunto de habilidades também tem a configuração de projeções de índice , que mapeia dados de um documento na fonte de dados para seus blocos correspondentes em um índice "filho".
Um indexador com mapeamentos de campo e mapeamentos de campo de saída (se aplicável).
Sugestão
Os objetos criados pelo assistente têm definições JSON configuráveis. Para exibir ou modificar essas definições, selecione Gerenciamento de pesquisa no painel esquerdo, onde você pode exibir seus índices, indexadores, fontes de dados e conjuntos de habilidades.
Ver resultados
O Gerenciador de Pesquisa aceita cadeias de caracteres de texto como entrada e, em seguida, vetoriza o texto para execução de consulta vetorial.
No portal do Azure, vá para Gestão de Pesquisa>Índices e em seguida selecione o seu índice.
Selecione Opções de consulta e, em seguida, selecione Ocultar valores de vetor nos resultados da pesquisa. Esta etapa torna os resultados mais legíveis.
No menu Exibir , selecione Visualização JSON para que você possa inserir texto para sua consulta vetorial no
text
parâmetro de consulta vetorial.A consulta padrão é uma pesquisa vazia (
"*"
), mas inclui parâmetros para retornar as correspondências de número. É uma consulta híbrida que executa consultas de texto e vetoriais em paralelo. Ele também inclui classificação semântica e especifica quais campos retornar nos resultados por meio daselect
instrução.{ "search": "*", "count": true, "vectorQueries": [ { "kind": "text", "text": "*", "fields": "text_vector,image_vector" } ], "queryType": "semantic", "semanticConfiguration": "my-demo-semantic-configuration", "captions": "extractive", "answers": "extractive|count-3", "queryLanguage": "en-us", "select": "chunk_id,text_parent_id,chunk,title,image_parent_id" }
Substitua ambos os espaços reservados para asterisco (
*
) por uma pergunta relacionada a planos de saúde, comoWhich plan has the lowest deductible?
.{ "search": "Which plan has the lowest deductible?", "count": true, "vectorQueries": [ { "kind": "text", "text": "Which plan has the lowest deductible?", "fields": "text_vector,image_vector" } ], "queryType": "semantic", "semanticConfiguration": "my-demo-semantic-configuration", "captions": "extractive", "answers": "extractive|count-3", "queryLanguage": "en-us", "select": "chunk_id,text_parent_id,chunk,title" }
Para executar a consulta, selecione Pesquisar.
Cada documento é um pedaço do PDF original. O
title
campo mostra de qual PDF vem o bloco. Cada um deleschunk
é longo. Você pode copiar e colar um em um editor de texto para ler todo o valor.Para ver todas as partes de um documento específico, adicione um filtro para o
title_parent_id
campo de um PDF específico. Você pode verificar a guia Campos do seu índice para confirmar que o campo é filtrável.{ "select": "chunk_id,text_parent_id,chunk,title", "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'", "count": true, "vectorQueries": [ { "kind": "text", "text": "*", "k": 5, "fields": "text_vector" } ] }
Limpeza
O Azure AI Search é um recurso faturável. Se já não precisar dele, elimine-o da sua subscrição para evitar cobranças.
Próximo passo
Este guia de início rápido apresentou o assistente Importar e vetorizar dados, que cria todos os objetos necessários para vetorização integrada. Para explorar cada etapa em detalhes, consulte Configurar vetorização integrada no Azure AI Search.