Lire en anglais

Partager via


Chargez et traitez des fichiers de documents dans Azure Cosmos DB pour la recherche

Note

L’ingestion de documents pour Azure Cosmos DB est en version préliminaire privée. Si vous êtes intéressé à participer à l'aperçu, nous vous encourageons à rejoindre la liste d'attente en signant ce formulaire : https://aka.ms/Doc2CDBSignup

Nous présentons Doc2CDB pour Azure Cosmos DB, un accélérateur puissant conçu pour simplifier l’extraction, le prétraitement et la gestion de grands volumes de données texte pour la recherche de similarité vectorielle. Cette solution utilise les fonctionnalités avancées d’indexation vectorielle d’Azure Cosmos DB et est alimentée par Azure AI Services pour fournir un pipeline robuste et efficace qui est facile à configurer et parfait pour de nombreux cas d’utilisation, notamment :

  • La recherche de similarité vectorielle sur les données texte. Extrayez et vectorisez du texte des données de document à stocker dans Azure Cosmos DB, ce qui vous permet d’effectuer facilement une recherche sémantique pour rechercher des documents qui sont liés au contexte de vos requêtes. Cela leur permet de découvrir des informations pertinentes qui peuvent ne pas être trouvées par le biais de recherches de mots clés traditionnelles, ce qui facilite la récupération de données plus complètes.

  • La génération augmentée de récupération (RAG) sur les documents. Grâce à la génération augmentée de récupération, vous pouvez personnaliser vos modèles de langage petits et volumineux en fonction de vos données. L’extraction de texte à partir de fichiers de documents, la segmentation et la vectorisation des données ainsi que le stockage des données dans Azure Cosmos DB pour permet d’autonomiser le chatbot afin qu’il génère des réponses plus précises et plus pertinentes d’un point de vue contextuel en fonction de vos scénarios. Lorsque vous posez une question, le chatbot récupère les segment de texte les plus pertinents par le biais de la recherche vectorielle et les utilise pour générer une réponse, ancrée dans vos données de document.

Diagramme de l’infrastructure, des composants et du flux Cosmos AI Graph.

Un pipeline de bout en bout

Doc2CDB comprend plusieurs étapes clés dans son pipeline :

  1. Téléchargement des fichiers vers le Azure Blob Storage
    • Le processus commence par le téléchargement de documents vers Stockage Blob Azure. Cette étape garantit que vos fichiers sont stockés en toute sécurité et facilement accessibles pour un traitement ultérieur. Cela est compatible avec les fichiers PDF, les documents Microsoft Office (DOCX, XLSX, PPTX, HTML) et les images (JPEG, PNG, BMP, TIFF, HEIF).
  2. Extraction de texte
    • Une fois les fichiers téléchargés, l’étape suivante consiste à extraire du texte. Cela implique l’analyse des données de texte et l’exécution d’une reconnaissance optique de caractères (OCR) sur des documents à l’aide d’Azure Document Intelligence dans le but d’extraire du texte qui peut être traité et indexé dans Azure Cosmos DB. Cette étape est cruciale pour préparer les données pour le traitement ultérieur.
  3. Segmentation de texte
    • Après l’extraction, le texte brut est divisé en segments gérables. Ce processus de segmentation est essentiel pour permettre aux modèles de langage petits et volumineux (SLM/LLM) dans Azure AI de traiter efficacement le texte. En divisant le texte en segments plus petits, nous nous assurons que les données sont plus accessibles et plus faciles à gérer.
  4. Incorporation de texte
    • À cette étape, le modèle d’incorporation text-3-embedding-large d’Azure OpenAI Service est utilisé pour produire des incorporations vectorielles des segments de texte. Ces incorporations capturent la signification sémantique du texte, ce qui permet des recherches plus sophistiquées et plus précises. Les incorporations sont un composant essentiel pour activer les fonctionnalités de recherche avancées.
  5. Stockage de texte
    • Enfin, chaque segment de texte, ainsi que son incorporation vectorielle correspondante, est stocké dans un conteneur Azure Cosmos DB for NoSQL en tant que document unique. Ce conteneur est configuré pour effectuer des recherches vectorielles efficaces et, éventuellement, des recherches en texte intégral. Grâce aux puissantes fonctionnalités d’indexation et de recherche vectorielles d’Azure Cosmos DB, les utilisateurs peuvent rapidement et facilement récupérer des informations pertinentes à partir de leurs données de texte.

Avantages de l’accélérateur de solution Doc2CDB

  • Scalabilité : gérez facilement de grands volumes de données texte grâce à la nature évolutive des services Azure AI et Azure Cosmos DB
  • Efficacité : simplifiez le pipeline de traitement de texte, ce qui réduit le temps et les efforts nécessaires pour gérer et rechercher des données de texte. Ceci est préconfiguré pour vous
  • Fonctionnalités de recherche avancée : utilisez l’indexation vectorielle ultra rapide et efficace dans Azure Cosmos DB pour effectuer une recherche vectorielle et trouver les données les plus pertinentes d’un point de vue sémantique à partir de vos documents

Démarrage

L’accélérateur Doc2CDB est conçu pour vous aider à analyser, traiter et stocker vos données de document plus facilement pour tirer parti du langage de requête riche d’Azure Cosmos DB et de la recherche de similarité vectorielle puissante. Rendez-vous sur https://aka.ms/Doc2CDB et essayez-le dès maintenant !

Étape suivante