Chargez et traitez des fichiers de documents dans Azure Cosmos DB pour la recherche

Article
19/12/2024
S’applique à:

✅ NoSQL

Note

L’ingestion de documents pour Azure Cosmos DB est en version préliminaire privée. Si vous êtes intéressé à participer à l'aperçu, nous vous encourageons à rejoindre la liste d'attente en signant ce formulaire : https://aka.ms/Doc2CDBSignup

Nous présentons Doc2CDB pour Azure Cosmos DB, un accélérateur puissant conçu pour simplifier l’extraction, le prétraitement et la gestion de grands volumes de données texte pour la recherche de similarité vectorielle. Cette solution utilise les fonctionnalités avancées d’indexation vectorielle d’Azure Cosmos DB et est alimentée par Azure AI Services pour fournir un pipeline robuste et efficace qui est facile à configurer et parfait pour de nombreux cas d’utilisation, notamment :

La recherche de similarité vectorielle sur les données texte. Extrayez et vectorisez du texte des données de document à stocker dans Azure Cosmos DB, ce qui vous permet d’effectuer facilement une recherche sémantique pour rechercher des documents qui sont liés au contexte de vos requêtes. Cela leur permet de découvrir des informations pertinentes qui peuvent ne pas être trouvées par le biais de recherches de mots clés traditionnelles, ce qui facilite la récupération de données plus complètes.
La génération augmentée de récupération (RAG) sur les documents. Grâce à la génération augmentée de récupération, vous pouvez personnaliser vos modèles de langage petits et volumineux en fonction de vos données. L’extraction de texte à partir de fichiers de documents, la segmentation et la vectorisation des données ainsi que le stockage des données dans Azure Cosmos DB pour permet d’autonomiser le chatbot afin qu’il génère des réponses plus précises et plus pertinentes d’un point de vue contextuel en fonction de vos scénarios. Lorsque vous posez une question, le chatbot récupère les segment de texte les plus pertinents par le biais de la recherche vectorielle et les utilise pour générer une réponse, ancrée dans vos données de document.

Diagramme de l’infrastructure, des composants et du flux Cosmos AI Graph.

Un pipeline de bout en bout

Doc2CDB comprend plusieurs étapes clés dans son pipeline :

Téléchargement des fichiers vers le Azure Blob Storage
- Le processus commence par le téléchargement de documents vers Stockage Blob Azure. Cette étape garantit que vos fichiers sont stockés en toute sécurité et facilement accessibles pour un traitement ultérieur. Cela est compatible avec les fichiers PDF, les documents Microsoft Office (DOCX, XLSX, PPTX, HTML) et les images (JPEG, PNG, BMP, TIFF, HEIF).
Extraction de texte
- Une fois les fichiers téléchargés, l’étape suivante consiste à extraire du texte. Cela implique l’analyse des données de texte et l’exécution d’une reconnaissance optique de caractères (OCR) sur des documents à l’aide d’Azure Document Intelligence dans le but d’extraire du texte qui peut être traité et indexé dans Azure Cosmos DB. Cette étape est cruciale pour préparer les données pour le traitement ultérieur.
Segmentation de texte
- Après l’extraction, le texte brut est divisé en segments gérables. Ce processus de segmentation est essentiel pour permettre aux modèles de langage petits et volumineux (SLM/LLM) dans Azure AI de traiter efficacement le texte. En divisant le texte en segments plus petits, nous nous assurons que les données sont plus accessibles et plus faciles à gérer.
Incorporation de texte
- À cette étape, le modèle d’incorporation text-3-embedding-large d’Azure OpenAI Service est utilisé pour produire des incorporations vectorielles des segments de texte. Ces incorporations capturent la signification sémantique du texte, ce qui permet des recherches plus sophistiquées et plus précises. Les incorporations sont un composant essentiel pour activer les fonctionnalités de recherche avancées.
Stockage de texte
- Enfin, chaque segment de texte, ainsi que son incorporation vectorielle correspondante, est stocké dans un conteneur Azure Cosmos DB for NoSQL en tant que document unique. Ce conteneur est configuré pour effectuer des recherches vectorielles efficaces et, éventuellement, des recherches en texte intégral. Grâce aux puissantes fonctionnalités d’indexation et de recherche vectorielles d’Azure Cosmos DB, les utilisateurs peuvent rapidement et facilement récupérer des informations pertinentes à partir de leurs données de texte.

Avantages de l’accélérateur de solution Doc2CDB

Scalabilité : gérez facilement de grands volumes de données texte grâce à la nature évolutive des services Azure AI et Azure Cosmos DB
Efficacité : simplifiez le pipeline de traitement de texte, ce qui réduit le temps et les efforts nécessaires pour gérer et rechercher des données de texte. Ceci est préconfiguré pour vous
Fonctionnalités de recherche avancée : utilisez l’indexation vectorielle ultra rapide et efficace dans Azure Cosmos DB pour effectuer une recherche vectorielle et trouver les données les plus pertinentes d’un point de vue sémantique à partir de vos documents

Démarrage

L’accélérateur Doc2CDB est conçu pour vous aider à analyser, traiter et stocker vos données de document plus facilement pour tirer parti du langage de requête riche d’Azure Cosmos DB et de la recherche de similarité vectorielle puissante. Rendez-vous sur https://aka.ms/Doc2CDB et essayez-le dès maintenant !

Étape suivante

Utiliser le niveau gratuit d’Azure Cosmos DB valable pendant toute la durée de vie du compte

Ressources supplémentaires

Documentation

Créer un chatbot RAG - Azure Cosmos DB for NoSQL

Générez un chatbot de génération augmentée de récupération (RAG) dans Python à l’aide des fonctionnalités de recherche vectorielle d'Azure Cosmos DB for NoSQL.
Intégrations pour les applications d’IA - Azure Cosmos DB

Intégrez Azure Cosmos DB à des packages d’orchestration d’IA et de grands modèles de langage (LLM), tels que Semantic Kernel et LangChain.
Génération augmentée de récupération - Azure Cosmos DB

Découvrez la génération augmentée de récupération (RAG) dans le contexte des fonctionnalités de recherche vectorielle d’Azure Cosmos DB for NoSQL.
Graphes de connaissances IA

Créez des graphes de connaissances IA à l’aide d’Azure Cosmos DB for NoSQL pour permettre aux applications IA de gérer et d’interroger des relations de données complexes.
Essayer gratuitement avec Azure AI Advantage - Azure Cosmos DB

Essayez Azure Cosmos DB gratuitement avec l’offre Azure AI Advantage. Innover avec une pile complète et intégrée conçue pour les applications basées sur l’IA.
Génération d’annonces améliorée par l’IA - Azure Cosmos DB for MongoDB vCore

Permet de faire la démonstration de l’utilisation de la recherche de similarité vectorielle d’Azure Cosmos DB for MongoDB vCore et les incorporations d’OpenAI pour générer du contenu publicitaire.
Recherche de similarité vectorielle - Azure Cosmos DB

Vue d’ensemble de la fonctionnalité de recherche de similarité vectorielle dans les différentes fonctionnalités de recherche vectorielle d’Azure Cosmos DB.
Incorporations de vecteurs à haute dimension - Azure Cosmos DB

Vue d’ensemble des incorporations de vecteurs à haute dimension, ou des représentations mathématiques des données dans Azure Cosmos DB.

Formation

Module

Rechercher dans des données Azure Cosmos DB for NoSQL avec Recherche cognitive Azure - Training

Indexez des données Azure Cosmos DB for NoSQL avec Recherche cognitive Azure.

Certification

Microsoft Certified : Azure Cosmos DB Developer Specialty - Certifications

Écrivez des requêtes efficaces, créez des stratégies d’indexation, gérez et approvisionnez des ressources dans l’API SQL et le Kit de développement logiciel (SDK) avec Microsoft Azure Cosmos DB.

Événement

Créer des applications et des agents IA

17 mars, 21 h - 21 mars, 10 h

Rejoignez la série de rencontres pour créer des solutions IA évolutives basées sur des cas d’usage réels avec d’autres développeurs et experts.

S’inscrire maintenant

Partager via

Chargez et traitez des fichiers de documents dans Azure Cosmos DB pour la recherche

Un pipeline de bout en bout

Avantages de l’accélérateur de solution Doc2CDB

Démarrage

Étape suivante

Commentaires

Ressources supplémentaires

Partager via

Chargez et traitez des fichiers de documents dans Azure Cosmos DB pour la recherche

Un pipeline de bout en bout

Avantages de l’accélérateur de solution Doc2CDB

Démarrage

Contenu connexe

Étape suivante

Commentaires

Ressources supplémentaires