Dela via


Läsa in och bearbeta dokumentfiler i Azure Cosmos DB för sökning

Anteckning

Dokumentinmatning för Azure Cosmos DB finns i privat förhandsversion. Om du är intresserad av att delta i förhandsversionen rekommenderar vi att du ansluter till väntelistan genom att signera det här formuläret: https://aka.ms/Doc2CDBSignup

Vi introducerar Doc2CDB för Azure Cosmos DB, en kraftfull accelerator som är utformad för att effektivisera extrahering, förbearbetning och hantering av stora mängder textdata för vektorlikhetssökning. Den här lösningen använder de avancerade vektorindexeringsfunktionerna i Azure Cosmos DB och drivs av Azure AI Services för att tillhandahålla en robust och effektiv pipeline som är enkel att konfigurera och perfekt för många användningsfall, inklusive:

  • Vektorlikhetssökning över textdata. Extrahera och vektorisera text från dokumentdata som ska lagras i Azure Cosmos DB, vilket gör det enkelt för dig att utföra semantisk sökning för att hitta dokument som är kontextuellt relaterade till dina frågor. På så sätt kan de identifiera relevant information som kanske inte hittas genom traditionella nyckelordssökningar, vilket underlättar mer omfattande datahämtning.

  • Återhämtnings-förstärkt generering (RAG) över dokument. Anpassa dina små och stora språkmodeller till dina data med RAG. Genom att extrahera text från dokumentfiler, segmentera och vektorisera data och sedan lagra dem i Azure Cosmos DB, konfigureras du sedan för att ge chattroboten möjlighet att generera mer exakta och kontextuellt relevanta svar på dina scenarier. När du ställer en fråga hämtar chattroboten de mest relevanta textsegmenten genom vektorsökning och använder dem för att generera ett svar, baserat på dina dokumentdata.

Diagram över Cosmos AI Graph-infrastruktur, komponenter och flöde.

Pipelinen från slutpunkt till slutpunkt

Doc2CDB innehåller flera viktiga steg i pipelinen:

  1. Filuppladdning till Azure Blob Storage
    • Processen börjar med att ladda upp dokument till Azure Blob Storage. Det här steget säkerställer att dina filer lagras på ett säkert sätt och är lättillgängliga för vidare bearbetning. Detta är kompatibelt med PDF-filer, Microsoft Office-dokument (DOCX, XLSX, PPTX, HTML) och bilder (JPEG, PNG, BMP, TIFF, HEIF).
  2. Extrahering av text
    • När filerna har laddats upp är nästa steg extrahering av text. Det handlar om att parsa textdata och utföra OCR på dokument med hjälp av Azure Document Intelligence för att extrahera text som kan bearbetas och indexeras i Azure Cosmos DB. Det här steget är avgörande för att förbereda data för efterföljande bearbetning.
  3. Textsegmentering
    • Efter extrahering delas råtexten upp i hanterbara segment. Den här segmenteringsprocessen är viktig för att göra det möjligt för små och stora språkmodeller (SLI/LLM) i Azure AI att bearbeta texten effektivt. Genom att dela upp texten i mindre delar ser vi till att data är mer tillgängliga och enklare att hantera.
  4. Inbäddning av text
    • I det här skedet används Azure OpenAI-tjänstens text-3-embedding-large-modell för att skapa vektorinbäddningar av textsegmenten. Dessa inbäddningar fångar den semantiska innebörden av texten, vilket möjliggör mer avancerade och exakta sökningar. Inbäddningarna är en viktig komponent för att aktivera avancerade sökfunktioner.
  5. Textlagring
    • Slutligen lagras varje textsegment, tillsammans med motsvarande vektorinbäddning, i en Azure Cosmos DB för NoSQL-container som ett unikt dokument. Den här containern är konfigurerad för att utföra effektiva vektorsökningar och så småningom fulltextsökningar. Med hjälp av Azure Cosmos DB:s kraftfulla vektorindexerings- och sökfunktioner kan användarna snabbt och enkelt hämta relevant information från sina textdata.

Fördelar med Doc2CDB-lösningsacceleratorn

  • Skalbarhet: Hantera stora mängder textdata på ett enkelt sätt tack vare skalbar typ av Azure AI-tjänster och Azure Cosmos DB
  • Effektivitet: Effektivisera textbearbetningspipelinen, vilket minskar den tid och det arbete som krävs för att hantera och söka efter textdata. Detta är förkonfigurerat åt dig
  • Avancerade sökfunktioner: Använd ultrasnabb och effektiv vektorindexering i Azure Cosmos DB för att utföra vektorsökning för att hitta de mest semantiskt relevanta data från dina dokument

Kom igång

Doc2CDB-acceleratorn är utformad för att hjälpa dig att parsa, bearbeta och lagra dokumentdata enklare för att dra nytta av Azure Cosmos DB:s omfattande frågespråk och kraftfulla Vector Similarity Search. Besök https://aka.ms/Doc2CDB och prova idag!

Gå vidare