Använda agentstenar: Extrahering av information

2025-06-28

Viktigt!

Den här funktionen finns i Beta.

Den här artikeln beskriver hur du skapar en generativ AI-agent för informationsextrahering med hjälp av Agent Bricks: Information Extraction.

Agent Bricks tillhandahåller en enkel metod utan kod för att skapa och optimera domänspecifika AI-agentsystem av hög kvalitet för vanliga AI-användningsfall.

Vad är Agent Bricks: Information Extrahering?

Agent Bricks stöder extrahering av information och förenklar processen med att omvandla en stor mängd omärkta textdokument till en strukturerad tabell med extraherad information för varje dokument.

Exempel på extrahering av information är:

Extrahera priser och leasinginformation från kontrakt.
Organisera data från kundanteckningar.
Få viktig information från nyhetsartiklar.

Agentstenar: Informationsextrahering utnyttjar automatiserade utvärderingsfunktioner, inklusive MLflow och agentutvärdering, för att möjliggöra snabb utvärdering av kostnadskvalitetsavvägningen för din specifika extraheringsuppgift. Med den här utvärderingen kan du fatta välgrundade beslut om balansen mellan noggrannhet och resursinvesteringar.

Kravspecifikation

En arbetsyta som innehåller följande:
- Mosaic AI Agent Bricks Preview (Beta) aktiverad. Se Hantera förhandsversioner av Azure Databricks.
- Serverlös beräkning aktiverad. Se Aktivera serverlös beräkning.
- Unity Catalog aktiverat. Se Aktivera en arbetsyta för Unity Catalog.
- En arbetsyta i någon av de regioner som stöds: eastus, eastus2, westus, centraluseller northcentralus.
- Åtkomst till grundmodeller i Unity Catalog via system.ai schemat.
- Åtkomst till en serverlös budgetprincip med en icke-nollbudget.
Möjlighet att använda SQL-funktionenai_query.
Filer som du vill extrahera data från. Filerna måste finnas i en Unity Catalog-volym eller -tabell.
- Om du vill använda PDF-filer konverterar du dem först till en Unity Catalog-tabell. Se Använda PDF-filer i Agent Bricks.
- För att skapa din agent behöver du minst 1 omärkt dokument i Unity Catalog-volymen eller en rad i tabellen.
- Om du vill optimera din agent ((valfritt) steg 4: Granska och distribuera en optimerad agent måste du ha minst 75 omärkta dokument i Unity Catalog-volymen eller minst 75 rader i tabellen.

Skapa en informationsextraheringsagent

Gå till agentikonen. Agenter i det vänstra navigeringsfönstret på arbetsytan och klickar på Extrahering av information.

Agent Bricks: Informationsutvinning

Steg 1: Lägg till indata och utdataexempel

På fliken Konfigurera klickar du på Visa ett exempel > för att expandera ett exempel på indata och modellsvar för en informationsextraheringsagent.

I fönstret nedan konfigurerar du din agent:

I fältet Källdokument väljer du den mapp eller tabell som du vill använda från Unity Catalog-volymen. Om du har valt en tabell väljer du den kolumn som innehåller textdata från listrutan.

Mappen måste innehålla dokument i dokumentformat som stöds och tabellkolumnen måste innehålla data i ett dataformat som stöds. Den här datauppsättningen används för att skapa din agent.

Om du vill använda PDF-filer konverterar du dem först till en Unity Catalog-tabell. Se Använda PDF-filer i Agent Bricks.

Följande är en exempelvolym:

/Volumes/main/info-extraction/bbc_articles/

I fältet Exempelutdata anger du ett exempelsvar:

{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

Ange ett namn för din agent. Du kan lämna standardnamnet om du inte vill ändra det.
Välj Skapa agent.

Dokumentformat som stöds

I följande tabell visas de dokumentfiltyper som stöds för källdokumenten om du anger en Unity Catalog-volym.

Kodfiler	Dokumentfiler	Loggfiler
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

dataformat som stöds

Agentstenar: Extrahering av information stöder följande datatyper och scheman för dina källdokument om du tillhandahåller en Unity Catalog-tabell. Agent Bricks kan också extrahera dessa datatyper från varje dokument.

str
int
float
boolean
Anpassade kapslade fält
Matriser med ovanstående datatyper

Steg 2: Skapa och förbättra din agent

På fliken Utforma i panelen Agentkonfiguration förbättrar du schemadefinitionen för bättre resultat.

(Valfritt) Lägg till globala instruktioner för din agent, till exempel en fråga som kan gälla för alla fält.
Justera beskrivningarna av de schemafält som du vill att agenten ska använda för utdatasvar. Dessa beskrivningar är vad agenten förlitar sig på för att förstå vad du vill extrahera.
Klicka på Uppdatera agent.

Till vänster på fliken Skapa granskar du rekommendationer och exempelutdata.

Granska modellutdataexempel baserat på specifikationerna för varje fält.
Granska Databricks-rekommendationerna för att optimera agentprestanda.
Använd rekommendationer och justera dina beskrivningar och instruktioner i fönstret Agentkonfiguration efter behov.
När du har tillämpat ändringar och rekommendationer väljer du Uppdatera agenten för att spara ändringarna i din agent. Förbättra agentens fönsteruppdateringar för att visa nya exempelmodellutdata. Rekommendationerna i det här fönstret uppdateras inte.

Nu har du en agent för informationsextrahering.

Steg 3: Använd din agent

Du kan använda din agent i arbetsflöden i Databricks.

På fliken Använd,

Välj Starta extrahering för att öppna SQL-redigeraren och använd ai_query för att skicka begäranden till din nya informationsextraheringsagent.
(Valfritt) Välj Optimera om du vill optimera din agent för kostnad.
- Optimering kräver minst 75 filer.
- Optimering kan ta ungefär en timme.
- Ändringar i din aktiva agent blockeras när optimering pågår.

När optimeringen är klar dirigeras du till fliken Granska för att visa en jämförelse av din aktiva agent och en agent som är optimerad för kostnad. Se (valfritt) Steg 4: Granska och distribuera en optimerad agent.

(Valfritt) Välj Skapa pipeline för att distribuera en pipeline som körs med schemalagda intervall för att använda din agent på nya data. För mer information om Lakeflow Declarative Pipelines och pipelines.

Extrahera data för alla dokumentpaneler och panelen Optimera agentprestanda på fliken Använd i ABIE

(valfritt) Steg 4: Granska och distribuera en optimerad agent

När du väljer Optimera på fliken Använd jämför Databricks flera olika optimeringsstrategier för att skapa och rekommendera en optimerad agent. Dessa strategier inkluderar finjustering av grundmodell som använder Databricks Geos.

På fliken Granska,

I Utvärderingsresultatkan du visuellt jämföra den optimerade agenten och din aktiva agent. För att utföra utvärderingen väljer Databricks ett mått baserat på varje fälts datatyp och använder en utvärderingsdatauppsättning för att jämföra din aktiva agent och agenten som är optimerad för kostnad. Den här utvärderingsuppsättningen baseras på en delmängd av de data som du använde för att skapa din ursprungliga agent.
1. Mått loggas till din MLflow-körning per fält (aggregerat till huvudnivåfältet).
2. Välj kolumnerna overall_score och is_schema_match i listrutan Kolumner.
När du har granskat dessa resultat klickar du på Distribuera om du vill distribuera den optimerade agenten i stället för din aktiva agent.

Använda PDF-filer i Agent Bricks

PDF-filer stöds ännu inte internt i Agent Bricks: Information Extraction och Custom LLM. Du kan dock använda Agent Bricks gränssnittsarbetsflöde för att konvertera en mapp med PDF-filer till markdown och sedan använda den resulterande Unity Catalog-tabellen som indata när du skapar din agent. Det här arbetsflödet använder ai_parse_document för konverteringen. Följ dessa steg:

Klicka på Agenter i det vänstra navigeringsfönstret för att öppna Agentstenar i Databricks.
I det övre högra hörnet klickar du på Använd PDF-filer i Agent Bricks.
I panelen som öppnas anger du följande fält för att skapa ett nytt arbetsflöde för att konvertera dina PDF-filer:
1. Välj mapp med PDF-filer: Välj mappen Unity Catalog som innehåller de PDF-filer som du vill använda.
2. Välj måltabell: Välj målschemat för den konverterade markdown-tabellen och om du vill kan du justera tabellnamnet i fältet nedan.
3. Välj aktivt SQL-lager: Välj SQL-lagret för att köra arbetsflödet.
Klicka på Starta import.
Du omdirigeras till fliken Alla arbetsflöden , som visar alla dina PDF-arbetsflöden. Använd den här fliken om du vill övervaka status för dina jobb.

Granska status för arbetsflödet för att använda PDF-filer i Agent Bricks.

Om arbetsflödet misslyckas klickar du på jobbnamnet för att öppna det och visa felmeddelanden som hjälper dig att felsöka.
När arbetsflödet har slutförts klickar du på jobbnamnet för att öppna tabellen i Katalogutforskaren för att utforska och förstå kolumnerna.
Använd tabellen Unity Catalog som indata i Agent Bricks när du konfigurerar din agent.

Begränsningar

Databricks rekommenderar minst 1 000 dokument för att optimera din agent. När du lägger till fler dokument ökar kunskapsbasen som agenten kan lära sig av, vilket förbättrar agentkvaliteten och dess extraheringsnoggrannhet.
Om källdokumenten innehåller en fil som är större än 3 MB misslyckas agentskapandet.
Dokument som är större än 64 kB kan hoppas över under agentbygget.
Indata- och utdatagränsen är 128 000 token.
Arbetsytor som använder Azure Private Link, inklusive lagring bakom Azure Private Link, stöds inte.
Union-schematyper stöds inte.