Nutzung von Agent Bricks Informationenextraktion

2025-07-02

Von Bedeutung

Dieses Feature befindet sich in der Betaversion.

In diesem Artikel wird beschrieben, wie Sie einen generativen KI-Agent für die Informationsextraktion mithilfe von Agent Bricks: Information Extraction erstellen.

Agent Bricks bietet einen einfachen, codefreien Ansatz zum Erstellen und Optimieren von domänenspezifischen, qualitativ hochwertigen KI-Agent-Systemen für gängige KI-Anwendungsfälle.

Was ist Agent Bricks: Informationsextraktion?

Agent Bricks unterstützt die Informationsextraktion und vereinfacht den Prozess der Transformation eines großen Volumens von nicht bezeichneten Textdokumenten in eine strukturierte Tabelle mit extrahierten Informationen für jedes Dokument.

Beispiele für die Informationsextraktion sind:

Extrahieren von Preisen und Mietinformationen aus Verträgen.
Organisieren von Daten aus Kundennotizen.
Wichtige Details aus Newsartikeln abrufen.

Agent Bricks: Die Informationsextraktion nutzt automatisierte Auswertungsfunktionen, einschließlich MLflow- und Agent-Auswertung, um eine schnelle Bewertung des Kostenqualitätskonflikts für Ihre spezifische Extraktionsaufgabe zu ermöglichen. Mit dieser Bewertung können Sie fundierte Entscheidungen über das Gleichgewicht zwischen Genauigkeit und Ressourceninvestitionen treffen.

Anforderungen

Ein Arbeitsbereich, der Folgendes umfasst:
- Mosaik AI Agent Bricks Preview (Beta) ist aktiviert. Siehe Verwalten von Azure Databricks Previews.
- Serverloses Rechnen aktiviert Siehe "Serverloses Berechnen aktivieren".
- Unity-Katalog aktiviert. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.
- Ein Arbeitsbereich in einem der unterstützten Regionen: eastus, , eastus2, , westus, centralusoder northcentralus.
- Zugriff auf Foundation-Modelle im Unity-Katalog über das system.ai Schema.
- Zugriff auf eine serverlose Budgetrichtlinie mit einem Budget ungleich Null.
Möglichkeit zum Verwenden der ai_query SQL-Funktion.
Dateien, aus denen Sie Daten extrahieren möchten. Die Dateien müssen sich in einem Unity-Katalogvolume oder einer Tabelle befinden.
- Zum Erstellen Ihres Agents benötigen Sie mindestens 10 nicht bezeichnete Dokumente in Ihrem Unity-Katalogvolume oder 10 Zeilen in Ihrer Tabelle.
- Um Ihren Agent ((Optional) Schritt 4: Überprüfen und Bereitstellen eines optimierten Agents zu optimieren, müssen Sie mindestens 75 nicht bezeichnete Dokumente in Ihrem Unity-Katalogvolume oder mindestens 75 Zeilen in Ihrer Tabelle haben.

Erstellen eines Informationsextraktions-Agents

Wechseln Sie zum Symbol im linken Navigationsbereich Ihres Arbeitsbereichs und klicken Sie auf "Informationsextraktion".

Agent Bricks: Informationsentnahme

Schritt 1: Hinzufügen von Eingabedaten und Ausgabebeispiel

Klicken Sie auf der Registerkarte "Konfigurieren" auf "Beispiel >anzeigen", um eine Beispieleingabe- und Modellantwort für einen Informationsextraktions-Agent zu erweitern.

Konfigurieren Sie im folgenden Bereich Ihren Agent:

Wählen Sie im Feld "Quelldokumente " den Ordner oder die Tabelle aus, den Sie aus Ihrem Unity-Katalogvolume verwenden möchten. Wenn Sie eine Tabelle ausgewählt haben, wählen Sie die Spalte aus, die Ihre Textdaten aus der Dropdownliste enthält.

Der Ordner muss Dokumente in einem unterstützten Dokumentformat enthalten, und die Tabellenspalte muss Daten in einem unterstützten Datenformat enthalten. Dieses Dataset wird verwendet, um Ihren Agent zu erstellen.

Es folgt ein Beispielvolume:

/Volumes/main/info-extraction/bbc_articles/

Geben Sie im Beispielausgabefeld eine Beispielantwort an:

{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

Geben Sie einen Namen für Ihren Agenten an. Sie können den Standardnamen belassen, wenn Sie ihn nicht ändern möchten.
Wählen Sie "Agent erstellen" aus.

Unterstützte Dokumentformate

In der folgenden Tabelle sind die unterstützten Dokumentdateitypen für Ihre Quelldokumente aufgeführt, wenn Sie ein Unity-Katalogvolume bereitstellen.

Codedateien	Dokumentdateien	Protokolldateien
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

Unterstützte Datenformate

Agent Bricks: Die Informationsextraktion unterstützt die folgenden Datentypen und Schemas für Ihre Quelldokumente, wenn Sie eine Unity-Katalogtabelle bereitstellen. Agent Bricks können diese Datentypen auch aus jedem Dokument extrahieren.

str
int
float
boolean
Benutzerdefinierte geschachtelte Felder
Arrays der oben genannten Datentypen

Schritt 2: Erstellen und Verbessern Ihres Agents

Verfeinern Sie auf der Registerkarte " Build " im Agent-Konfigurationsbereich Ihre Schemadefinition, um bessere Ergebnisse zu erzielen.

(Optional) Fügen Sie globale Anweisungen für Ihren Agent hinzu, z. B. eine Eingabeaufforderung, die für alle Felder gelten kann.
Passen Sie die Beschreibungen der Schemafelder an, die ihr Agent für Ausgabeantworten verwenden soll. Diese Beschreibungen sind das, was der Agent benötigt, um zu verstehen, was Sie extrahieren möchten.
Klicken Sie auf "Agent aktualisieren".

Auf der linken Seite der Erstellen-Registerkarte, überprüfen Sie Empfehlungen und Beispielausgaben.

Überprüfen Sie Modellausgabebeispiele basierend auf den Spezifikationen, die für jedes Feld bereitgestellt werden.
Überprüfen Sie die Databricks-Empfehlungen zur Optimierung der Agentleistung.
Wenden Sie Empfehlungen an, und passen Sie Ihre Beschreibungen und Anweisungen nach Bedarf im Agent-Konfigurationsbereich an.
Nachdem Sie Änderungen und Empfehlungen angewendet haben, wählen Sie "Agent aktualisieren " aus, um diese Änderungen an Ihrem Agent zu speichern. Der Bereich Verbessern Sie Ihren Agenten wird aktualisiert, um neue Beispielmodellausgaben anzuzeigen. Die Empfehlungen in diesem Fensterbereich werden nicht aktualisiert.

Jetzt verfügen Sie über einen Agent für die Informationsextraktion.

Schritt 3: Verwenden Ihres Agents

Sie können Ihren Agenten in Workflows über Databricks hinweg verwenden.

Auf der Registerkarte Verwenden

Wählen Sie Extraktion starten aus, um den SQL-Editor zu öffnen und ai_query zum Senden von Anforderungen an Ihren neuen Informationsextraktions-Agent zu verwenden.
(Optional) Wählen Sie "Optimieren" aus, wenn Sie Ihren Agenten für Kosten optimieren möchten.
- Optimierung erfordert mindestens 75 Dateien.
- Die Optimierung kann etwa eine Stunde dauern.
- Änderungen am aktuell aktiven Agent werden blockiert, wenn die Optimierung ausgeführt wird.

Wenn die Optimierung abgeschlossen ist, werden Sie zur Registerkarte "Überprüfen" geleitet, um einen Vergleich Ihres aktuell aktiven Agents und eines Agents anzuzeigen, der auf Kostenoptimierung ausgelegt ist. Siehe (Optional) Schritt 4: Überprüfen und Bereitstellen eines optimierten Agents.

(Optional) Wählen Sie "Pipeline erstellen" aus, um eine Pipeline bereitzustellen, die in geplanten Intervallen ausgeführt wird, um Ihren Agent für neue Daten zu verwenden. Weitere Informationen zu Pipelines finden Sie unter Lakeflow Declarative Pipelines .

Daten für die Kachel

(Optional) Schritt 4: Überprüfen und Bereitstellen eines optimierten Agents

Wenn Sie auf der Registerkarte "Verwenden" die Option "Optimieren" auswählen, vergleicht Databricks mehrere verschiedene Optimierungsstrategien, um einen optimierten Agent zu erstellen und zu empfehlen. Zu diesen Strategien gehören die Feinabstimmung von Foundation-Modellen, die Databricks Geos verwenden.

Auf der Registerkarte " Überprüfen "

In den Auswertungsergebnissen können Sie den optimierten Agent und Ihren aktiven Agent visuell vergleichen. Um die Auswertung durchzuführen, wählt Databricks eine Metrik basierend auf dem Datentyp jedes Felds und verwendet einen Auswertungsdatensatz, um Ihren aktiven Agent und den für Kosten optimierten Agent zu vergleichen. Dieser Auswertungssatz basiert auf einer Teilmenge der Daten, die Sie zum Erstellen Ihres ursprünglichen Agents verwendet haben.
1. Metriken werden in Ihrer MLflow-Ausführung pro Feld protokolliert (aggregiert auf das oberste Feld).
2. Wählen Sie die overall_score- und is_schema_match-Spalten aus der Dropdownliste Spalten aus.
Nachdem Sie diese Ergebnisse überprüft haben, klicken Sie auf "Bereitstellen ", wenn Sie diesen optimierten Agent anstelle des derzeit aktiven Agents bereitstellen möchten.

Einschränkungen

Databricks empfiehlt mindestens 1000 Dokumente, um Ihren Agenten zu optimieren. Wenn Sie weitere Dokumente hinzufügen, erhöht sich die Wissensbasis, aus der der Agent lernen kann, wodurch die Agentqualität und die Extraktionsgenauigkeit verbessert werden.
Wenn Ihre Quelldokumente eine Datei enthalten, die größer als 3 MB ist, schlägt die Agenterstellung fehl.
Dokumente, die größer als 64 KB sind, können während der Agent-Erstellung übersprungen werden.
Das Eingabe- und Ausgabelimit beträgt 128K-Token.
Arbeitsbereiche, die Azure Private Link verwenden, einschließlich Speicher hinter Azure Private Link, werden nicht unterstützt.
Union-Schematypen werden nicht unterstützt.