Daten aus Azure Files indizieren (Vorschau)

Note

Diese Funktion steht derzeit als Vorschau zur Verfügung. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Wichtig

Diese Features und Funktionen unterstützen Verbindungen mit anderen Microsoft-Dienste und Drittanbieterdiensten. Die Nutzung dieser Dienste unterliegt den jeweiligen Bestimmungen und kann dazu führen, dass Daten außerhalb der Azure-Compliancegrenze verarbeitet oder gespeichert werden und dass Daten in die Azure-Compliancegrenze fließen.

Es liegt in Ihrer Verantwortung, zu verwalten, ob Ihre Daten außerhalb der Compliance- und geografischen Grenzen Ihrer Organisation und alle damit verbundenen Auswirkungen fließen und dass entsprechende Berechtigungen, Grenzen und Genehmigungen bereitgestellt werden.

Sie sind dafür verantwortlich, Anwendungen, die Sie im Kontext Ihrer spezifischen Anwendungsfälle erstellen, sorgfältig zu überprüfen und zu testen und alle geeigneten Entscheidungen und Anpassungen zu treffen. Dazu gehört die Implementierung ihrer eigenen verantwortungsvollen KI-Entschärfungen, wie Metaprompts, Inhaltsfilter oder andere Sicherheitssysteme, und sicherzustellen, dass Ihre Anwendungen angemessene Qualität, Zuverlässigkeit, Sicherheit und Vertrauenswürdigkeitsstandards erfüllen. Weitere Informationen finden Sie im Azure KI-Suche Transparenzhinweis.

In diesem Artikel erfahren Sie, wie Sie einen indexer konfigurieren, der Inhalte aus Azure Files importiert und in Azure KI-Suche durchsuchbar macht. Eingaben für den Indexer sind Ihre Dateien in einer einzelnen Freigabe. Die Ausgabe ist ein Suchindex mit durchsuchbaren Inhalten und Metadaten, die in einzelnen Feldern gespeichert sind.

Zum Konfigurieren und Ausführen des Indexers können Sie Folgendes verwenden:

Voraussetzungen

  • Azure Files, Transaktionsoptimierte Ebene.

  • Eine SMB-Dateifreigabe, die den Quellinhalt bereitstellt. NFS-Freigaben werden nicht unterstützt.

  • Dateien, die Text enthalten. Wenn Sie binärdaten haben, können Sie KI-Anreicherung für die Bildanalyse einschließen.

  • Leseberechtigungen für Azure Storage. Eine Verbindungszeichenfolge mit Vollzugriff enthält einen Schlüssel, der Zugriff auf den Inhalt gewährt.

  • Verwenden Sie einen REST-Client , um REST-Aufrufe ähnlich den in diesem Artikel gezeigten zu formulieren.

Unterstützte Aufgaben

Sie können diesen Indexer für die folgenden Aufgaben verwenden:

Unterstützte Dokumentformate

Der Azure Files Indexer kann Text aus den folgenden Dokumentformaten extrahieren:

  • CSV (siehe Indizierung von CSV-Blobs)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (siehe Indizierung von JSON-Blobs)
  • KML (XML für geografische Darstellungen)
  • Markdown
  • Microsoft Office Formate: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (Outlook E-Mails), XML (sowohl 2003 als auch 2006 WORD XML)
  • Open Document formats: ODT, ODS, ODP
  • PDF
  • Nur-Text-Dateien (siehe auch "Nur-Text indizieren")
  • RTF
  • XML
  • ZIP

Wie Azure Files indiziert werden

Standardmäßig werden die meisten Dateien als einzelnes Suchdokument im Index indiziert, einschließlich Dateien mit strukturiertem Inhalt, z. B. JSON oder CSV, die als einzelner Textabschnitt indiziert werden.

Ein zusammengesetztes oder eingebettetes Dokument (z. B. ein ZIP-Archiv, ein Word Dokument mit eingebetteten Outlook E-Mails, die Anlagen enthalten, oder ein . MSG-Datei mit Anlagen) wird auch als einzelnes Dokument indiziert. Beispielsweise werden alle Bilder, die aus den Anlagen einer .MSG-Datei extrahiert wurden, im Feld normalized_images zurückgegeben. Wenn Sie Bilder haben, können Sie eine KI-Anreicherung hinzufügen, um den Suchnutzen dieses Inhalts zu erhöhen.

Textinhalt eines Dokuments wird in ein Zeichenfolgenfeld mit dem Namen "content" extrahiert. Sie können auch Standard- und benutzerdefinierte Metadaten extrahieren.

Definieren der Datenquelle

Die Datenquellendefinition gibt die Daten an, die indiziert werden sollen, Anmeldeinformationen und Richtlinien zum Identifizieren von Änderungen in den Daten. Eine Datenquelle wird als unabhängige Ressource definiert, sodass sie von mehreren Indexern verwendet werden kann.

Sie können 2020-06-30-preview oder höher für "type": "azurefile" verwenden. Wir empfehlen die neueste Vorschau-API.

  1. Erstellen Sie eine Datenquelle zum Festlegen ihrer Definition mithilfe einer Vorschau-API für "type": "azurefile".

    POST /datasources?api-version=2026-05-01-preview
    {
        "name" : "my-file-datasource",
        "type" : "azurefile",
        "credentials" : { "connectionString" : "DefaultEndpointsProtocol=https;AccountName=<account name>;AccountKey=<account key>;" },
        "container" : { "name" : "my-file-share", "query" : "<optional-directory-name>" }
    }
    
  2. Legen Sie "Type" auf "azurefile" (erforderlich) fest.

  3. Legen Sie "credentials" auf eine Azure Storage-Verbindungszeichenfolge fest. Im nächsten Abschnitt werden die unterstützten Formate beschrieben.

  4. Legen Sie "container" auf die Stammdateifreigabe fest, und verwenden Sie "query", um beliebige Unterordner anzugeben.

Eine Datenquellendefinition kann auch Richtlinien für das vorläufige Löschen enthalten, wenn der Indexer ein Suchdokument löschen soll, wenn das Quelldokument zum Löschen gekennzeichnet ist.

Unterstützte Anmeldeinformationen und Verbindungszeichenfolgen

Indexer können mithilfe der folgenden Verbindungen eine Verbindung mit einer Dateifreigabe herstellen.

Vollzugriffsspeicherkonto-Verbindungszeichenfolge
{ "connectionString" : "DefaultEndpointsProtocol=https;AccountName=<your storage account>;AccountKey=<your account key>;" }
Sie können die Verbindungszeichenfolge über die Seite "Speicherkonto" im Azure Portal abrufen, indem Sie im linken Bereich Access-Schlüssel auswählen. Stellen Sie sicher, dass Sie eine vollständige Verbindungszeichenfolge und nicht nur einen Schlüssel auswählen.

Hinzufügen von Suchfeldern zu einem Index

Fügen Sie im index search Felder hinzu, um den Inhalt und die Metadaten Ihrer Azure Dateien zu akzeptieren.

  1. Erstellen oder aktualisieren Sie einen Index, um Suchfelder zu definieren, die Dateiinhalte und Metadaten speichern.

    POST /indexes?api-version=2026-04-01
    {
      "name" : "my-search-index",
      "fields": [
          { "name": "ID", "type": "Edm.String", "key": true, "searchable": false },
          { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false },
          { "name": "metadata_storage_name", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true  },
          { "name": "metadata_storage_path", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true },
          { "name": "metadata_storage_size", "type": "Edm.Int64", "searchable": false, "filterable": true, "sortable": true  },
          { "name": "metadata_storage_content_type", "type": "Edm.String", "searchable": true, "filterable": true, "sortable": true }        
      ]
    }
    
  2. Erstellen Sie ein Dokumentschlüsselfeld ("Schlüssel": true). Bei Blob-Inhalten sind die besten Kandidaten Metadateneigenschaften. Metadateneigenschaften enthalten häufig Zeichen, wie zum Beispiel / und -, die für Dokumentschlüssel ungültig sind. Der Indexer codiert automatisch die Schlüsselmetadateneigenschaft, ohne dass eine Konfiguration oder Feldzuordnung erforderlich ist.

    • metadata_storage_path (Standard) vollständiger Pfad zum Objekt oder der Datei

    • metadata_storage_name kann nur verwendet werden, wenn Namen eindeutig sind

    • Eine benutzerdefinierte Metadateneigenschaft, die Sie Blobs hinzufügen. Diese Option erfordert, dass Ihr BLOB-Uploadprozess allen Blobs die Metadateneigenschaft hinzufügt. Da der Schlüssel eine erforderliche Eigenschaft ist, werden alle Blobs, bei denen ein Wert fehlt, nicht indiziert. Wenn Sie eine benutzerdefinierte Metadateneigenschaft als Schlüssel verwenden, vermeiden Sie änderungen an dieser Eigenschaft. Indexer fügen doppelte Dokumente für dasselbe Blob hinzu, wenn sich die Schlüsseleigenschaft ändert.

  3. Fügen Sie ein "Content"-Feld hinzu, um extrahierten Text aus jeder Datei über die "content"-Eigenschaft des Blobs zu speichern. Sie müssen diesen Namen nicht verwenden. Auf diese Weise können Sie jedoch implizite Feldzuordnungen nutzen.

  4. Fügen Sie Felder für Standardmetadateneigenschaften hinzu. Bei der Dateiindizierung sind die Standardmetadateneigenschaften identisch mit Blob-Metadateneigenschaften. Der Azure Files Indexer erstellt automatisch interne Feldzuordnungen für diese Eigenschaften, die bindestrich-getrennte Eigenschaftsnamen in mit Unterstrichen versehene Eigenschaftsnamen konvertieren. Sie müssen weiterhin die Felder hinzufügen, die Sie für die Indexdefinition verwenden möchten, aber Sie können das Erstellen von Feldzuordnungen in der Datenquelle weglassen.

    • metadata_storage_name (Edm.String) – der Dateiname. Wenn Sie beispielsweise über eine Datei /my-share/my-folder/subfolder/resume.pdfverfügen, lautet resume.pdfder Wert dieses Felds .
    • metadata_storage_path (Edm.String) – der vollständige URI der Datei, einschließlich des Speicherkontos. Zum Beispiel https://myaccount.file.core.windows.net/my-share/my-folder/subfolder/resume.pdf
    • metadata_storage_content_type (Edm.String) – Inhaltstyp, wie durch den Code angegeben, den Sie zum Hochladen der Datei verwendet haben. Beispiel: application/octet-stream.
    • metadata_storage_last_modified (Edm.DateTimeOffset) – Zeitstempel der letzten Änderung für die Datei. Azure KI-Suche verwendet diesen Zeitstempel, um geänderte Dateien zu identifizieren, um zu vermeiden, dass alles nach der anfänglichen Indizierung neu indiziert wird.
    • metadata_storage_size (Edm.Int64) – Dateigröße in Byte.
    • metadata_storage_content_md5 (Edm.String) – MD5-Hash des Dateiinhalts, falls verfügbar.
    • metadata_storage_sas_token (Edm.String) – Ein temporäres SAS-Token, das von benutzerdefinierten Fähigkeiten verwendet werden kann, um Zugriff auf die Datei zu erhalten. Dieses Token sollte nicht für die spätere Verwendung gespeichert werden, da es abläuft.

Konfigurieren und Ausführen des Azure Files Indexers

Nachdem der Index und die Datenquelle erstellt wurden, können Sie den Indexer erstellen. Die Indexerkonfiguration gibt die Eingaben, Parameter und Eigenschaften an, die das Laufzeitverhalten steuern.

  1. Erstellen oder aktualisieren Sie einen Indexer , indem Sie ihm einen Namen geben und auf die Datenquelle und den Zielindex verweisen:

    POST /indexers?api-version=2026-04-01
    {
      "name" : "my-file-indexer",
      "dataSourceName" : "my-file-datasource",
      "targetIndexName" : "my-search-index",
      "parameters": {
         "batchSize": null,
         "maxFailedItems": null,
         "maxFailedItemsPerBatch": null,
         "configuration": {
            "indexedFileNameExtensions" : ".pdf,.docx",
            "excludedFileNameExtensions" : ".png,.jpeg" 
        }
      },
      "schedule" : { },
      "fieldMappings" : [ ]
    }
    
  2. Geben Sie im Optionalen Abschnitt "Konfiguration" alle Ein- oder Ausschlusskriterien an. Wenn Sie nichts angeben, werden alle Dateien in der Dateifreigabe abgerufen.

    Wenn sowohl die Parameter indexedFileNameExtensions als auch excludedFileNameExtensions vorhanden sind, betrachtet Azure KI-Suche zuerst indexedFileNameExtensions und dann excludedFileNameExtensions. Wenn die gleiche Dateierweiterung in beiden Listen vorhanden ist, wird sie von der Indizierung ausgeschlossen.

  3. Geben Sie Feldzuordnungen an, wenn Es Unterschiede im Feldnamen oder Typ gibt oder wenn Sie mehrere Versionen eines Quellfelds im Suchindex benötigen.

    In der Dateiindizierung können Sie feldzuordnungen häufig weglassen, da der Indexer integrierte Unterstützung für die Zuordnung der "Content"- und Metadateneigenschaften zu ähnlich benannten und eingegebenen Feldern in einem Index hat. Bei Metadateneigenschaften ersetzt der Indexer automatisch Bindestriche - durch Unterstriche im Suchindex.

  4. Weitere Informationen zu anderen Eigenschaften finden Sie unter Erstellen eines Indexers .

Ein Indexer wird automatisch ausgeführt, wenn er erstellt wird. Sie können dies verhindern, indem Sie "deaktiviert" auf "true" festlegen. Um die Indexerausführung zu steuern, führen Sie einen Indexer bei Bedarf aus, oder setzen Sie ihn in einen Zeitplan.

Indexerstatus überprüfen

Um den Indexerstatus und den Ausführungsverlauf zu überwachen, senden Sie eine Get Indexer Status-Anforderung :

GET https://myservice.search.windows.net/indexers/myindexer/status?api-version=2026-04-01
  Content-Type: application/json  
  api-key: [admin key]

Die Antwort enthält den Status und die Anzahl der verarbeiteten Elemente. Es sollte ähnlich wie im folgenden Beispiel aussehen:

    {
        "status":"running",
        "lastResult": {
            "status":"success",
            "errorMessage":null,
            "startTime":"2022-02-21T00:23:24.957Z",
            "endTime":"2022-02-21T00:36:47.752Z",
            "errors":[],
            "itemsProcessed":1599501,
            "itemsFailed":0,
            "initialTrackingState":null,
            "finalTrackingState":null
        },
        "executionHistory":
        [
            {
                "status":"success",
                "errorMessage":null,
                "startTime":"2022-02-21T00:23:24.957Z",
                "endTime":"2022-02-21T00:36:47.752Z",
                "errors":[],
                "itemsProcessed":1599501,
                "itemsFailed":0,
                "initialTrackingState":null,
                "finalTrackingState":null
            },
            ... earlier history items
        ]
    }

Der Ausführungsverlauf enthält bis zu 50 der zuletzt abgeschlossenen Ausführungen, die in umgekehrter chronologischer Reihenfolge sortiert sind, sodass die neueste Ausführung zuerst erfolgt.

Nächste Schritte

Sie können jetzt den Indexer ausführen, den Status überwachen oder die Ausführung des Indexers planen. Die folgenden Artikel gelten für Indexer, die Inhalte aus Azure Storage abrufen: