Indizierung von Nur-Text-Blobs und -Dateien in Azure AI Search

Gilt für: Blobindexer, Dateiindexer

Wenn Sie einen Indexer verwenden, um durchsuchbare Blobtexte oder Dateiinhalte für die Volltextsuche zu extrahieren, können Sie einen Analysemodus zuweisen, um bessere Indizierungsergebnisse zu erzielen. Standardmäßig analysiert der Indexer die Eigenschaft eines BLOB content als einzelnen Textabschnitt. Wenn jedoch alle Blobs und Dateien Nur-Text in derselben Codierung enthalten, können Sie die Indizierungsleistung erheblich verbessern, indem Sie den text-Analysemodus nutzen.

Empfehlungen für text die Analyse umfassen eines der folgenden Merkmale:

  • Dateityp ist .txt
  • Dateien weisen einen beliebigen Typ auf, aber der Inhalt selbst ist Text (z. B. Programmquellcode, HTML, XML usw.). Bei Dateien in einer Markupsprache werden die Syntaxzeichen als statischer Text durchgearbeitet.

Bedenken Sie, dass alle Indexer nach JSON serialisiert werden. Standardmäßig wird der Inhalt der gesamten Textdatei innerhalb eines großen Felds indiziert als "content": "<file-contents>". Neue Zeilen- und Rückgabeanweisungen werden in das Inhaltsfeld eingebettet und ausgedrückt als \r\n\.

Wenn Sie ein verfeinertes oder differenzierteres Ergebnis wünschen und der Dateityp kompatibel ist, sollten Sie die folgenden Lösungen in Betracht ziehen:

Eine alternative dritte Option zum Aufteilen von Inhalten in mehrere Teile erfordert erweiterte Features in Form von KI-Anreicherung. Es wird eine Analyse hinzugefügt, mit der Teile der Datei identifiziert und verschiedenen Suchfeldern zugeordnet werden. Möglicherweise finden Sie eine vollständige oder teilweise Lösung über integrierte Fähigkeiten wie die Entitätserkennung oder Schlüsselwort (keyword) Extraktion, aber eine wahrscheinlichere Lösung ist ein benutzerdefiniertes Lernmodell, das Ihre Inhalte versteht, umschlossen in eine benutzerdefinierte Fähigkeit.

Einrichten der Nur-Text-Indizierung

Zum Indizieren von Nur-Text-Blobs erstellen oder aktualisieren Sie eine Indexerdefinition, wobei die parsingMode Konfigurationseigenschaft für eine Create Indexer-Anforderung festgelegt text ist:

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Standardmäßig wird von der UTF-8-Codierung ausgegangen. Um eine andere Codierung anzugeben, verwenden Sie die encoding-Konfigurationseigenschaft.

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}

Beispiel für eine Anfrage

In der Indexerdefinition werden die Definitionsmodi angegeben.

POST https://[service name].search.windows.net/indexers?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Nächste Schritte