Verarbeiten von Freiformtext für die Suche

Cognitive Search
Data Lake Storage
HDInsight
SQL-Datenbank
Storage

Um die Suche zu unterstützen, können Sie die Freiformtextverarbeitung für Dokumente ausführen, die Absätze von Text enthalten.

Die Textsuche erstellt einen speziellen Index, der anhand einer Sammlung von Dokumenten vorausberechnet wird. Eine Clientanwendung sendet eine Abfrage, die Suchbegriffe enthält. Die Abfrage gibt als Resultset eine Liste von Dokumenten zurück, die nach ihrer Übereinstimmung mit den Suchkriterien sortiert sind. Das Resultset kann auch den Kontext enthalten, in dem das Dokument den Kriterien entspricht, sodass die Anwendung den übereinstimmenden Ausdruck im Dokument hervorheben kann.

Die Freitextverarbeitung kann aus großen Mengen von Textdaten, die viele irrelevante Informationen enthalten, nützliche, handlungsrelevante Daten erzeugen. Die Ergebnisse können unstrukturierte Dokumente sowie eine klar definierte und abfragbare Struktur liefern.

Aufbau

In den meisten Szenarios laden Sie Quelltextdokumente in den Objektspeicher, z. B. Azure Storage oder Azure Data Lake Storage, und indizieren diese dann mithilfe eines externen Suchdiensts. Die Quelltextdokumente unterscheiden sich physisch vom Suchindex, der im Suchdienst gehostet wird.

Eine Ausnahme ist die Verwendung der Volltextsuche in SQL Server oder Azure SQL-Datenbank. In diesem Fall sind die Dokumentdaten intern in Tabellen vorhanden, die von der Datenbank verwaltet werden. Nach dem Speichern werden die Dokumente in einem Batch verarbeitet, um den Index zu erstellen.

Diagram of a search pipeline.

Auswahl der Technologie

Zu den Optionen für die Erstellung eines externen Suchindexes zählen Azure Cognitive Search, Elasticsearch und Azure HDInsight mit Apache Solr. Jede dieser Technologien kann einen Suchindex aus einer Sammlung von Dokumenten auffüllen.

  • Cognitive Search stellt Indexer bereit, die den Index für Dokumente (Nur-Text über Excel bis hin zu PDF) automatisch auffüllen können. Sie können auch Machine Learning-Modelle an einen Indexer anfügen, um Bilder und unstrukturierten Text auf suchbare Inhalte zu analysieren.

  • Für HDInsight kann Solr Binärdateien vieler Typen indizieren, einschließlich Nur-Text-, Word- und PDF-Dateien. Nachdem der Index erstellt wurde, können Clients mit einer REST-API auf die Suchschnittstelle zugreifen.

Wenn Sie Ihre Textdaten in SQL Server oder Azure SQL-Datenbank speichern, können Sie die integrierte Volltextsuche der Datenbank verwenden. Die Datenbank füllt den Index aus Text-, Binär- oder XML-Daten auf, die in derselben Datenbank gespeichert sind. Clients führen die Suche mithilfe von T-SQL-Abfragen durch.

Überlegungen

  • Die Verarbeitung einer Sammlung von Freiformtextdokumenten ist in der Regel rechen- und zeitintensiv.

  • Um Freiformtext effektive zu durchsuchen, muss der Suchindex die Fuzzysuche nach Begriffen mit ähnlicher Struktur unterstützen. Beispielsweise können Suchindizes, die mit Lemmatisierung und Wortstammerkennung erstellt werden, bei Abfragen nach „ausführen“ Dokumente finden, die „ausgeführt“ und „Ausführung“ enthalten.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte