Обработка текста свободной формы для поиска

Когнитивный поиск
Data Lake Storage
HDInsight
База данных SQL
Служба хранилища

Для поддержки поиска можно выполнять обработку текста в свободной форме для документов, содержащих абзацы текста.

Поиск текста работает путем создания специализированного индекса, который он предварительно компьютирует для коллекции документов. Клиентское приложение отправляет запрос, содержащий условия поиска. Запрос возвращает результирующий набор, который представляет собой список документов, отсортированных по тому, насколько хорошо они соответствуют условиям поиска. Результирующий набор также может включать контекст, в котором документ соответствует условиям, поэтому приложение может выделить соответствующую фразу в документе.

Обработка текста в свободной форме позволяет формировать полезные актуальные данные из большого объема разнородных текстовых данных. В результате неструктурированные документы могут приобрести четко определенную и доступную для запросов структуру.

Архитектура

В большинстве случаев исходные текстовые документы загружают в хранилище объектов, например служба хранилища Azure или Azure Data Lake Storage, а затем индексируете их с помощью внешней службы поиска. Исходные текстовые документы физически отличаются от индекса поиска, размещенного в службе поиска.

Исключением является использование полнотекстового поиска в SQL Server или База данных SQL Azure. В этом случае данные документа существуют внутри таблиц, которыми управляет база данных. После сохранения документы обрабатываются пакетно для создания индекса.

Diagram of a search pipeline.

Выбор технологий

Варианты создания внешнего индекса поиска включают Когнитивный поиск Azure, Elasticsearch и Azure HDInsight с Apache Solr. Каждая из этих технологий позволяет заполнить индекс поиска на основе коллекции документов.

  • Когнитивный поиск предоставляет индексаторы, которые могут автоматически заполнять индекс для документов (от обычного текста до документов в формате PDF и Excel). Кроме того, к индексатору можно подключить модели машинного обучения для анализа изображений и неструктурированного теста на предмет доступного для поиска содержимого.

  • В HDInsight Solr может индексировать двоичные файлы многих типов, включая обычный текст, Word и PDF. После создания индекса клиенты могут получить доступ к интерфейсу поиска с помощью REST API.

При хранении текстовых данных в SQL Server или База данных SQL Azure можно использовать полнотекстовый поиск, встроенный в базу данных. База данных заполняет индекс на основе текстовых или двоичных данных либо XML-данных, хранящихся в той же базе данных. Клиенты выполняют поиск с помощью запросов T-SQL.

Особенности

  • Обработка коллекции текстовых документов свободной формы обычно является ресурсоемкой и ресурсоемкой.

  • Для эффективного поиска текста в свободной форме индекс поиска должен поддерживать нечеткий поиск терминов, имеющих аналогичную конструкцию. Например, индексы поиска, созданные с помощью лемматизации и лингвистической парадигмы , могут соответствовать документам, содержащим "run" и "running" с запросами для "run".

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Дальнейшие действия