Обработка естественного языка

Вы можете выполнять задачи обработки естественного языка в Azure Databricks с помощью популярных библиотек открытый код, таких как Spark ML и spark-nlp или собственные библиотеки через партнерство Azure Databricks с John Snow Labs.

Примеры использования NLP с Hugging Face можно найти в разделе "Дополнительные ресурсы"

Создание компонентов из текста с помощью Машинного обучения Spark

Машинное обучение Spark содержит ряд средств обработки текста для создания функций из текстовых столбцов. Вы можете создавать входные функции из текста для алгоритмов обучения модели непосредственно в конвейерах машинного обучения Spark с помощью Машинного обучения Spark. Машинное обучение Spark поддерживает ряд текстовых процессоров, включая маркеризацию, обработку стоп-слов, Word2Vec и хеширование признаков.

Обучение и вывод с помощью Spark NLP

Вы можете масштабировать множество методов глубокого обучения для обработки естественного языка в Spark с помощью библиотеки NLP с открытым исходным кодом Spark. Эта библиотека поддерживает стандартные операции обработки естественного языка, такие как маркеризация, распознавание именованных сущностей и векторизация с помощью включенных аннотаторов. Кроме того, можно суммировать, выполнять распознавание именованных сущностей, переводить и создавать текст с помощью многих предварительно обученных моделей глубокого обучения на основе преобразователей Spark NLP, таких как BERT и T5 Marion.

Выполнение вывода в пакетном режиме с помощью NLP Spark на ЦП

Spark NLP предоставляет множество предварительно обученных моделей, которые можно использовать с минимальным кодом. В этом разделе содержится пример использования Marian Transformer для машинного перевода. Полный набор примеров см. в документации Spark NLP.

Требования

Установите Spark NLP на кластере, используя последние координаты Maven для Spark NLP, такие как com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Кластер должен быть запущен с соответствующим набором параметров конфигурации Spark, чтобы эта библиотека работала.
Чтобы использовать NLP Spark, кластер должен иметь правильный .jar файл, скачанный из John Snow Labs. Вы можете создать или использовать кластер под управлением любой совместимой среды выполнения.

Пример кода для машинного перевода

В ячейке ноутбука установите библиотеки Python:

%pip install sparknlp

Создайте конвейер для перевода и запустите его на некоторых примерах текста:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Пример: модель распознавания именованных сущностей с помощью Spark NLP и MLflow

В примере записной книжки показано, как обучить модель распознавания именованных сущностей с помощью Spark NLP, сохранить модель в MLflow и использовать модель для вывода текста. Ознакомьтесь с документацией компании John Snow Labs для использования с Spark NLP чтобы узнать, как обучать дополнительные модели обработки естественного языка.

Ноутбук для обучения и вывода модели Spark NLP

Возьмите блокнот

Партнерство с John Snow Labs в области НЛП в здравоохранении

John Snow Labs Spark NLP для здравоохранения является проприетарной библиотекой для анализа клинического и биомедицинского текста. Эта библиотека предоставляет предварительно обученные модели для распознавания и работы с клиническими сущностями, наркотиками, факторами риска, анатомией, демографическими данными и конфиденциальными данными. Вы можете попробовать Spark NLP для медицинского применения с помощью интеграции Partner Connect с John Snow Labs. Вам нужна пробная или платная учетная запись John Snow Labs, чтобы протестировать команды, демонстрируемые в этом руководстве.

Узнайте больше о полных возможностях Spark NLP для здравоохранения от John Snow Labs и документацию по использованию, представленную на их веб-сайте.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-29