Przetwarzanie języka naturalnego

Zadania przetwarzania języka naturalnego można wykonywać w usłudze Azure Databricks przy użyciu popularnych bibliotek typu open source, takich jak Spark ML i spark-nlp lub biblioteki zastrzeżone za pośrednictwem partnerstwa usługi Azure Databricks z Johnem Snow Labs.

Aby zobaczyć przykłady NLP z Hugging Face, zobacz Dodatkowe zasoby

Tworzenie funkcji na podstawie tekstu przy użyciu usługi Spark ML

Platforma Spark ML zawiera szereg narzędzi do przetwarzania tekstu w celu utworzenia funkcji na podstawie kolumn tekstowych. Funkcje wejściowe można tworzyć na podstawie tekstu dla algorytmów trenowania modelu bezpośrednio w potokach uczenia maszynowego platformy Spark przy użyciu usługi Spark ML. Platforma Spark ML obsługuje szereg procesorów tekstu, w tym tokenizację, zatrzymywanie przetwarzania słów, word2vec i tworzenie skrótów funkcji.

Trenowanie i wnioskowanie przy użyciu usługi Spark NLP

Istnieje możliwość skalowania w poziomie wielu metod uczenia głębokiego na potrzeby przetwarzania języka naturalnego na platformie Spark przy użyciu biblioteki NLP platformy Spark typu open source. Ta biblioteka obsługuje standardowe operacje przetwarzania języka naturalnego, takie jak tokenizowanie, rozpoznawanie nazwanych jednostek i wektoryzacja przy użyciu dołączonych adnotacji. Możesz również podsumować, wykonać rozpoznawanie jednostek nazwanych, przetłumaczyć i wygenerować tekst przy użyciu wielu wstępnie wytrenowanych modeli uczenia głębokiego na podstawie transformerów NLP platformy Spark, takich jak BERT i T5 Marion.

Przetwarzanie zbiorcze przy użyciu biblioteki Spark NLP na procesorach

Usługa Spark NLP udostępnia wiele wstępnie wytrenowanych modeli, których można używać z minimalnym kodem. Ta sekcja zawiera przykład użycia funkcji Marian Transformer do tłumaczenia maszynowego. Aby zapoznać się z pełnym zestawem przykładów, zobacz dokumentację Spark NLP.

Wymagania

Zainstaluj Spark NLP w klastrze, używając najnowszych współrzędnych Maven dla Spark NLP, takich jak com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Aby ta biblioteka działała, należy uruchomić klaster z odpowiednimi opcjami konfiguracji platformy Spark.
Aby korzystać z usługi Spark NLP, klaster musi mieć prawidłowy .jar plik pobrany z usługi John Snow Labs. Możesz utworzyć klaster z dowolnym zgodnym środowiskiem uruchomieniowym lub użyć go.

Przykładowy kod tłumaczenia maszynowego

W komórce notesu zainstaluj sparknlp biblioteki języka Python:

%pip install sparknlp

Skonstruuj przepływ tłumaczeniowy i uruchom go na przykładowym tekście.

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Przykład: model rozpoznawania nazwanych jednostek przy użyciu usługi Spark NLP i MLflow

W przykładowym notesie pokazano, jak wytrenować nazwany model rozpoznawania jednostek przy użyciu usługi Spark NLP, zapisać model w usłudze MLflow i użyć modelu do wnioskowania tekstu. Zapoznaj się z dokumentacją John Snow Labs dla usługi Spark NLP , aby dowiedzieć się, jak trenować dodatkowe modele przetwarzania języka naturalnego.

Notatnik do trenowania i inferencji modelu Spark NLP

Pobierz notatnik

Rozwiązania NLP dla opieki zdrowotnej we współpracy z John Snow Labs

John Snow Labs Spark NLP for Healthcare to zastrzeżona biblioteka do eksploracji tekstu w kontekście klinicznym i biomedycznym. Ta biblioteka udostępnia wstępnie wytrenowane modele do rozpoznawania i pracy z jednostkami klinicznymi, lekami, czynnikami ryzyka, anatomią, danymi demograficznymi i danymi poufnymi. Możesz wypróbować usługę Spark NLP for Healthcare przy użyciu integracji Partner Connect z Johnem Snow Labs. Aby wypróbować polecenia przedstawione w tym przewodniku, potrzebujesz wersji próbnej lub płatnego konta z Johnem Snow Labs.

Dowiedz się więcej o pełnych możliwościach rozwiązania John Snow Labs Spark NLP for Healthcare i dokumentacji do użycia na ich witrynie internetowej.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-05-03