Sdílet prostřednictvím


Zpracování přirozeného jazyka

Úlohy zpracování přirozeného jazyka můžete v Azure Databricks provádět pomocí oblíbených opensourcových knihoven, jako jsou Spark ML a spark-nlp nebo proprietární knihovny, prostřednictvím partnerství Azure Databricks s John Snow Labs.

Příklady NLP s Hugging Face najdete v tématu Další zdroje informací.

Vytvoření funkce z textu pomocí Spark ML

Spark ML obsahuje řadu nástrojů pro zpracování textu pro vytváření funkcí z textových sloupců. Vstupní funkce můžete vytvořit z textu pro trénovací algoritmy modelu přímo v kanálech Spark ML pomocí Spark ML. Spark ML podporuje celou řadu textových procesorů, včetně tokenizace, stop-word processing, word2vec a funkce hash.

Trénování a odvozování pomocí NLP Sparku

Škálovat můžete na více metod hlubokého učení pro zpracování přirozeného jazyka ve Sparku pomocí opensourcové knihovny Spark NLP. Tato knihovna podporuje standardní operace zpracování přirozeného jazyka, jako je tokenizace, rozpoznávání pojmenovaných entit a vektorizace pomocí zahrnutých poznámek. Můžete také shrnout, provádět rozpoznávání pojmenovaných entit, překládat a generovat text pomocí mnoha předem natrénovaných modelů hlubokého učení založených na transformátorech Spark NLP, jako je BERT a T5 Marion.

Provádění odvozování v dávce pomocí NLP Sparku na procesorech

Spark NLP poskytuje mnoho předem natrénovaných modelů, které můžete použít s minimálním kódem. Tato část obsahuje příklad použití Marian Transformer pro strojový překlad. Úplnou sadu příkladů najdete v dokumentaci sparkového NLP.

Požadavky

  • Nainstalujte do clusteru Spark NLP pomocí nejnovějších souřadnic Mavenu pro Spark NLP, například com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Aby tato knihovna fungovala, musí být váš cluster spuštěn s příslušnými možnostmi konfigurace Sparku nastavenými.
  • Pokud chcete používat Spark NLP, váš cluster musí mít správný .jar soubor stažený z John Snow Labs. Můžete vytvořit nebo použít cluster se spuštěným jakýmkoli kompatibilním modulem runtime.

Příklad kódu pro strojový překlad

V buňce poznámkového bloku nainstalujte sparknlp knihovny Pythonu:

%pip install sparknlp

Vytvořte kanál pro překlad a spusťte ho na nějakém ukázkovém textu:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Příklad: Model rozpoznávání pojmenovaných entit pomocí Spark NLP a MLflow

Ukázkový poznámkový blok ukazuje, jak trénovat pojmenovaný model rozpoznávání entit pomocí Spark NLP, uložit model do MLflow a použít model k odvozování textu. Informace o trénování dalších modelů zpracování přirozeného jazyka najdete v dokumentaci k John Snow Labs pro Spark NLP .

Poznámkový blok pro trénování a odvozování modelů Spark NLP

Získat poznámkový blok

Healthcare NLP with John Snow Labs partnership

John Snow Labs Spark NLP for Healthcare je proprietární knihovna pro klinické a biomedické dolování textu. Tato knihovna poskytuje předem natrénované modely pro rozpoznávání a práci s klinickými entitami, drogami, rizikovými faktory, anatomií, demografickými údaji a citlivými daty. Spark NLP pro zdravotnictví můžete vyzkoušet pomocí integrace Partner Connect s JohnEm Snow Labsem. K vyzkoušení příkazů ukázek v této příručce potřebujete zkušební nebo placený účet s johnem Snow Labs.

Přečtěte si další informace o všech funkcích John Snow Labs Spark NLP pro zdravotnictví a dokumentaci pro použití na svých webových stránkách.