Bearbetning av naturligt språk

Du kan utföra bearbetningsuppgifter för naturligt språk i Azure Databricks med hjälp av populära öppen källkod bibliotek som Spark ML och spark-nlp eller proprietära bibliotek via Azure Databricks-samarbetet med John Snow Labs.

Exempel på NLP med huggande ansikte finns i Ytterligare resurser

Skapa funktioner från text med Spark ML

Spark ML innehåller ett antal textbearbetningsverktyg för att skapa funktioner från textkolumner. Du kan skapa indatafunktioner från text för modellträningsalgoritmer direkt i Spark ML-pipelines med Spark ML. Spark ML stöder en rad textprocessorer, inklusive tokenisering, stop-word-bearbetning, word2vec och funktionshashing.

Utbildning och slutsatsdragning med Spark NLP

Du kan skala ut många djupinlärningsmetoder för bearbetning av naturligt språk i Spark med spark NLP-biblioteket med öppen källkod. Det här biblioteket stöder vanliga bearbetningsåtgärder för naturligt språk, till exempel tokenisering, namngiven entitetsigenkänning och vektorisering med hjälp av de inkluderade anteckningarna. Du kan också sammanfatta, utföra namngiven entitetsigenkänning, översätta och generera text med hjälp av många förtränade djupinlärningsmodeller baserade på Spark NLP:s transformatorer som BERT och T5 Marion.

Utföra slutsatsdragning i batch med Spark NLP på processorer

Spark NLP innehåller många förtränade modeller som du kan använda med minimal kod. Det här avsnittet innehåller ett exempel på hur du använder Marian Transformer för maskinöversättning. Fullständig uppsättning exempel finns i Spark NLP-dokumentationen.

Krav

  • Installera Spark NLP i klustret med de senaste Maven-koordinaterna för Spark NLP, till exempel com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Klustret måste startas med lämpliga Konfigurationsalternativ för Spark för att biblioteket ska fungera.
  • Om du vill använda Spark NLP måste klustret ha rätt .jar fil nedladdad från John Snow Labs. Du kan skapa eller använda ett kluster som kör valfri kompatibel körning.

Exempelkod för maskinöversättning

Installera Python-bibliotek i en notebook-cell sparknlp :

%pip install sparknlp

Skapa en pipeline för översättning och kör den på exempeltext:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Exempel: Igenkänningsmodell med namngivna entiteter med Spark NLP och MLflow

Exempelanteckningsboken visar hur du tränar en namngiven entitetsigenkänningsmodell med Spark NLP, sparar modellen till MLflow och använder modellen för slutsatsdragning av text. Mer information om hur du tränar ytterligare bearbetningsmodeller för naturligt språk finns i Dokumentationen om John Snow Labs för Spark NLP .

Spark NLP-modellträning och slutsatsdragningsanteckningsbok

Hämta notebook-fil

Healthcare NLP med John Snow Labs partnerskap

John Snow Labs Spark NLP för Healthcare är ett patentskyddat bibliotek för klinisk och biomedicinsk textutvinning. Det här biblioteket innehåller förtränade modeller för att identifiera och arbeta med kliniska entiteter, läkemedel, riskfaktorer, anatomi, demografi och känsliga data. Du kan prova Spark NLP for Healthcare med hjälp av Partner Anslut integrering med John Snow Labs. Du behöver ett utvärderings- eller betalkonto med John Snow Labs för att prova kommandona som visas i den här guiden.

Läs mer om de fullständiga funktionerna i John Snow Labs Spark NLP for Healthcare och dokumentation för användning på deras webbplats.