Natuurlijke taalverwerking

U kunt taken voor natuurlijke taalverwerking uitvoeren in Azure Databricks met behulp van populaire opensourcebibliotheken zoals Spark ML en spark-nlp of eigen bibliotheken via de Azure Databricks-samenwerking met John Snow Labs.

Zie Aanvullende bronnen voor voorbeelden van NLP met Hugging Face

Functie maken op basis van tekst met Spark ML

Spark ML bevat een reeks hulpprogramma's voor tekstverwerking om functies van tekstkolommen te maken. U kunt invoerfuncties maken op basis van tekst voor modeltrainingsalgoritmen rechtstreeks in uw Spark ML-pijplijnen met behulp van Spark ML. Spark ML ondersteunt een reeks tekstprocessors, waaronder tokenisatie, stopwoordverwerking, word2vec en functie-hashing.

Training en deductie met Spark NLP

U kunt veel deep learning-methoden voor verwerking van natuurlijke taal in Spark uitschalen met behulp van de opensource Spark NLP-bibliotheek. Deze bibliotheek ondersteunt standaardbewerkingen voor natuurlijke taalverwerking, zoals tokeniseren, herkenning van benoemde entiteiten en vectorisatie met behulp van de opgenomen aantekeningen. U kunt ook herkenning van benoemde entiteiten samenvatten, vertalen en tekst genereren met behulp van veel vooraf getrainde Deep Learning-modellen op basis van transformers van Spark NLP, zoals BERT en T5 Marion.

Deductie uitvoeren in batch met Behulp van Spark NLP op CPU's

Spark NLP biedt veel vooraf getrainde modellen die u met minimale code kunt gebruiken. Deze sectie bevat een voorbeeld van het gebruik van de Marian Transformer voor machinevertaling. Zie de Documentatie voor Spark NLP voor de volledige set voorbeelden.

Vereisten

  • Installeer Spark NLP op het cluster met behulp van de meest recente Maven-coördinaten voor Spark NLP, zoals com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Uw cluster moet worden gestart met de juiste Spark-configuratieopties die zijn ingesteld om deze bibliotheek te laten werken.
  • Als u Spark NLP wilt gebruiken, moet uw cluster het juiste .jar bestand hebben gedownload van John Snow Labs. U kunt een cluster maken of gebruiken waarop een compatibele runtime wordt uitgevoerd.

Voorbeeldcode voor automatische vertaling

Installeer sparknlp python-bibliotheken in een notebookcel:

%pip install sparknlp

Maak een pijplijn voor vertaling en voer deze uit op een voorbeeldtekst:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Voorbeeld: Model voor herkenning van benoemde entiteiten met Spark NLP en MLflow

Het voorbeeldnotebook illustreert hoe u een benoemd entiteitsherkenningsmodel traint met behulp van Spark NLP, het model opslaat in MLflow en het model gebruikt voor deductie op tekst. Raadpleeg de documentatie van John Snow Labs voor Spark NLP voor meer informatie over het trainen van aanvullende modellen voor natuurlijke taalverwerking.

Spark NLP-modeltrainings- en deductienotitieblok

Notebook downloaden

Healthcare NLP met John Snow Labs partnership

John Snow Labs Spark NLP for Healthcare is een eigen bibliotheek voor klinische en farmaceutische tekstanalyse. Deze bibliotheek biedt vooraf getrainde modellen voor het herkennen en werken met klinische entiteiten, geneesmiddelen, risicofactoren, anatomie, demografische gegevens en gevoelige gegevens. U kunt Spark NLP for Healthcare uitproberen met behulp van de partner-Verbinding maken-integratie met John Snow Labs. U hebt een proef- of betaald account met John Snow Labs nodig om de opdrachten uit te proberen die in deze handleiding zijn gedemonstreerd.

Lees meer over de volledige mogelijkheden van John Snow Labs Spark NLP voor gezondheidszorg en documentatie voor gebruik op hun website.