Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Sie können Aufgaben zur linguistischen Datenverarbeitung in Azure Databricks mithilfe gängiger Open-Source-Bibliotheken wie Spark ML und Spark NLP oder proprietären Bibliotheken über die Azure Databricks-Partnerschaft mit John Snow Labs ausführen.
Beispiele für NLP mit Hugging Face finden Sie unter Zusätzliche Ressourcen
Spark ML enthält eine Reihe von Textverarbeitungstools zum Erstellen von Features aus Textspalten. Mithilfe von Spark ML können Sie Eingabefeatures aus Text für Modelltrainingsalgorithmen direkt in Ihren Spark ML-Pipelines erstellen. Spark ML unterstützt eine Reihe von Textprozessoren, einschließlich Tokenisierung, Verarbeitung von Stoppwörtern, word2vec und Featurehashing.
Sie können viele Deep Learning-Methoden für die linguistische Datenverarbeitung in Spark mithilfe der Open-Source-Bibliothek von Spark NLP hochskalieren. Diese Bibliothek unterstützt mithilfe der enthaltenen Annotatoren Standardvorgänge für die linguistische Datenverarbeitung, z. B. Tokenisierung, Erkennung benannter Entitäten und Vektorisierung. Mit vielen vortrainierten Deep Learning-Modellen, die auf den Transformatoren von Spark NLP wie BERT und T5 Marion basieren, können Sie auch eine Zusammenfassung erstellen, die Erkennung benannter Entitäten ausführen sowie Text übersetzen und generieren.
Spark NLP bietet viele vortrainierte Modelle, die Sie mit minimalem Code verwenden können. Dieser Abschnitt enthält ein Beispiel für die Verwendung des Transformators Marian für die maschinelle Übersetzung. Alle Beispiele finden Sie in der Spark NLP-Dokumentation.
- Installieren Sie Spark NLP auf dem Cluster. Verwenden Sie dabei die neuesten Maven-Koordinaten für Spark NLP, z. B.
com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0
. Ihr Cluster muss mit den entsprechenden Spark-Konfigurationsoptionen gestartet werden, damit diese Bibliothek funktioniert. - Um Spark NLP zu verwenden, muss Ihr Cluster über die richtige
.jar
-Datei verfügen, die von John Snow Labs heruntergeladen wurde. Sie können einen Cluster erstellen oder verwenden, der eine beliebige kompatible Runtime ausführt.
Installieren Sie sparknlp
-Python-Bibliotheken in einer Notebook-Zelle:
%pip install sparknlp
Erstellen Sie eine Pipeline für die Übersetzung, und führen Sie sie für einen Beispieltext aus:
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
.setInputCols("document").setOutputCol("sentence")
marian_transformer = MarianTransformer.pretrained() \
.setInputCols("sentence").setOutputCol("translation")
pipeline = Pipeline().setStages([document_assembler, sentence_detector, marian_transformer])
data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
"This example pipeline translates English to French"]]).toDF("text")
# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)
# You can use the model on any data frame that has a “text” column
result = model.transform(data)
display(result.select("text", "translation.result"))
Das Beispiel-Notebook veranschaulicht, wie Sie ein Modell zur Erkennung benannter Entitäten von Spark NLP trainieren, das Modell in MLflow speichern und das Modell für Rückschlüsse auf Text verwenden. Weitere Informationen zum Trainieren zusätzlicher Modelle für die linguistische Datenverarbeitung finden Sie in der John Snow Labs-Dokumentation für Spark NLP.
John Snow Labs Spark NLP for Healthcare ist eine geschützte Bibliothek für das Text Mining klinischer und biomedizinischer Texte. Diese Bibliothek bietet vortrainierte Modelle zum Erkennen und Verwenden von klinischen Entitäten, Medikamenten, Risikofaktoren, Anatomie, Demografie und vertraulichen Daten. Sie können Spark NLP for Healthcare mithilfe der Partner Connect-Integration mit John Snow Labs ausprobieren. Sie benötigen ein Test- oder kostenpflichtiges Konto bei John Snow Labs, um die in diesem Handbuch gezeigten Befehle auszuprobieren.
Weitere Informationen zu den vollständigen Funktionen von John Snow Labs Spark NLP for Healthcare und eine Dokumentation zur Verwendung finden Sie auf der Website von John Snow Labs.