معالجة اللغة الطبيعية

مقالة
03/26/2024

يمكنك تنفيذ مهام معالجة اللغة الطبيعية على Azure Databricks باستخدام مكتبات مصدر مفتوح الشائعة مثل Spark ML ومكتبات spark-nlp أو الملكية من خلال شراكة Azure Databricks مع John Snow Labs.

للحصول على أمثلة من NLP مع Hugging Face، راجع موارد إضافية

إنشاء الميزة من النص باستخدام Spark ML

يحتوي Spark ML على مجموعة من أدوات معالجة النص لإنشاء ميزات من أعمدة النص. يمكنك إنشاء ميزات الإدخال من النص لخوارزميات تدريب النموذج مباشرة في مسارات Spark ML باستخدام Spark ML. يدعم Spark ML مجموعة من معالجات النصوص، بما في ذلك الرموز المميزة ومعالجة إيقاف الكلمات وword2vec وتجزئة الميزات.

التدريب والاستدلال باستخدام Spark NLP

يمكنك توسيع نطاق العديد من أساليب التعلم العميق لمعالجة اللغة الطبيعية على Spark باستخدام مكتبة Spark NLP مفتوحة المصدر. تدعم هذه المكتبة عمليات معالجة اللغة الطبيعية القياسية مثل الرمز المميز والتعرف على الكيان المسمى والتحويل باستخدام التعليقات التوضيحية المضمنة. يمكنك أيضا تلخيص وتنفيذ التعرف على الكيان المسمى وترجمة وإنشاء نص باستخدام العديد من نماذج التعلم العميق المدربة مسبقا استنادا إلى محولات Spark NLP مثل BERT وT5 Marion.

إجراء الاستدلال على دفعة باستخدام Spark NLP على وحدات المعالجة المركزية

يوفر Spark NLP العديد من النماذج المدربة مسبقا التي يمكنك استخدامها مع الحد الأدنى من التعليمات البرمجية. يحتوي هذا القسم على مثال لاستخدام Marian Transformer للترجمة الآلية. للحصول على المجموعة الكاملة من الأمثلة، راجع وثائق Spark NLP.

المتطلبات

تثبيت Spark NLP على نظام المجموعة باستخدام أحدث إحداثيات Maven ل Spark NLP، مثل com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. يجب بدء تشغيل نظام المجموعة باستخدام خيارات تكوين Spark المناسبة التي تم تعيينها لكي تعمل هذه المكتبة.
لاستخدام Spark NLP، يجب أن تحتوي مجموعتك على الملف الصحيح .jar الذي تم تنزيله من John Snow Labs. يمكنك إنشاء أو استخدام نظام مجموعة يقوم بتشغيل أي وقت تشغيل متوافق.

مثال على التعليمات البرمجية للترجمة الآلية

في خلية دفتر ملاحظات، قم بتثبيت sparknlp مكتبات python:

%pip install sparknlp

إنشاء مسار للترجمة وتشغيله على بعض نماذج النص:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

مثال: نموذج التعرف على الكيان المسمى باستخدام Spark NLP وMLflow

يوضح دفتر الملاحظات المثال كيفية تدريب نموذج التعرف على الكيان المسمى باستخدام Spark NLP، وحفظ النموذج إلى MLflow، واستخدام النموذج للاستدلال على النص. راجع وثائق John Snow Labs ل Spark NLP لمعرفة كيفية تدريب نماذج معالجة اللغة الطبيعية الإضافية.

دفتر ملاحظات التدريب والاستدلال على نموذج Spark NLP

الحصول على دفتر الملاحظات

الرعاية الصحية NLP مع جون سنو مختبرات الشراكة

جون سنو مختبرات Spark NLP للرعاية الصحية هي مكتبة الملكية للنص السريري والطب الحيوي التعدين. توفر هذه المكتبة نماذج مدربة مسبقا للتعرف على الكيانات السريرية والأدوية وعوامل الخطر والتشريح والديمغرافيا والبيانات الحساسة والعمل معها. يمكنك تجربة Spark NLP للرعاية الصحية باستخدام تكامل partner الاتصال مع John Snow Labs. تحتاج إلى حساب تجريبي أو مدفوع مع John Snow Labs لتجربة الأوامر الموضحة في هذا الدليل.

اقرأ المزيد حول الإمكانات الكاملة ل John Snow Labs Spark NLP للرعاية الصحية والوثائق للاستخدام في موقعهم على الويب.