Bagikan melalui


Pemrosesan bahasa alami

Anda dapat melakukan tugas pemrosesan bahasa alami di Azure Databricks menggunakan pustaka sumber terbuka populer seperti Spark ML dan pustaka spark-nlp atau kepemilikan melalui kemitraan Azure Databricks dengan John Snow Labs.

Untuk contoh NLP dengan Hugging Face, lihat Sumber daya tambahan

Pembuatan fitur dari teks menggunakan Spark ML

Spark ML berisi berbagai alat pemrosesan teks untuk membuat fitur dari kolom teks. Anda dapat membuat fitur input dari teks untuk algoritma pelatihan model langsung di alur Spark ML Anda menggunakan Spark ML. Spark ML mendukung berbagai prosesor teks, termasuk tokenisasi, pemrosesan kata berhenti, word2vec, dan hashing fitur.

Pelatihan dan inferensi menggunakan Spark NLP

Anda dapat menskalakan banyak metode pembelajaran mendalam untuk pemrosesan bahasa alami di Spark menggunakan pustaka Spark NLP sumber terbuka. Pustaka ini mendukung operasi pemrosesan bahasa alami standar seperti tokenisasi, pengenalan entitas bernama, dan vektorisasi menggunakan anotator yang disertakan. Anda juga dapat meringkas, melakukan pengenalan entitas bernama, menerjemahkan, dan menghasilkan teks menggunakan banyak model pembelajaran mendalam yang telah dilatih sebelumnya berdasarkan transformer Spark NLP seperti BERT dan T5 Marion.

Melakukan inferensi dalam batch menggunakan Spark NLP pada CPU

Spark NLP menyediakan banyak model yang telah dilatih sebelumnya yang dapat Anda gunakan dengan kode minimal. Bagian ini berisi contoh penggunaan Marian Transformer untuk terjemahan mesin. Untuk kumpulan contoh lengkap, lihat dokumentasi NLP Spark.

Persyaratan

  • Instal Spark NLP pada kluster menggunakan koordinat Maven terbaru untuk Spark NLP, seperti com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Kluster Anda harus dimulai dengan opsi konfigurasi Spark yang sesuai yang ditetapkan agar pustaka ini berfungsi.
  • Untuk menggunakan Spark NLP, kluster Anda harus memiliki file yang benar .jar yang diunduh dari John Snow Labs. Anda dapat membuat atau menggunakan kluster yang menjalankan runtime yang kompatibel.

Contoh kode untuk Terjemahan Mesin

Di sel buku catatan, instal sparknlp pustaka python:

%pip install sparknlp

Buat alur untuk terjemahan dan jalankan pada beberapa teks sampel:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Contoh: Model pengenalan entitas bernama menggunakan Spark NLP dan MLflow

Contoh notebook menggambarkan cara melatih model pengenalan entitas bernama menggunakan Spark NLP, menyimpan model ke MLflow, dan menggunakan model untuk inferensi pada teks. Lihat dokumentasi John Snow Labs untuk Spark NLP untuk mempelajari cara melatih model pemrosesan bahasa alami tambahan.

Buku catatan pelatihan dan inferensi model Spark NLP

Dapatkan buku catatan

Layanan kesehatan NLP dengan kemitraan John Snow Labs

John Snow Labs Spark NLP for Healthcare adalah perpustakaan eksklusif untuk penambangan teks klinis dan biomedis. Pustaka ini menyediakan model yang telah dilatih sebelumnya untuk mengenali dan bekerja dengan entitas klinis, obat, faktor risiko, anatomi, demografi, dan data sensitif. Anda dapat mencoba Spark NLP for Healthcare menggunakan integrasi Partner Koneksi dengan John Snow Labs. Anda memerlukan akun uji coba atau berbayar dengan John Snow Labs untuk mencoba perintah yang ditunjukkan dalam panduan ini.

Baca selengkapnya tentang kemampuan lengkap John Snow Labs Spark NLP for Healthcare dan dokumentasi untuk digunakan di situs web mereka.