Processamento de idioma natural

Você pode executar tarefas de processamento de linguagem natural no Azure Databricks usando bibliotecas de código aberto populares, como Spark ML e spark-nlp, ou bibliotecas proprietárias por meio da parceria do Azure Databricks com o John Snow Labs.

Para obter exemplos de NLP com a Hugging Face, confira Recursos adicionais

Criação de recursos do texto usando o Spark ML

O Spark ML contém um intervalo de ferramentas de processamento de texto para criar recursos de colunas de texto. Você pode criar recursos de entrada do texto para algoritmos de treinamento de modelo diretamente nos pipelines do Spark ML usando o Spark ML. O Spark ML dá suporte a uma variedade de processadores de texto, incluindo geração de tokens, processamento de palavras irrelevantes, word2vec e hash de recursos.

Treinamento e inferência usando o Spark NLP

Você pode escalar horizontalmente muitos métodos de aprendizado profundo para processamento de linguagem natural no Spark usando a biblioteca Spark NLP de código aberto. Essa biblioteca dá suporte a operações de processamento de linguagem natural padrão, como geração de tokens, reconhecimento de entidade nomeada e vetorização usando os anotadores incluídos. Você também pode resumir, executar o reconhecimento de entidade nomeada, traduzir e gerar texto usando muitos modelos de aprendizado profundo pré-treinados com base nos transformadores do Spark NLP, como BERT e T5 Marion.

Executar inferência em lote usando o Spark NLP em CPUs

O Spark NLP fornece muitos modelos pré-treinados que você pode usar com código mínimo. Esta seção contém um exemplo de como usar o Transformador Marian para tradução automática. Para obter o conjunto completo de exemplos, consulte a documentação do Spark NLP.

Requisitos

  • Instale o Spark NLP no cluster usando as coordenadas mais recentes do Maven para o Spark NLP, como com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Seu cluster deve ser iniciado com as opções de configuração apropriadas do Spark definidas para que essa biblioteca funcione.
  • Para usar o Spark NLP, seu cluster deve ter o arquivo .jar correto baixado do John Snow Labs. Você pode criar ou usar um cluster que execute qualquer runtime compatível.

Código de exemplo para Tradução Automática

Em uma célula do notebook, instale as bibliotecas do Python sparknlp:

%pip install sparknlp

Construa um pipeline para tradução e execute-o em algum texto de exemplo:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Exemplo: modelo de reconhecimento de entidade nomeada usando Spark NLP e MLflow

O notebook de exemplo ilustra como treinar um modelo de reconhecimento de entidade nomeada usando o Spark NLP, salvar o modelo no MLflow e usar o modelo para inferência no texto. Consulte a documentação do John Snow Labs para o Spark NLP para saber como treinar modelos adicionais de processamento de linguagem natural.

Notebook de inferência e treinamento de modelo NLP do Spark

Obter notebook

NLP de saúde com parceria da John Snow Labs

John Snow Labs Spark NLP for Healthcare é uma biblioteca proprietária para mineração de texto clínico e biomédico. Esta biblioteca fornece modelos pré-treinados para reconhecer e trabalhar com entidades clínicas, medicamentos, fatores de risco, anatomia, demografia e dados confidenciais. Você pode experimentar o Spark NLP for Healthcare usando a integração do Partner Connect com o John Snow Labs. Você precisa ter uma conta de avaliação ou paga no John Snow Labs para experimentar os comandos demonstrados neste guia.

Leia mais sobre as funcionalidades completas do John Snow Labs Spark NLP for Healthcare e a documentação para uso em seu site.