Compreender faísca ml

Concluído

A Azure Databricks suporta várias bibliotecas para machine learning. Há uma biblioteca chave, que tem duas abordagens que são nativas de Apache Spark: MLLib e Spark ML.

MLLib

MLLib é uma abordagem legado para a aprendizagem automática em Apache Spark. Baseia-se na estrutura de dados distribuída (RDD) da Spark. Esta estrutura de dados forma a base do Apache Spark, mas estruturas de dados adicionais no topo do RDD, como dataframes, reduziram a necessidade de trabalhar diretamente com RDDs.

A partir de Apache Spark 2.0, a biblioteca entrou em modo de manutenção. Isto significa que o MLLib ainda está disponível e não foi depreciado, mas não haverá nenhuma nova funcionalidade adicionada à biblioteca. Em vez disso, os clientes são aconselhados a mudarem-se para a org.apache.spark.ml biblioteca, vulgarmente designada por Spark ML.

Spark ML

Spark ML é a biblioteca primária para o desenvolvimento de machine learning em Apache Spark. Suporta dataFrames na sua API, contra a abordagem clássica de RDD. Isto torna o Spark ML uma biblioteca mais fácil de trabalhar para cientistas de dados, uma vez que os Spark DataFrames partilham muitas ideias comuns com os DataFrames usados em Pandas e R.

A parte mais confusa sobre MLLib versus Spark ML é que ambos são a mesma biblioteca. A diferença é que o espaço de nome "clássico" MLLib é org.apache.spark.mllib enquanto o espaço de nome Spark ML é org.apache.spark.ml. Sempre que possível, utilize o espaço de nome Spark ML ao realizar novas atividades de ciência de dados.