Utilizar o Apache Spark MLlib no Azure Databricks
Esta página fornece blocos de anotações de exemplo mostrando como usar MLlib no Azure Databricks.
O MLib do Apache Spark é a biblioteca de machine learning do Apache Spark, constituída por utilitários e algoritmos de aprendizagem comuns, incluindo classificação, regressão, clustering, filtragem em colaboração, redução de dimensionalidade, bem como primitivos de otimização subjacentes. Para obter informações de referência sobre recursos MLlib, o Azure Databricks recomenda as seguintes referências da API do Apache Spark:
- MLlib Programming Guide (Guia de Programação do MLlib)
- Python API Reference (Referência da API de Python)
- Scala API Reference (Referência da API de Scala)
- API de Java
Para obter informações sobre como usar o Apache Spark MLlib de R, consulte a documentação de aprendizado de máquina R.
Bloco de notas de exemplo de classificação binária
Este bloco de notas mostra como criar uma aplicação de classificação binária com a API de Pipelines MLlib do Apache Spark.
Bloco de notas de classificação binária
Blocos de notas de exemplo de árvores de decisão
Estes exemplos demonstram várias aplicações de árvores de decisões com a API de Pipelines MLlib do Apache Spark.
Árvores de decisões
Estes blocos de notas mostram como realizar classificações com árvores de decisões.
Árvores de decisões para o bloco de notas de reconhecimento de dígitos
Árvores de decisões para o bloco de notas de inquérito SFO
Regressão GBT com pipelines MLlib
Este bloco de notas mostra como utilizar pipelines MLlib para executar uma regressão com árvores aumentadas por gradientes para prever contagens de aluguer de bicicletas (por hora) a partir de informações como o dia da semana, a meteorologia, a época, etc.
Bloco de notas de regressão da partilha de bicicletas
Exemplo avançado de notebook Apache Spark MLlib
Este bloco de notas ilustra como criar um transformador personalizado.