Compilar modelos de aprendizado de máquina
O Apache Spark — como parte do Microsoft Fabric — habilita o aprendizado de máquina com Big Data. Com o Apache Spark você pode ter insights valiosos de grandes quantidades de dados estruturados, não estruturados e de movimentação rápida. Você tem várias opções disponíveis para o treinamento de modelos de machine learning com o Apache Spark no Microsoft Fabric: Apache Spark MLlib, SynapseML e vários outros.
Apache SparkML e MLLib
O Apache Spark — uma parte do Microsoft Fabric — fornece uma estrutura de processamento de dados unificada, de código aberto e paralela. Essa estrutura oferece suporte ao processamento na memória que impulsiona a análise de Big Data. O mecanismo de processamento do Spark foi desenvolvido para velocidade, facilidade de uso e análise sofisticada. As funcionalidades de computação distribuídas na memória do Spark fazem dele uma boa escolha para algoritmos iterativos usados em cálculos com representação em gráfico e aprendizado de máquina.
As bibliotecas de aprendizado de máquina escalonáveis MLlib e SparkML oferecem capacidades de modelagem de algoritmo para esse ambiente distribuído. O MLlib contém a API original criada com base em RDDs. O SparkML é um pacote mais recente. Ele fornece uma API de nível superior criada com base em DataFrames para a construção de pipelines do ML. O SparkML ainda não fornece suporte a todos os recursos do MLlib, mas está substituindo o MLlib como biblioteca de aprendizado de máquina padrão do Spark.
Observação
Para obter mais informações sobre a criação do modelo SparkML, visite o recurso Modelos de treinamento com o Apache Spark MLlib.
Bibliotecas populares
O runtime do Microsoft Fabric para o Apache Spark inclui vários pacotes populares e de código aberto para o treinamento de modelos de machine learning. Essas bibliotecas fornecem código reutilizável que você pode incluir em seus programas ou projetos. O runtime inclui essas bibliotecas de aprendizado de máquina relevantes e outras:
Scikit-Learn é uma das bibliotecas mais populares de aprendizado de máquina de single-node para algoritmos clássicos de ML. O Scikit-Learn é compatível com a maioria dos algoritmos de aprendizado supervisionados e não supervisionados, podendo ainda ser usado para data mining e análise de dados.
O XGBoost é uma biblioteca de aprendizado de máquina popular que contém algoritmos otimizados para árvores de decisão de treinamento e florestas aleatórias.
PyTorch e Tensorflow são bibliotecas avançadas de aprendizado profundo do Python. Com essas bibliotecas, você pode definir o número de executores na subfase como zero, para criar modelos de computador único. Embora essa configuração não ofereça suporte ao Apache Spark, é uma maneira simples e econômica de criar modelos de computador único.
SynapseML
O SynapseML (anteriormente conhecido como MMLSpark) é uma biblioteca de código aberto que simplifica a criação de pipelines de ML (aprendizado de máquina) altamente escalonáveis. Com ele, o uso do Spark por cientistas de dados se torna mais produtivo porque essa biblioteca aumenta a taxa de experimentação e aplica técnicas de aprendizado de máquina de ponta — incluindo aprendizado profundo — em grandes conjuntos de dados.
O SynapseML fornece uma camada acima das APIs de baixo nível do SparkML ao criar modelos de ML escalonáveis. Essas APIs abrangem indexação de sequência, montagem de vetor de recursos, coerção de dados em layouts apropriados para algoritmos de aprendizado de máquina e muito mais. A biblioteca SynapseML simplifica essas e outras tarefas comuns para a criação de modelos no PySpark.
Conteúdo relacionado
Este artigo fornece uma visão geral das várias opções disponíveis para o treinamento de modelos de machine learning no Apache Spark no Microsoft Fabric. Para mais informações sobre treinamento de modelos, visite estes recursos:
- Use exemplos de IA para criar modelos de machine learning: Usar exemplos de IA
- Acompanhe as execuções de aprendizado de máquina usando os Experimentos: Experimentos de aprendizado de máquina