Pré-processamento de dados para aprendizado de máquina e aprendizado profundo
Você pode usar o Repositório de Recursos do Databricks para criar recursos, explorar e reutilizar recursos existentes, selecionar recursos para treinamento e pontuação de modelos de machine learning e publicar recursos em lojas online de baixa latência para inferência em tempo real.
Em conjuntos de dados grandes, use o Spark SQL e o MLlib para a engenharia de recursos. As bibliotecas de terceiros incluídas no Databricks Runtime ML, como o Scikit-learn, também fornecem métodos auxiliares úteis. Para obter exemplos, confira os seguintes notebooks de machine learning do Scikit-learn e do MLlib:
Para um processamento de recursos de aprendizado profundo mais complexo, este notebook de exemplo ilustra como usar a transferência de aprendizado para definição de recursos: