Compreender o processo de ciência de dados

Concluído

Uma maneira comum de extrair insights dos dados é visualizá-los. Sempre que tiver conjuntos de dados complexos, convém aprofundar e tentar encontrar padrões complexos nos dados.

Como cientista de dados, você pode treinar modelos de aprendizado de máquina para encontrar padrões em seus dados. Você pode usar esses padrões para gerar novos insights ou previsões. Por exemplo, você pode prever o número esperado de produtos que espera vender na próxima semana.

Embora treinar o modelo seja importante, não é a única tarefa em um projeto de ciência de dados. Antes de explorar um processo típico de ciência de dados, vamos explorar modelos comuns de aprendizado de máquina que você pode treinar.

Explore modelos comuns de aprendizado de máquina

O objetivo do aprendizado de máquina é treinar modelos que possam identificar padrões em grandes quantidades de dados. Em seguida, você pode usar os padrões para fazer previsões que fornecem novos insights sobre os quais você pode tomar ações.

As possibilidades com o aprendizado de máquina podem parecer infinitas, então vamos começar entendendo os quatro tipos comuns de modelos de aprendizado de máquina:

Diagram of the four common types of machine learning models.

  1. Classificação: preveja um valor categórico, como se um cliente pode churn.
  2. Regressão: Preveja um valor numérico como o preço de um produto.
  3. Clustering: agrupe pontos de dados semelhantes em clusters ou grupos.
  4. Previsão: Preveja valores numéricos futuros com base em dados de séries temporais, como as vendas esperadas para o próximo mês.

Para decidir que tipo de modelo de aprendizado de máquina você precisa treinar, primeiro você precisa entender o problema de negócios e os dados disponíveis para você.

Compreender o processo de ciência de dados

Para treinar um modelo de aprendizado de máquina, o processo geralmente envolve as seguintes etapas:

Diagram of sequential steps in the data science process.

  1. Defina o problema: Juntamente com usuários de negócios e analistas, decida o que o modelo deve prever e quando é bem-sucedido.
  2. Obtenha os dados: encontre fontes de dados e obtenha acesso armazenando seus dados em uma Lakehouse.
  3. Prepare os dados: explore os dados lendo-os de uma Lakehouse em um caderno. Limpe e transforme os dados com base nos requisitos do modelo.
  4. Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro rastreando seus experimentos com MLflow.
  5. Gerar insights: use a pontuação em lote do modelo para gerar as previsões solicitadas.

Como cientista de dados, a maior parte do seu tempo é gasto na preparação dos dados e no treinamento do modelo. A forma como você prepara os dados e qual algoritmo você escolhe para treinar um modelo pode influenciar o sucesso do seu modelo.

Você pode preparar e treinar um modelo usando bibliotecas de código aberto disponíveis para o idioma de sua escolha. Por exemplo, se você trabalha com Python, pode preparar os dados com Pandas e Numpy, e treinar um modelo com bibliotecas como Scikit-Learn, PyTorch ou SynapseML.

Ao experimentar, você quer manter uma visão geral de todos os diferentes modelos que você treinou. Você quer entender como suas escolhas influenciam o sucesso do modelo. Ao acompanhar seus experimentos com o MLflow no Microsoft Fabric, você pode gerenciar e implantar facilmente os modelos treinados.