Compartilhar via


O que é Ciência de Dados no Microsoft Fabric?

Para aprimoramento de dados e insights de negócios, o Microsoft Fabric oferece experiências de Ciência de Dados que capacitam os usuários a criar fluxos de trabalho de ciência de dados de ponta a ponta. Para começar, confira o tutorial de ponta a ponta da Ciência de Dados.

Você pode concluir uma ampla gama de atividades em todo o processo de ciência de dados:

Os usuários do Microsoft Fabric podem acessar uma home page do Data Science. Em seguida, eles podem descobrir e acessar vários recursos relevantes, conforme mostrado na seguinte captura de tela:

Captura de tela da página inicial de ciência de dados.

A maioria dos projetos de machine learning segue o processo de ciência de dados. Em um alto nível, esse processo envolve estas etapas:

Diagrama do processo de ciência de dados.

Este artigo descreve as funcionalidades de Ciência de Dados do Microsoft Fabric de uma perspectiva do processo de ciência de dados. Para cada etapa no processo de ciência de dados, este artigo resume os recursos do Microsoft Fabric que podem ajudar.

Formulação e ideação de problemas

Os usuários de Ciência de Dados no Microsoft Fabric trabalham na mesma plataforma que usuários e analistas de negócios. Como resultado, o compartilhamento e a colaboração de dados tornam-se mais integrados entre diferentes funções. Os analistas podem compartilhar facilmente relatórios e conjuntos de dados do Power BI com profissionais de ciência de dados. A facilidade de colaboração entre funções no Microsoft Fabric facilita as entregas durante a fase de formulação do problema.

Descoberta e pré-processamento de dados

Os usuários do Microsoft Fabric podem interagir com dados no OneLake usando o recurso Lakehouse. Para navegar e interagir com dados, o Lakehouse é facilmente anexado a um notebook. Os usuários podem ler facilmente dados de um Lakehouse diretamente em um dataframe do Pandas. Para exploração, tornam-se possíveis leituras de dados contínuas do OneLake.

Há um conjunto avançado de ferramentas disponíveis para pipelines de ingestão e orquestração de dados nos pipelines de integração de dados, uma parte integrada de maneira nativa do Microsoft Fabric. Pipelines fáceis de criar podem acessar e transformar os dados em um formato que o machine learning pode consumir.

Exploração de dados

Uma parte importante do processo de aprendizado de máquina envolve a compreensão de dados por meio da exploração e visualização.

Dependendo do local de armazenamento de dados, o Microsoft Fabric oferece ferramentas para explorar e preparar os dados para análise e aprendizado de máquina. Os próprios notebooks tornam-se ferramentas eficientes e eficazes de exploração de dados.

Apache Spark e Python para preparação de dados

O Microsoft Fabric pode transformar, preparar e explorar seus dados em escala. Com o Spark, os usuários podem usar as ferramentas PySpark/Python, Scala e SparkR/SparklyR para pré-processar dados em escala. Bibliotecas de visualização de software livre avançadas podem aprimorar a experiência de exploração de dados para melhores compreensões de dados.

Data Wrangler para limpeza de dados perfeita

Para usar o Data Wrangler, a experiência do Bloco de Anotações do Microsoft Fabric adicionou um recurso de ferramenta de código que prepara dados e gera código Python. Essa experiência facilita a aceleração de tarefas entediantes e mundanas , por exemplo, limpeza de dados. Com ele, você também pode criar automação e repetibilidade por meio do código gerado. Saiba mais sobre o Data Wrangler na seção Data Wrangler deste documento.

Experimentação e modelagem de ML

Com ferramentas como PySpark/Python e SparklyR/R, os notebooks podem lidar com o treinamento de modelo de machine learning. Algoritmos e bibliotecas de machine learning podem ajudar a treinar modelos de machine learning. As ferramentas de gerenciamento de bibliotecas podem instalar essas bibliotecas e algoritmos. Os usuários podem usar bibliotecas populares de machine learning para concluir o treinamento de modelo de ML no Microsoft Fabric. Além disso, bibliotecas populares como o Scikit Learn também podem desenvolver modelos.

Experimentos e execuções do MLflow podem acompanhar o treinamento do modelo de ML. Para registrar experimentos e modelos em log, o Microsoft Fabric oferece uma experiência integrada do MLflow que suporta a interação. Saiba mais sobre como usar o MLflow para acompanhar experimentos e gerenciar modelos no Microsoft Fabric.

SynapseML

A Microsoft possui e opera a biblioteca de software livre SynapseML (anteriormente conhecida como MMLSpark). Ele simplifica a criação de pipelines de machine learning massivamente escalonáveis. Como um ecossistema de ferramentas, ele expande a estrutura do Apache Spark em várias novas direções. O SynapseML unifica várias estruturas de machine learning existentes e novos algoritmos da Microsoft em uma API única e escalonável. A biblioteca SynapseML de software livre inclui um ecossistema avançado de ferramentas de ML para desenvolvimento de modelo preditivo e usa modelos de IA pré-treinados dos serviços de IA do Azure. Para obter mais informações, visite o recurso SynapseML .

Enriquecer e operacionalizar

Os notebooks podem lidar com a pontuação em lote do modelo de machine learning com bibliotecas de software livre para previsão. Eles também podem lidar com a função universal escalonável Spark Predict do Microsoft Fabric. Essa função dá suporte a modelos empacotados do MLflow no registro de modelo do Microsoft Fabric.

Receber insights

No Microsoft Fabric, você pode escrever facilmente valores previstos no OneLake. A partir daí, os relatórios do Power BI podem consumi-los sem problemas com o modo Direct Lake do Power BI. Os profissionais de ciência de dados podem compartilhar facilmente os resultados de seu trabalho com os stakeholders e isso simplifica a operacionalização.

Você pode usar os recursos de agendamento do notebook para agendar execuções de blocos de anotações que contêm pontuação em lote. Você também pode agendar a pontuação em lote como parte das atividades de pipeline ou das tarefas do Spark. Com o modo Direct Lake no Microsoft Fabric, o Power BI obtém automaticamente as previsões mais recentes sem a necessidade de carregamentos ou atualizações de dados.

Cientistas de dados e analistas de negócios gastam muito tempo tentando entender, limpar e transformar dados antes que uma análise significativa possa começar. Os analistas de negócios normalmente trabalham com modelos semânticos e codificam seus conhecimentos de domínio e lógica de negócios em medidas do Power BI. Por outro lado, os cientistas de dados podem trabalhar com os mesmos dados, mas normalmente usam um ambiente ou linguagem de código diferente. Com o link semântico, os cientistas de dados podem estabelecer uma conexão entre modelos semânticos do Power BI e a Ciência de Dados do Synapse na experiência do Microsoft Fabric por meio da biblioteca SemPy Python. Para simplificar a análise de dados, o SemPy captura e usa a semântica de dados à medida que os usuários realizam várias transformações nos modelos semânticos. Quando os cientistas de dados usam ligação semântica, eles podem

  • evitar a reimplementação da lógica de negócios e do conhecimento de domínio em seu código
  • acessar e usar facilmente as medidas do Power BI em seu código
  • usar semântica para alimentar novas experiências – por exemplo, funções semânticas
  • explorar e validar dependências funcionais e relações entre dados

Quando as organizações usam o SemPy, elas podem esperar

  • maior produtividade e colaboração mais rápida entre as equipes que operam nos mesmos conjuntos de dados
  • maior colaboração cruzada entre equipes de business intelligence e IA
  • ambiguidade reduzida e uma curva de aprendizado mais fácil ao integrar em um novo modelo ou conjunto de dados

Para obter mais informações sobre o link semântico, consulte o que é link semântico?.