Partilhar via


O que é Ciência de Dados no Microsoft Fabric?

O Microsoft Fabric oferece experiências de Ciência de Dados para capacitar os usuários a concluir fluxos de trabalho completos de ciência de dados com a finalidade de enriquecimento de dados e insights de negócios. Você pode concluir uma ampla gama de atividades em todo o processo de ciência de dados, desde a exploração, preparação e limpeza de dados até a experimentação, modelagem, pontuação de modelos e fornecimento de insights preditivos para relatórios de BI.

Os usuários do Microsoft Fabric podem acessar uma Home page de Ciência de Dados. A partir daí, eles podem descobrir e acessar vários recursos relevantes. Por exemplo, eles podem criar experimentos, modelos e notebooks de aprendizado de máquina. Eles também podem importar Blocos de Anotações existentes na página inicial de Ciência de Dados.

Captura de tela da página inicial de Ciência de dados.

Você pode saber como funciona um processo típico de ciência de dados. Como um processo bem conhecido, a maioria dos projetos de aprendizado de máquina o segue.

A um nível elevado, o processo envolve as seguintes etapas:

  • Formulação e ideação de problemas
  • Descoberta e pré-processamento de dados
  • Experimentação e modelação
  • Enriquecer e operacionalizar
  • Obter informações

Diagrama do processo de ciência de dados.

Este artigo descreve os recursos do Microsoft Fabric Data Science de uma perspetiva de processo de ciência de dados. Para cada etapa do processo de ciência de dados, este artigo resume os recursos do Microsoft Fabric que podem ajudar.

Formulação e ideação de problemas

Os usuários de Ciência de Dados no Microsoft Fabric trabalham na mesma plataforma que os usuários corporativos e analistas. Como resultado, o compartilhamento de dados e a colaboração se tornam mais contínuos entre diferentes funções. Os analistas podem compartilhar facilmente relatórios e conjuntos de dados do Power BI com profissionais de ciência de dados. A facilidade de colaboração entre funções no Microsoft Fabric torna as transferências durante a fase de formulação do problema muito mais fáceis.

Descoberta e pré-processamento de dados

Os usuários do Microsoft Fabric podem interagir com dados no OneLake usando o item Lakehouse. O Lakehouse se conecta facilmente a um Notebook para navegar e interagir com os dados.

Os usuários podem facilmente ler dados de um Lakehouse diretamente em um dataframe Pandas. Para exploração, isso possibilita leituras de dados perfeitas do OneLake.

Um poderoso conjunto de ferramentas está disponível para pipelines de ingestão e orquestração de dados com pipelines de integração de dados - uma parte nativamente integrada do Microsoft Fabric. Pipelines de dados fáceis de criar podem acessar e transformar os dados em um formato que o aprendizado de máquina pode consumir.

Exploração de dados

Uma parte importante do processo de aprendizado de máquina é entender os dados por meio da exploração e visualização.

Dependendo do local de armazenamento de dados, o Microsoft Fabric oferece um conjunto de ferramentas diferentes para explorar e preparar os dados para análise e aprendizado de máquina. Os blocos de notas tornam-se uma das formas mais rápidas de começar a explorar dados.

Apache Spark e Python para preparação de dados

O Microsoft Fabric oferece recursos para transformar, preparar e explorar seus dados em escala. Com o Spark, os usuários podem aproveitar as ferramentas PySpark/Python, Scala e SparkR/SparklyR para pré-processamento de dados em escala. Poderosas bibliotecas de visualização de código aberto podem melhorar a experiência de exploração de dados para ajudar a entender melhor os dados.

Data Wrangler para limpeza de dados perfeita

A experiência do Microsoft Fabric Notebook adicionou um recurso para usar o Data Wrangler, uma ferramenta de código que prepara dados e gera código Python. Essa experiência facilita a aceleração de tarefas entediantes e mundanas - por exemplo, limpeza de dados e construção de repetibilidade e automação por meio de código gerado. Saiba mais sobre o Data Wrangler na seção Data Wrangler deste documento.

Experimentação e modelagem de ML

Com ferramentas como PySpark/Python, SparklyR/R, os notebooks podem lidar com o treinamento de modelos de aprendizado de máquina.

Algoritmos e bibliotecas de ML podem ajudar a treinar modelos de aprendizado de máquina. As ferramentas de gerenciamento de bibliotecas podem instalar essas bibliotecas e algoritmos. Os usuários têm, portanto, a opção de aproveitar uma grande variedade de bibliotecas populares de aprendizado de máquina para concluir seu treinamento de modelo de ML no Microsoft Fabric.

Além disso, bibliotecas populares como o Scikit Learn também podem desenvolver modelos.

Os experimentos e execuções do MLflow podem acompanhar o treinamento do modelo de ML. O Microsoft Fabric oferece uma experiência de MLflow integrada com a qual os usuários podem interagir, para registrar experimentos e modelos. Saiba mais sobre como usar o MLflow para rastrear experimentos e gerenciar modelos no Microsoft Fabric.

SinapseML

A biblioteca de código aberto SynapseML (anteriormente conhecida como MMLSpark), que a Microsoft possui e mantém, simplifica a criação de pipeline de aprendizado de máquina massivamente escalável. Como um ecossistema de ferramentas, ele expande a estrutura do Apache Spark em várias novas direções. O SynapseML unifica várias estruturas de aprendizado de máquina existentes e novos algoritmos da Microsoft em uma única API escalável. A biblioteca SynapseML de código aberto inclui um rico ecossistema de ferramentas de ML para o desenvolvimento de modelos preditivos, bem como a utilização de modelos de IA pré-treinados dos serviços de IA do Azure. Saiba mais sobre SynapseML.

Enriquecer e operacionalizar

Os blocos de anotações podem lidar com a pontuação em lote do modelo de aprendizado de máquina com bibliotecas de código aberto para previsão ou a função universal escalável do Microsoft Fabric Spark Predict, que oferece suporte a modelos empacotados MLflow no registro do modelo do Microsoft Fabric.

Obter informações

No Microsoft Fabric, os valores previstos podem ser facilmente gravados no OneLake e consumidos diretamente a partir de relatórios do Power BI, com o modo Power BI Direct Lake. Isso torna muito fácil para os profissionais de ciência de dados compartilhar os resultados de seu trabalho com as partes interessadas e também simplifica a operacionalização.

Os blocos de anotações que contêm pontuação em lote podem ser agendados para execução usando os recursos de agendamento do Bloco de Anotações. A pontuação em lote também pode ser agendada como parte de atividades de pipeline de dados ou trabalhos do Spark. O Power BI obtém automaticamente as previsões mais recentes sem necessidade de carregamento ou atualização dos dados, graças ao modo Direct lake no Microsoft Fabric.

Importante

Este recurso está em pré-visualização.

Cientistas de dados e analistas de negócios gastam muito tempo tentando entender, limpar e transformar dados antes de poderem iniciar qualquer análise significativa. Os analistas de negócios normalmente trabalham com modelos semânticos e codificam seu conhecimento de domínio e lógica de negócios em medidas do Power BI. Por outro lado, os cientistas de dados podem trabalhar com os mesmos dados, mas normalmente em um ambiente de código ou linguagem diferente.

O link semântico (visualização) permite que os cientistas de dados estabeleçam uma conexão entre os modelos semânticos do Power BI e a experiência Synapse Data Science no Microsoft Fabric por meio da biblioteca Python SemPy. O SemPy simplifica a análise de dados capturando e aproveitando a semântica de dados à medida que os usuários executam várias transformações nos modelos semânticos. Ao aproveitar o link semântico, os cientistas de dados podem:

  • evitar a necessidade de reimplementar a lógica de negócios e o conhecimento de domínio em seu código
  • acessar e usar facilmente as medidas do Power BI em seu código
  • usar semântica para potencializar novas experiências, como funções semânticas
  • explorar e validar dependências funcionais e relações entre dados

Através do uso do SemPy, as organizações podem esperar ver:

  • Maior produtividade e colaboração mais rápida entre equipes que operam nos mesmos conjuntos de dados
  • maior colaboração cruzada entre equipes de business intelligence e IA
  • Redução da ambiguidade e uma curva de aprendizagem mais fácil ao integrar um novo modelo ou conjunto de dados

Para obter mais informações sobre link semântico, consulte O que é link semântico (visualização)?.