Explore e processe dados com o Microsoft Fabric

Concluído

Os dados são a pedra angular da ciência de dados, particularmente quando se pretende treinar um modelo de aprendizagem automática para alcançar a inteligência artificial. Normalmente, os modelos exibem desempenho aprimorado à medida que o tamanho do conjunto de dados de treinamento aumenta. Além da quantidade de dados, a qualidade dos dados é igualmente crucial.

Para garantir a qualidade e a quantidade de seus dados, vale a pena usar os robustos mecanismos de ingestão e processamento de dados do Microsoft Fabric. Você tem a flexibilidade de optar por uma abordagem low-code ou code-first ao estabelecer os pipelines essenciais de ingestão, exploração e transformação de dados.

Ingerir seus dados no Microsoft Fabric

Para trabalhar com dados no Microsoft Fabric, primeiro você precisa ingerir dados. Você pode ingerir dados de várias fontes, tanto locais quanto na nuvem. Por exemplo, você pode ingerir dados de um arquivo CSV armazenado em sua máquina local ou em um Azure Data Lake Storage (Gen2).

Gorjeta

Saiba mais sobre como ingerir e orquestrar dados de várias fontes com o Microsoft Fabric.

Depois de se conectar a uma fonte de dados, você pode salvar os dados em uma casa de lago do Microsoft Fabric. Você pode usar o lakehouse como um local central para armazenar arquivos estruturados, semiestruturados e não estruturados. Você pode então se conectar facilmente à casa do lago sempre que quiser acessar seus dados para exploração ou transformação.

Explore e transforme os seus dados

Como cientista de dados, você pode estar mais familiarizado com a escrita e execução de código em blocos de anotações. O Microsoft Fabric oferece uma experiência familiar de notebook, alimentada pela computação Spark.

O Apache Spark é uma estrutura de processamento paralelo de código aberto para processamento e análise de dados em larga escala.

Os blocos de anotações são anexados automaticamente à computação do Spark. Quando executa uma célula num bloco de notas pela primeira vez, é iniciada uma nova sessão do Spark. A sessão persiste quando você executa células subsequentes. A sessão do Spark será interrompida automaticamente após algum tempo de inatividade para economizar custos. Você também pode parar manualmente a sessão.

Quando estiver a trabalhar num bloco de notas, pode escolher o idioma que pretende utilizar. Para cargas de trabalho de ciência de dados, é provável que você trabalhe com PySpark (Python) ou SparkR (R).

Screenshot of a notebook in Microsoft Fabric.

No bloco de anotações, você pode explorar seus dados usando sua biblioteca preferida ou com qualquer uma das opções de visualização internas. Se necessário, você pode transformar seus dados e salvar os dados processados gravando-os de volta na casa do lago.

Prepare os seus dados com o Data Wrangler

Para ajudá-lo a explorar e transformar seus dados mais rapidamente, o Microsoft Fabric oferece o Data Wrangler fácil de usar.

Depois de iniciar o Data Wrangler, você terá uma visão geral descritiva dos dados com os quais está trabalhando. Você pode visualizar as estatísticas resumidas de seus dados para encontrar quaisquer problemas, como valores ausentes.

Para limpar seus dados, você pode escolher qualquer uma das operações internas de limpeza de dados. Quando você seleciona uma operação, uma visualização do resultado e do código associado é gerada automaticamente para você. Depois de selecionar todas as operações necessárias, você pode exportar as transformações para o código e executá-lo em seus dados.