Co to jest inżynieria danych w usłudze Microsoft Fabric?

Inżynieria danych w usłudze Microsoft Fabric umożliwia użytkownikom projektowanie, tworzenie i konserwowanie infrastruktury i systemów, które umożliwiają organizacjom zbieranie, przechowywanie, przetwarzanie i analizowanie dużych ilości danych.

Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić łatwy dostęp do danych, dobrze zorganizowany i wysokiej jakości. Na stronie głównej inżynierii danych można wykonywać następujące czynności:

  • Tworzenie danych i zarządzanie nimi przy użyciu usługi Lakehouse

  • Projektowanie potoków w celu skopiowania danych do usługi Lakehouse

  • Przesyłanie zadania wsadowego/przesyłania strumieniowego do klastra Spark przy użyciu definicji zadań platformy Spark

  • Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych

    Zrzut ekranu przedstawiający inżynierowie danych obiektów.

Lakehouse

Usługa Lakehouse to architektury danych, które umożliwiają organizacjom przechowywanie danych ustrukturyzowanych i nieustrukturyzowanych oraz zarządzanie nimi w jednej lokalizacji przy użyciu różnych narzędzi i struktur do przetwarzania i analizowania tych danych. Te narzędzia i struktury mogą obejmować zapytania i analizy oparte na języku SQL, a także uczenie maszynowe i inne zaawansowane techniki analizy.

Definicja zadania platformy Apache Spark

Definicje zadań platformy Spark to zestaw instrukcji definiujących sposób wykonywania zadania w klastrze Spark. Zawiera informacje, takie jak źródła danych wejściowych i wyjściowych, przekształcenia i ustawienia konfiguracji aplikacji Spark. Definicja zadania platformy Spark umożliwia przesyłanie zadania wsadowego/przesyłania strumieniowego do klastra Spark, stosowanie innej logiki przekształcania do danych hostowanych w usłudze Lakehouse wraz z wieloma innymi elementami.

Notes

Notesy to interaktywne środowisko obliczeniowe, które umożliwia użytkownikom tworzenie i udostępnianie dokumentów zawierających kod na żywo, równania, wizualizacje i tekst narracji. Umożliwiają użytkownikom pisanie i wykonywanie kodu w różnych językach programowania, w tym Python, R i Scala. Notesy można używać do pozyskiwania, przygotowywania, analizy i innych zadań związanych z danymi.

Potok danych

Potoki danych to seria kroków, które mogą zbierać, przetwarzać i przekształcać dane z pierwotnej postaci do formatu, którego można użyć do analizy i podejmowania decyzji. Są one kluczowym składnikiem inżynierii danych, ponieważ zapewniają one sposób przenoszenia danych ze źródła do miejsca docelowego w niezawodny, skalowalny i wydajny sposób.

Możesz bezpłatnie korzystać z inżynierowie danych w usłudze Microsoft Fabric podczas tworzenia konta w wersji próbnej usługi Fabric. Możesz również kupić pojemność usługi Microsoft Fabric lub pojemność zarezerwowaną sieci szkieletowej

Wprowadzenie do środowiska inżynierowie danych: