Co to jest inżynieria danych w usłudze Microsoft Fabric?
Inżynieria danych w usłudze Microsoft Fabric umożliwia użytkownikom projektowanie, tworzenie i konserwowanie infrastruktury i systemów, które umożliwiają organizacjom zbieranie, przechowywanie, przetwarzanie i analizowanie dużych ilości danych.
Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić łatwy dostęp do danych, dobrze zorganizowany i wysokiej jakości. Na stronie głównej inżynierii danych można wykonywać następujące czynności:
Tworzenie danych i zarządzanie nimi przy użyciu usługi Lakehouse
Projektowanie potoków w celu skopiowania danych do usługi Lakehouse
Przesyłanie zadania wsadowego/przesyłania strumieniowego do klastra Spark przy użyciu definicji zadań platformy Spark
Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych
Lakehouse
Usługa Lakehouse to architektury danych, które umożliwiają organizacjom przechowywanie danych ustrukturyzowanych i nieustrukturyzowanych oraz zarządzanie nimi w jednej lokalizacji przy użyciu różnych narzędzi i struktur do przetwarzania i analizowania tych danych. Te narzędzia i struktury mogą obejmować zapytania i analizy oparte na języku SQL, a także uczenie maszynowe i inne zaawansowane techniki analizy.
Definicja zadania platformy Apache Spark
Definicje zadań platformy Spark to zestaw instrukcji definiujących sposób wykonywania zadania w klastrze Spark. Zawiera informacje, takie jak źródła danych wejściowych i wyjściowych, przekształcenia i ustawienia konfiguracji aplikacji Spark. Definicja zadania platformy Spark umożliwia przesyłanie zadania wsadowego/przesyłania strumieniowego do klastra Spark, stosowanie innej logiki przekształcania do danych hostowanych w usłudze Lakehouse wraz z wieloma innymi elementami.
Notes
Notesy to interaktywne środowisko obliczeniowe, które umożliwia użytkownikom tworzenie i udostępnianie dokumentów zawierających kod na żywo, równania, wizualizacje i tekst narracji. Umożliwiają użytkownikom pisanie i wykonywanie kodu w różnych językach programowania, w tym Python, R i Scala. Notesy można używać do pozyskiwania, przygotowywania, analizy i innych zadań związanych z danymi.
Potok danych
Potoki danych to seria kroków, które mogą zbierać, przetwarzać i przekształcać dane z pierwotnej postaci do formatu, którego można użyć do analizy i podejmowania decyzji. Są one kluczowym składnikiem inżynierii danych, ponieważ zapewniają one sposób przenoszenia danych ze źródła do miejsca docelowego w niezawodny, skalowalny i wydajny sposób.
Możesz bezpłatnie korzystać z inżynierowie danych w usłudze Microsoft Fabric podczas tworzenia konta w wersji próbnej usługi Fabric. Możesz również kupić pojemność usługi Microsoft Fabric lub pojemność zarezerwowaną sieci szkieletowej
Powiązana zawartość
Wprowadzenie do inżynierowie danych:
- Aby dowiedzieć się więcej o lakehouses, zobacz Co to jest lakehouse w usłudze Microsoft Fabric?
- Aby rozpocząć pracę z lakehouse, zobacz Tworzenie magazynu lakehouse w usłudze Microsoft Fabric.
- Aby dowiedzieć się więcej na temat definicji zadań platformy Apache Spark, zobacz Co to jest definicja zadania platformy Apache Spark?
- Aby rozpocząć pracę z definicją zadania platformy Apache Spark, zobacz How to create an Apache Spark job definition in Fabric (Jak utworzyć definicję zadania platformy Apache Spark w usłudze Fabric).
- Aby dowiedzieć się więcej o notesach, zobacz Tworzenie i wykonywanie notesu.
- Aby rozpocząć pracę z działaniem kopiowania potoku, zobacz Jak kopiować dane przy użyciu działania kopiowania.