Co to jest nauka o danych w usłudze Microsoft Fabric?

W przypadku wzbogacania danych i szczegółowych informacji biznesowych usługa Microsoft Fabric oferuje środowiska nauki o danych, które umożliwiają użytkownikom tworzenie pełnych przepływów pracy nauki o danych. Obciążenia nauki o danych działają bezpośrednio na zarządzanych danych przedsiębiorstwa w usłudze OneLake, dzięki czemu można uzyskiwać dostęp do wyselekcjonowanych zestawów danych, udostępnionych danych i przewidywań bez przenoszenia danych między systemami. Aby rozpocząć pracę, zobacz samouczek dotyczący kompleksowej nauki o danych.

Możesz wykonać szeroką gamę działań w całym procesie nauki o danych:

Użytkownicy usługi Microsoft Fabric mogą uzyskać dostęp do strony głównej nauki o danych. Następnie mogą odnajdywać i uzyskiwać dostęp do różnych odpowiednich zasobów, jak pokazano na poniższym zrzucie ekranu:

Większość projektów uczenia maszynowego jest realizowanych zgodnie z procesem nauki o danych. Na wysokim poziomie ten proces obejmuje następujące kroki:

formułowanie i generowanie pomysłów problemu
odnajdywanie i wstępne przetwarzanie danych
eksperymentowanie i modelowanie
wzbogacanie i operacjonalizacja
wnioski z budowy

W tym artykule opisano możliwości nauki o danych w usłudze Microsoft Fabric z perspektywy procesu nauki o danych. Dla każdego kroku procesu nauki o danych ten artykuł zawiera podsumowanie możliwości usługi Microsoft Fabric, które mogą pomóc.

Formułowanie problemu i ideacja

Użytkownicy nauki o danych w usłudze Microsoft Fabric pracują na tej samej platformie co użytkownicy biznesowi i analitycy. Udostępnianie danych i współpraca stają się w rezultacie bardziej bezproblemowe w różnych rolach. Analitycy mogą łatwo udostępniać raporty i zestawy danych usługi Power BI praktykom nauki o danych. Łatwość współpracy między rolami w usłudze Microsoft Fabric ułatwia przekazywanie zadań w fazie formułowania problemu. Udostępnianie danych między tenantami w usłudze OneLake dodatkowo umożliwia współpracę między organizacjami, oferując zespołom nauki o danych dostęp do zarządzanych zbiorów danych udostępnianych przez partnerów zewnętrznych lub podmioty zależne.

Odnajdywanie i wstępne przetwarzanie danych

Użytkownicy usługi Microsoft Fabric mogą wchodzić w interakcje z danymi w usłudze OneLake przy użyciu zasobu lakehouse. Aby przeglądać dane i wchodzić z nimi w interakcje, usługa Lakehouse łatwo dołącza się do notesu. Użytkownicy mogą łatwo odczytywać dane z usługi Lakehouse bezpośrednio do ramki danych Pandas. W celu eksploracji możliwe staje się bezproblemowe czytanie danych z usługi OneLake.

Skróty OneLake rozszerzają tę funkcję, zapewniając dostęp bez kopiowania do danych przechowywanych w systemach zewnętrznych lub udostępnionych z innych obszarów roboczych i dzierżaw Microsoft Fabric. Możesz dołączyć skrót do lakehouse i odczytać przywoływane dane w notatniku bez duplikacji ani ETL.

Zaawansowany zestaw narzędzi jest dostępny dla potoków pozyskiwania danych i orkiestracji danych przy użyciu potoków integracji danych — natywnie zintegrowanej części usługi Microsoft Fabric. Łatwe do skonstruowania pipeline'y mogą uzyskiwać dostęp do danych i przekształcać je w format nadający się do uczenia maszynowego.

Eksploracja danych

Ważną częścią procesu uczenia maszynowego jest zrozumienie danych za pośrednictwem eksploracji i wizualizacji.

W zależności od lokalizacji przechowywania danych usługa Microsoft Fabric oferuje narzędzia do eksplorowania i przygotowywania danych do analizy i uczenia maszynowego. Same notesy stają się wydajnymi, skutecznymi narzędziami do eksploracji danych.

Apache Spark i Python na potrzeby przygotowywania danych

Usługa Microsoft Fabric może przekształcać, przygotowywać i eksplorować dane na dużą skalę. Dzięki platformie Spark użytkownicy mogą używać narzędzi PySpark/Python, Scala i SparkR/SparklyR do wstępnego przetwarzania danych na dużą skalę. Zaawansowane biblioteki wizualizacji typu open source mogą ulepszyć środowisko eksploracji danych, aby lepiej zrozumieć dane.

Wrangler danych na potrzeby bezproblemowego czyszczenia danych

Aby użyć Data Wrangler, interfejs notesu Microsoft Fabric dodał funkcję narzędzia do kodowania, która przygotowuje dane i generuje kod w języku Python. To środowisko ułatwia przyspieszenie żmudnych i przyziemnych zadań — na przykład czyszczenia danych. Dzięki niej można również tworzyć automatyzację i powtarzalność za pomocą wygenerowanego kodu. Dowiedz się więcej o usłudze Data Wrangler w sekcji Data Wrangler tego dokumentu.

Eksperymentowanie i modelowanie uczenia maszynowego

Dzięki narzędziom, takich jak PySpark/Python i SparklyR/R, notesy mogą obsługiwać trenowanie modelu uczenia maszynowego. Algorytmy i biblioteki uczenia maszynowego mogą pomóc w trenowaniu modeli uczenia maszynowego. Narzędzia do zarządzania bibliotekami mogą instalować te biblioteki i algorytmy. Użytkownicy mogą następnie używać popularnych bibliotek uczenia maszynowego do ukończenia trenowania modelu uczenia maszynowego w usłudze Microsoft Fabric. Ponadto popularne biblioteki, takie jak Scikit Learn, mogą również tworzyć modele.

Eksperymenty i przebiegi platformy MLflow mogą śledzić trenowanie modeli uczenia maszynowego. Aby rejestrować eksperymenty i modele, usługa Microsoft Fabric oferuje wbudowane środowisko MLflow, które obsługuje interakcję. Dowiedz się więcej o sposobie używania biblioteki MLflow do śledzenia eksperymentów i zarządzania modelami w usłudze Microsoft Fabric.

SynapseML

Firma Microsoft jest właścicielem i obsługuje bibliotekę open source synapseML (wcześniej znaną jako MMLSpark). Upraszcza tworzenie wysoce skalowalnych potoków uczenia maszynowego. Jako ekosystem narzędzi rozszerza platformę Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden skalowalny interfejs API. Biblioteka synapseML typu open source zawiera bogaty ekosystem narzędzi uczenia maszynowego do tworzenia modeli predykcyjnych i używa wstępnie wytrenowanych modeli sztucznej inteligencji z narzędzi Foundry Tools. Aby uzyskać więcej informacji, odwiedź zasób synapseML .

Wzbogacanie i operacjonalizacja

Notatniki mogą obsługiwać ocenianie wsadowe modelu uczenia maszynowego za pomocą bibliotek typu open source do przewidywania. Mogą również obsługiwać skalowalną uniwersalną funkcję Spark Predict w usłudze Microsoft Fabric. Ta funkcja obsługuje spakowane modele MLflow w rejestrze modeli usługi Microsoft Fabric.

Uzyskiwanie informacji

W usłudze Microsoft Fabric można łatwo zapisywać przewidywane wartości do OneLake. W tym miejscu raporty usługi Power BI mogą bezproblemowo korzystać z trybu usługi Power BI Direct Lake, który odczytuje dane bezpośrednio z usługi OneLake bez kopiowania ich do modelu semantycznego. Ten wzorzec dostępu bez kopiowania zapewnia aktualność przewidywań i eliminuje nadmiarowe przenoszenie danych. Praktycy z zakresu nauki o danych mogą łatwo dzielić się wynikami swojej pracy z interesariuszami, a także upraszcza operacjonalizację.

Funkcje planowania notesów umożliwiają planowanie przebiegów notesów zawierających ocenianie wsadowe. Można również zaplanować ocenianie wsadowe w ramach działań potoku lub zadań platformy Spark. W trybie direct lake w usłudze Microsoft Fabric usługa Power BI automatycznie pobiera najnowsze przewidywania bez konieczności ładowania lub odświeżania danych.

Eksploracja danych za pomocą linku semantycznego

Analitycy danych i analitycy biznesowi poświęcają dużo czasu, próbując zrozumieć, oczyścić i przekształcić dane przed rozpoczęciem znaczącej analizy. Analitycy biznesowi zwykle pracują z modelami semantycznymi i kodują swoją wiedzę na temat domeny i logikę biznesową do miar usługi Power BI. Z drugiej strony analitycy danych mogą pracować z tymi samymi danymi, ale zazwyczaj używają innego środowiska kodu lub języka. Korzystając z linku semantycznego, analitycy danych mogą nawiązać połączenie między semantycznymi modelami usługi Power BI i nauką o danych usługi Synapse w środowisku usługi Microsoft Fabric za pośrednictwem biblioteki języka Python SemPy. Aby uprościć analizę danych, oprogramowanie SemPy przechwytuje i używa semantyki danych, ponieważ użytkownicy wykonują różne przekształcenia w modelach semantycznych. Gdy analitycy danych używają linku semantycznego, mogą

unikanie ponownego wdrażania logiki biznesowej i wiedzy o domenie w kodzie
Łatwy dostęp do miar Power BI i ich wykorzystanie w kodzie.
używanie semantyki do obsługi nowych środowisk — na przykład funkcji semantycznych
eksplorowanie i weryfikowanie zależności funkcjonalnych i relacji między danymi

Gdy organizacje korzystają z rozwiązania SemPy, mogą oczekiwać

większa produktywność i szybsza współpraca między zespołami, które działają na tych samych zestawach danych
zwiększona współpraca krzyżowa między zespołami analizy biznesowej i sztucznej inteligencji
zmniejszenie niejasności i łatwiejszy proces adaptacji przy wdrażaniu do nowego modelu lub zestawu danych

Aby uzyskać więcej informacji na temat linku semantycznego, zobacz Co to jest link semantyczny?.

Odwiedź Samouczki nauki o danych, aby rozpocząć pracę z całościowymi przykładami nauki o danych.
Odwiedź witrynę Data Wrangler, aby uzyskać więcej informacji na temat przygotowywania i czyszczenia danych za pomocą narzędzia Data Wrangler
Odwiedź stronę Eksperyment uczenia maszynowego , aby dowiedzieć się więcej na temat śledzenia eksperymentów
Odwiedź stronę Model uczenia maszynowego , aby dowiedzieć się więcej o zarządzaniu modelami
Odwiedź stronę Score models with PREDICT, aby dowiedzieć się więcej na temat oceniania wsadowego przy użyciu funkcji Predict.
Udostępnianie przewidywań Lakehouse w Power BI za pomocą Direct Lake

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-31