Co to jest Nauka o danych w usłudze Microsoft Fabric?
Usługa Microsoft Fabric oferuje Nauka o danych środowiska umożliwiające użytkownikom wykonywanie kompletnych przepływów pracy nauki o danych w celu wzbogacania danych i szczegółowych informacji biznesowych. Możesz ukończyć szeroką gamę działań w całym procesie nauki o danych, od eksploracji danych, przygotowywania i czyszczenia po eksperymenty, modelowanie, ocenianie modeli i obsługę analiz predykcyjnych do raportów analizy biznesowej.
Użytkownicy usługi Microsoft Fabric mogą uzyskać dostęp do strony głównej Nauka o danych. Z tego miejsca mogą odnajdywać różne odpowiednie zasoby i uzyskiwać do nich dostęp. Mogą na przykład tworzyć eksperymenty, modele i notesy uczenia maszynowego. Mogą również importować istniejące notesy na stronie głównej Nauka o danych.
Możesz wiedzieć, jak działa typowy proces nauki o danych. Jako dobrze znany proces większość projektów uczenia maszynowego jest stosować.
Na wysokim poziomie proces obejmuje następujące kroki:
- Formułowanie i ideę problemu
- Odnajdywanie i wstępne przetwarzanie danych
- Eksperymentowanie i modelowanie
- Wzbogacanie i operacjonalizacja
- Uzyskiwanie szczegółowych informacji
W tym artykule opisano możliwości usługi Microsoft Fabric Nauka o danych z perspektywy procesu nauki o danych. Dla każdego kroku procesu nauki o danych ten artykuł zawiera podsumowanie możliwości usługi Microsoft Fabric, które mogą pomóc.
Formułowanie i ideę problemu
Nauka o danych użytkownicy w usłudze Microsoft Fabric pracują na tej samej platformie co użytkownicy biznesowi i analitycy. Udostępnianie danych i współpraca stają się w rezultacie bardziej bezproblemowe w różnych rolach. Analitycy mogą łatwo udostępniać raporty i zestawy danych usługi Power BI praktykom nauki o danych. Łatwość współpracy między rolami w usłudze Microsoft Fabric sprawia, że przekazywanie w fazie formułowania problemu jest znacznie łatwiejsze.
Odnajdywanie i wstępne przetwarzanie danych
Użytkownicy usługi Microsoft Fabric mogą wchodzić w interakcje z danymi w usłudze OneLake przy użyciu elementu Lakehouse. Usługa Lakehouse łatwo dołącza się do notesu, aby przeglądać dane i wchodzić z nimi w interakcje.
Użytkownicy mogą łatwo odczytywać dane z usługi Lakehouse bezpośrednio w ramce danych biblioteki Pandas. W przypadku eksploracji umożliwia to bezproblemowe odczyty danych z usługi OneLake.
Zaawansowany zestaw narzędzi jest dostępny dla potoków pozyskiwania danych i orkiestracji danych przy użyciu potoków integracji danych — natywnie zintegrowanej części usługi Microsoft Fabric. Łatwe w tworzeniu potoki danych mogą uzyskiwać dostęp do danych i przekształcać je w format, z którego może korzystać uczenie maszynowe.
eksploracja danych
Ważną częścią procesu uczenia maszynowego jest zrozumienie danych za pośrednictwem eksploracji i wizualizacji.
W zależności od lokalizacji przechowywania danych usługa Microsoft Fabric oferuje zestaw różnych narzędzi do eksplorowania i przygotowywania danych do analizy i uczenia maszynowego. Notesy stają się jednym z najszybszych sposobów rozpoczęcia eksploracji danych.
Apache Spark i Python na potrzeby przygotowywania danych
Usługa Microsoft Fabric oferuje możliwości przekształcania, przygotowywania i eksplorowania danych na dużą skalę. Dzięki platformie Spark użytkownicy mogą korzystać z narzędzi PySpark/Python, Scala i SparkR/SparklyR na potrzeby przetwarzania wstępnego danych na dużą skalę. Zaawansowane biblioteki wizualizacji typu open source mogą ulepszyć środowisko eksploracji danych, aby lepiej zrozumieć dane.
Wrangler danych na potrzeby bezproblemowego czyszczenia danych
Środowisko notesu usługi Microsoft Fabric dodało funkcję umożliwiającą korzystanie z rozwiązania Data Wrangler, narzędzia kodu, które przygotowuje dane i generuje kod w języku Python. To środowisko ułatwia przyspieszenie żmudnych i przyziemnych zadań — na przykład czyszczenia danych i tworzenia powtarzalności i automatyzacji za pomocą wygenerowanego kodu. Dowiedz się więcej o usłudze Data Wrangler w sekcji Data Wrangler tego dokumentu.
Eksperymentowanie i modelowanie uczenia maszynowego
Dzięki narzędziom, takich jak PySpark/Python, SparklyR/R, notesy mogą obsługiwać trenowanie modelu uczenia maszynowego.
Algorytmy i biblioteki uczenia maszynowego mogą pomóc w trenowaniu modeli uczenia maszynowego. Narzędzia do zarządzania bibliotekami mogą instalować te biblioteki i algorytmy. W związku z tym użytkownicy mogą korzystać z wielu popularnych bibliotek uczenia maszynowego w celu ukończenia szkolenia modelu uczenia maszynowego w usłudze Microsoft Fabric.
Ponadto popularne biblioteki, takie jak Scikit Learn, mogą również tworzyć modele.
Eksperymenty i przebiegi platformy MLflow mogą śledzić trenowanie modelu uczenia maszynowego. Usługa Microsoft Fabric oferuje wbudowane środowisko MLflow, w którym użytkownicy mogą wchodzić w interakcje, rejestrować eksperymenty i modele. Dowiedz się więcej o tym, jak używać platformy MLflow do śledzenia eksperymentów i zarządzania modelami w usłudze Microsoft Fabric.
SynapseML
Biblioteka typu open source usługi SynapseML (wcześniej znana jako MMLSpark), która jest właścicielem i konserwem przez firmę Microsoft, upraszcza wysoce skalowalne tworzenie potoku uczenia maszynowego. Jako ekosystem narzędzi rozszerza platformę Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden skalowalny interfejs API. Biblioteka synapseML typu open source zawiera bogaty ekosystem narzędzi uczenia maszynowego do tworzenia modeli predykcyjnych, a także wykorzystanie wstępnie wytrenowanych modeli sztucznej inteligencji z usług Azure AI. Dowiedz się więcej o usłudze SynapseML.
Wzbogacanie i operacjonalizacja
Notesy mogą obsługiwać ocenianie wsadowe modelu uczenia maszynowego za pomocą bibliotek typu open source na potrzeby przewidywania lub skalowalną uniwersalną funkcję Spark Predict platformy Microsoft Fabric, która obsługuje spakowane modele MLflow w rejestrze modeli usługi Microsoft Fabric.
Uzyskiwanie szczegółowych informacji
W usłudze Microsoft Fabric wartości przewidywane można łatwo zapisywać w usłudze OneLake i bezproblemowo korzystać z raportów usługi Power BI przy użyciu trybu Direct Lake usługi Power BI. Ułatwia to praktykom nauki o danych dzielenie się wynikami z pracy z uczestnikami projektu, a także upraszcza operacjonalizacja.
Notesy zawierające ocenianie wsadowe mogą być uruchamiane przy użyciu funkcji planowania notesu. Ocenianie wsadowe można również zaplanować jako część działań potoku danych lub zadań platformy Spark. Usługa Power BI automatycznie pobiera najnowsze przewidywania bez konieczności ładowania lub odświeżania danych dzięki trybowi Direct Lake w usłudze Microsoft Fabric.
Eksploracja danych za pomocą linku semantycznego (wersja zapoznawcza)
Ważne
Ta funkcja jest dostępna w wersji zapoznawczej.
Analitycy danych i analitycy biznesowi poświęcają dużo czasu, próbując zrozumieć, oczyścić i przekształcić dane, zanim będą mogli rozpocząć dowolną znaczącą analizę. Analitycy biznesowi zwykle pracują z modelami semantycznymi i kodują swoją wiedzę na temat domeny i logikę biznesową do miar usługi Power BI. Z drugiej strony analitycy danych mogą pracować z tymi samymi danymi, ale zazwyczaj w innym środowisku kodu lub języku.
Link semantyczny (wersja zapoznawcza) umożliwia analitykom danych nawiązanie połączenia między modelami semantycznymi usługi Power BI a usługą Synapse Nauka o danych w środowisku usługi Microsoft Fabric za pośrednictwem biblioteki SemPy języka Python. Rozwiązanie SemPy upraszcza analizę danych, przechwytując i wykorzystując semantyka danych, ponieważ użytkownicy wykonują różne przekształcenia w modelach semantycznych. Korzystając z linku semantycznego, analitycy danych mogą wykonywać następujące czynności:
- unikanie konieczności ponownego implementowania logiki biznesowej i wiedzy o domenie w kodzie
- łatwe uzyskiwanie dostępu do miar usługi Power BI i korzystanie z nich w kodzie
- używanie semantyki do obsługi nowych środowisk, takich jak funkcje semantyczne
- eksplorowanie i weryfikowanie zależności funkcjonalnych i relacji między danymi
Korzystając z rozwiązania SemPy, organizacje mogą oczekiwać:
- większa produktywność i szybsza współpraca między zespołami, które działają na tych samych zestawach danych
- zwiększona współpraca krzyżowa między zespołami analizy biznesowej i sztucznej inteligencji
- zmniejszenie niejednoznaczności i łatwiejszej krzywej uczenia się podczas dołączania do nowego modelu lub zestawu danych
Aby uzyskać więcej informacji na temat linku semantycznego, zobacz Co to jest link semantyczny (wersja zapoznawcza)?.
Powiązana zawartość
- Wprowadzenie do kompleksowej nauki o danych — przykłady, zobacz Nauka o danych Tutorials (Samouczki dotyczące Nauka o danych)
- Dowiedz się więcej na temat przygotowywania i czyszczenia danych za pomocą narzędzia Data Wrangler, zobacz Data Wrangler
- Dowiedz się więcej o śledzeniu eksperymentów, zobacz Eksperyment uczenia maszynowego
- Dowiedz się więcej o zarządzaniu modelami, zobacz Model uczenia maszynowego
- Dowiedz się więcej o ocenianiu wsadowym za pomocą funkcji Predict, zobacz Score models with PREDICT (Ocenianie modeli za pomocą funkcji PREDICT)
- Obsługa przewidywań z usługi Lakehouse do usługi Power BI z trybem direct lake