Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Microsoft Fabric zapewnia wbudowaną obsługę języka Python dla platformy Apache Spark. Obsługa obejmuje narzędzie PySpark, które umożliwia użytkownikom interakcję z platformą Spark przy użyciu znanych interfejsów platformy Spark lub języka Python.
Dane można analizować przy użyciu języka Python za pomocą definicji zadań wsadowych platformy Spark lub interaktywnych notesów sieci szkieletowej. Ten artykuł zawiera omówienie tworzenia aplikacji platformy Spark w usłudze Synapse przy użyciu języka Python.
Tworzenie i uruchamianie sesji notesu
Notes usługi Microsoft Fabric to interfejs internetowy umożliwiający tworzenie plików zawierających kod na żywo, wizualizacje i tekst narracji. Notesy to dobre miejsce do weryfikowania pomysłów i przeprowadzania krótkich eksperymentów w celu uzyskania szczegółowych informacji na podstawie danych. Notesy są również szeroko używane w scenariuszach przygotowywania danych, wizualizacji danych, uczenia maszynowego i innych scenariuszy danych big data.
Aby rozpocząć pracę z językiem Python w notesach usługi Microsoft Fabric, zmień język podstawowy w górnej części notesu, ustawiając opcję języka na PySpark (Python).
%%pyspark
# Enter your Python code here
W jednym notesie można używać wielu języków, określając polecenie magic języka na początku komórki.
Aby dowiedzieć się więcej na temat notesów w usłudze Microsoft Fabric Analytics, zobacz Jak używać notesów.
Instalowanie pakietów
Biblioteki udostępniają kod wielokrotnego użytku, który można uwzględnić w programach lub projektach. Aby udostępnić kod partnera lub lokalnie skompilowany kod dla aplikacji, zainstaluj bibliotekę w kolejce do sesji notesu. Alternatywnie administrator obszaru roboczego może utworzyć środowisko, zainstalować w nim bibliotekę i dołączyć środowisko jako domyślny obszar roboczy w ustawieniu obszaru roboczego.
Aby dowiedzieć się więcej na temat zarządzania bibliotekami w usłudze Microsoft Fabric, zobacz Zarządzanie bibliotekami platformy Apache Spark.
Narzędzia notesu
Microsoft Spark Utilities (MSSparkUtils) to wbudowany pakiet ułatwiający łatwe wykonywanie typowych zadań. Narzędzia MSSparkUtils umożliwiają pracę z systemami plików, uzyskiwanie zmiennych środowiskowych, łączenie notesów i pracę z wpisami tajnymi. Narzędzie MSSparkUtils jest obsługiwane w przypadku notesów PySpark.
Aby rozpocząć, uruchom następujące polecenia:
from notebookutils import mssparkutils
mssparkutils.notebook.help()
Aby uzyskać więcej informacji na temat obsługiwanych poleceń MSSparkUtils, zobacz Korzystanie z narzędzi Microsoft Spark.
Korzystanie z biblioteki Pandas na platformie Spark
Interfejs API biblioteki Pandas na platformie Spark umożliwia skalowanie obciążenia biblioteki Pandas do dowolnego rozmiaru przez uruchomienie go rozproszonego między wieloma węzłami. Jeśli znasz już bibliotekę pandas i chcesz używać platformy Spark na potrzeby danych big data, interfejs API biblioteki pandas na platformie Spark zapewnia natychmiastową produktywność.
Aplikacje można migrować bez modyfikowania kodu. Możesz mieć jedną bazę kodu, która współdziała zarówno z biblioteką pandas, w przypadku testów, jak i mniejszych zestawów danych oraz platformy Spark dla produkcyjnych i rozproszonych zestawów danych. Możesz łatwo przełączać się między interfejsem API biblioteki pandas a interfejsem API biblioteki Pandas na platformie Spark i bez konieczności wprowadzania obciążeń.
Środowisko uruchomieniowe języka Python
Środowisko Uruchomieniowe usługi Microsoft Fabric to wyselekcjonowane środowisko zoptymalizowane pod kątem nauki o danych i uczenia maszynowego. Środowisko uruchomieniowe usługi Microsoft Fabric oferuje szereg popularnych bibliotek typu open source języka Python, w tym bibliotek, takich jak Pandas, PyTorch, scikit-learn i XGBoost.
Wizualizacja języka Python
Ekosystem języka Python oferuje wiele bibliotek grafu, które są dostarczane z wieloma różnymi funkcjami. Domyślnie każde wystąpienie platformy Spark w usłudze Microsoft Fabric zawiera zestaw wyselekcjonowanych i popularnych bibliotek typu open source. Możesz również dodawać inne biblioteki lub wersje lub zarządzać nimi. Aby uzyskać więcej informacji na temat zarządzania biblioteką, zobacz Podsumowanie najlepszych rozwiązań dotyczących zarządzania bibliotekami.
Aby dowiedzieć się więcej na temat tworzenia wizualizacji języka Python, zobacz Wizualizacja języka Python.
Powiązana zawartość
- Dowiedz się, jak używać interfejsu API biblioteki Pandas na platformie Apache Spark: interfejs API biblioteki Pandas na platformie Apache Spark
- Zarządzanie bibliotekami platformy Apache Spark w usłudze Microsoft Fabric
- Wizualizowanie danych w języku Python: wizualizowanie danych w języku Python