Korzystanie z języka Python dla platformy Apache Spark
Ważne
Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.
Usługa Microsoft Fabric zapewnia wbudowaną obsługę języka Python dla platformy Apache Spark. Obejmuje to obsługę programu PySpark, która umożliwia użytkownikom interakcję z platformą Spark przy użyciu znanych interfejsów platformy Spark lub języka Python. Dane można analizować przy użyciu języka Python za pomocą definicji zadań wsadowych platformy Spark lub z interaktywnymi notesami sieci szkieletowej. Ten dokument zawiera omówienie tworzenia aplikacji platformy Spark w usłudze Synapse przy użyciu języka Python.
Tworzenie i uruchamianie sesji notesu
Notes usługi Microsoft Fabric to interfejs internetowy umożliwiający tworzenie plików zawierających kod na żywo, wizualizacje i tekst narracji. Notesy to dobre miejsce do weryfikowania pomysłów i przeprowadzania krótkich eksperymentów w celu uzyskania szczegółowych informacji na podstawie danych. Notesy są również szeroko używane w scenariuszach przygotowywania danych, wizualizacji danych, uczenia maszynowego i innych scenariuszy danych big data.
Aby rozpocząć pracę z językiem Python w notesach usługi Microsoft Fabric, zmień język podstawowy w górnej części notesu, ustawiając opcję języka na PySpark (Python).
Ponadto można użyć wielu języków w jednym notesie, określając polecenie magic języka na początku komórki.
%%pyspark
# Enter your Python code here
Aby dowiedzieć się więcej na temat notesów w usłudze Microsoft Fabric Analytics, zobacz How to use notebooks (Jak używać notesów).
Instalowanie pakietów
Biblioteki udostępniają kod wielokrotnego użytku, który można uwzględnić w programach lub projektach. Aby udostępnić aplikacjom kod innej firmy lub lokalnie, możesz zainstalować bibliotekę w jednym z obszarów roboczych lub sesji notesu.
Aby dowiedzieć się więcej na temat zarządzania bibliotekami języka Python, zobacz Zarządzanie bibliotekami języka Python.
Narzędzia notesu
Microsoft Spark Utilities (MSSparkUtils) to wbudowany pakiet ułatwiający łatwe wykonywanie typowych zadań. Narzędzia MSSparkUtils umożliwiają pracę z systemami plików, uzyskiwanie zmiennych środowiskowych, łączenie notesów i pracę z wpisami tajnymi. Narzędzie MSSparkUtils jest obsługiwane w przypadku notesów PySpark.
Aby rozpocząć pracę, możesz uruchomić następujące polecenia:
from notebookutils import mssparkutils
mssparkutils.notebook.help()
Dowiedz się więcej o obsługiwanych poleceniach MSSparkUtils w sekcji Korzystanie z narzędzi Microsoft Spark.
Korzystanie z biblioteki Pandas na platformie Spark
Interfejs API biblioteki Pandas na platformie Spark umożliwia skalowanie obciążenia biblioteki Pandas do dowolnego rozmiaru przez uruchomienie go rozproszonego w wielu węzłach. Jeśli znasz już bibliotekę pandas i chcesz korzystać z platformy Spark na potrzeby danych big data, interfejs API biblioteki pandas na platformie Spark zapewnia natychmiastową produktywność i umożliwia migrowanie aplikacji bez modyfikowania kodu. Możesz mieć jedną bazę kodu, która współdziała zarówno z biblioteką pandas (testami, mniejszymi zestawami danych) i platformą Spark (produkcyjnymi, rozproszonymi zestawami danych), a także możesz przełączać się między interfejsem API biblioteki pandas a interfejsem API biblioteki Pandas na platformie Spark łatwo i bez wprowadzania kosztów.
Środowisko uruchomieniowe języka Python
Środowisko Uruchomieniowe usługi Microsoft Fabric to wyselekcjonowane środowisko zoptymalizowane pod kątem nauki o danych i uczenia maszynowego. Środowisko uruchomieniowe usługi Microsoft Fabric oferuje szereg popularnych bibliotek open source języka Python, w tym bibliotek, takich jak Pandas, PyTorch, Scikit-Learn, XGBoost i nie tylko.
Wizualizacja języka Python
Ekosystem języka Python oferuje wiele bibliotek grafów, które są dostarczane z wieloma różnymi funkcjami. Domyślnie każde wystąpienie platformy Spark w usłudze Microsoft Fabric zawiera zestaw wyselekcjonowanych i popularnych bibliotek typu open source. Możesz również dodawać dodatkowe biblioteki lub wersje lub zarządzać nimi przy użyciu funkcji zarządzania bibliotekami usługi Microsoft Fabric.
Dowiedz się więcej na temat tworzenia wizualizacji języka Python, odwiedzając wizualizację języka Python.
Następne kroki
- Dowiedz się, jak używać interfejsu API biblioteki Pandas na platformie Apache Spark: interfejs API biblioteki Pandas na platformie Apache Spark
- Zarządzanie bibliotekami języka Python: zarządzanie bibliotekami języka Python
- Wizualizowanie danych w języku Python: wizualizowanie danych w języku Python
Opinia
Prześlij i wyświetl opinię dla