Omówienie platformy Apache Spark

Apache Spark to technologia umożliwiająca klastry obliczeniowe i magazyny SQL w usłudze Azure Databricks.

Ta strona zawiera omówienie dokumentacji w tej sekcji.

Wprowadzenie

Rozpocznij pracę z platformą Apache Spark w usłudze Databricks.

Temat	Description
Platforma Apache Spark w usłudze Azure Databricks	Uzyskaj odpowiedzi na często zadawane pytania dotyczące platformy Apache Spark w usłudze Azure Databricks.
Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark	Postępuj zgodnie z przewodnikiem krok po kroku dotyczącym pracy z ramkami danych platformy Spark w języku Python, R lub Scala na potrzeby ładowania i przekształcania danych.
Podstawy PySpark	Poznaj podstawy korzystania z programu PySpark, przechodząc przez proste przykłady.

Zapoznaj się z innymi możliwościami i dokumentacją platformy Spark.

Temat	Description
Porównaj Spark Connect z Spark Classic	Dowiedz się więcej o kluczowych różnicach między usługami Spark Connect i Spark Classic w zakresie wykonywania i analizy, aby uniknąć nieoczekiwanych zachowań i problemów z wydajnością podczas migrowania kodu.
Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks	Ustaw właściwości konfiguracji platformy Spark, aby dostosować ustawienia w środowisku obliczeniowym i zoptymalizować wydajność.
Dokumentacja opcji interfejsu API platformy Spark	Znajdź DataFrameReader, DataFrameWriter i powiązane opcje API w jednym miejscu.
Przesyłanie strumieniowe ze strukturą	Przeczytaj omówienie Structured Streaming, czyli silnika przetwarzania niemal w czasie rzeczywistym.
Diagnozowanie problemów z kosztami i wydajnością przy użyciu interfejsu użytkownika platformy Spark	Dowiedz się, jak używać interfejsu użytkownika platformy Spark do dostrajania wydajności, debugowania i optymalizacji kosztów zadań platformy Spark.
Korzystanie z biblioteki MLlib platformy Apache Spark w usłudze Azure Databricks	Rozproszone uczenie maszynowe z wykorzystaniem Spark MLlib i integracja z popularnymi frameworkami uczenia maszynowego.

Praca z platformą Spark przy użyciu preferowanego języka programowania.

Temat	Description
Dokumentacja interfejsów API platformy Apache Spark	Omówienie dokumentacji interfejsu API Apache Spark, w tym linki do dokumentacji Spark SQL, struktur danych i operacji RDD w różnych obsługiwanych językach.
PySpark	Używanie języka Python z platformą Spark, w tym podstaw pySpark, niestandardowych źródeł danych i optymalizacji specyficznych dla języka Python.
Interfejs API biblioteki Pandas na platformie Spark	Skorzystaj ze znanej składni biblioteki pandas ze skalowalnością platformy Spark na potrzeby rozproszonego przetwarzania danych.
Język R dla platformy Spark	Praca w środowisku R i Spark przy użyciu interfejsów SparkR i sparklyr na potrzeby obliczeń statystycznych i analizy danych.
Scala dla platformy Spark	Twórz aplikacje spark o wysokiej wydajności przy użyciu języka Scala z natywnymi interfejsami API platformy Spark i bezpieczeństwem typów.

Czy ta strona była pomocna?