Udostępnij przez


Podstawy Strukturalnego Przesyłania Strumieniowego

Ten artykuł zawiera wprowadzenie do przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.

Co to jest przesyłanie strumieniowe ze strukturą?

Strukturalne przesyłanie strumieniowe Apache Spark to silnik przetwarzania danych w trybie niemal rzeczywistym, który oferuje pełną odporność na awarie z gwarancją dokładnie jednokrotnego przetwarzania, przy użyciu znanych interfejsów API platformy Spark. Ustrukturyzowane przesyłanie strumieniowe pozwala na wyrażenie obliczeń dla danych przesyłanych strumieniowo tak samo jak wyrażenie obliczeń wsadowych dla danych statycznych. Silnik strukturalnego przesyłania strumieniowego wykonuje obliczenia przyrostowo i stale aktualizuje wynik w miarę napływu danych przesyłanych strumieniowo.

Odczytywanie ze strumienia danych

Przesyłanie strumieniowe ze strukturą umożliwia przyrostowe pozyskiwanie danych z obsługiwanych źródeł danych. Typowe źródła danych obejmują następujące elementy:

Każde źródło danych udostępnia wiele opcji umożliwiających określenie sposobu ładowania partii danych. Podczas konfigurowania czytnika może być konieczne skonfigurowanie opcji w celu wykonania następujących czynności:

  • Określ źródło danych lub format (na przykład typ pliku, ograniczniki i schemat).
  • Konfigurowanie dostępu do systemów źródłowych (na przykład ustawień portów i poświadczeń).
  • Określ, gdzie rozpocząć od strumienia (na przykład przesunięcia Kafka lub odczytanie wszystkich istniejących plików).
  • Określ, ile danych jest przetwarzanych w każdej partii (na przykład maksymalne przesunięcia, pliki lub bajty na partię). Zobacz Konfigurowanie rozmiaru partii dla Structured Streaming w usłudze Azure Databricks.

Zapisywanie do zatoki danych

Odbiornik danych jest celem operacji zapisu strumieniowego. Typowe ujścia używane w obciążeniach przesyłania strumieniowego usługi Azure Databricks obejmują następujące elementy:

  • Delta Lake
  • Szyny komunikatów i kolejki
  • Bazy danych klucz-wartość

Podobnie jak w przypadku źródeł danych, większość odbiorników danych oferuje wiele opcji kontrolowania, jak dane są zapisywane w systemie docelowym. W trakcie konfigurowania pisarza należy określić następujące opcje: