Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera wprowadzenie do przesyłania strumieniowego ze strukturą w usłudze Azure Databricks.
Co to jest przesyłanie strumieniowe ze strukturą?
Strukturalne przesyłanie strumieniowe Apache Spark to silnik przetwarzania danych w trybie niemal rzeczywistym, który oferuje pełną odporność na awarie z gwarancją dokładnie jednokrotnego przetwarzania, przy użyciu znanych interfejsów API platformy Spark. Ustrukturyzowane przesyłanie strumieniowe pozwala na wyrażenie obliczeń dla danych przesyłanych strumieniowo tak samo jak wyrażenie obliczeń wsadowych dla danych statycznych. Silnik strukturalnego przesyłania strumieniowego wykonuje obliczenia przyrostowo i stale aktualizuje wynik w miarę napływu danych przesyłanych strumieniowo.
Odczytywanie ze strumienia danych
Przesyłanie strumieniowe ze strukturą umożliwia przyrostowe pozyskiwanie danych z obsługiwanych źródeł danych. Typowe źródła danych obejmują następujące elementy:
- Pliki danych w magazynie obiektów w chmurze. Zobacz Co to jest moduł automatycznego ładowania?.
- Systemy przekazu komunikatów i kolejki. Zobacz Łączniki standardowe w programie Lakeflow Connect.
- Delta Lake. Zobacz Odczyty i zapisy strumieniowe w tabeli Delta.
Każde źródło danych udostępnia wiele opcji umożliwiających określenie sposobu ładowania partii danych. Podczas konfigurowania czytnika może być konieczne skonfigurowanie opcji w celu wykonania następujących czynności:
- Określ źródło danych lub format (na przykład typ pliku, ograniczniki i schemat).
- Konfigurowanie dostępu do systemów źródłowych (na przykład ustawień portów i poświadczeń).
- Określ, gdzie rozpocząć od strumienia (na przykład przesunięcia Kafka lub odczytanie wszystkich istniejących plików).
- Określ, ile danych jest przetwarzanych w każdej partii (na przykład maksymalne przesunięcia, pliki lub bajty na partię). Zobacz Konfigurowanie rozmiaru partii dla Structured Streaming w usłudze Azure Databricks.
Zapisywanie do zatoki danych
Odbiornik danych jest celem operacji zapisu strumieniowego. Typowe ujścia używane w obciążeniach przesyłania strumieniowego usługi Azure Databricks obejmują następujące elementy:
- Delta Lake
- Szyny komunikatów i kolejki
- Bazy danych klucz-wartość
Podobnie jak w przypadku źródeł danych, większość odbiorników danych oferuje wiele opcji kontrolowania, jak dane są zapisywane w systemie docelowym. W trakcie konfigurowania pisarza należy określić następujące opcje:
- Tryb wyjścia (domyślnie dołączanie). Zobacz Wybieranie trybu danych wyjściowych dla przesyłania strumieniowego ze strukturą.
- Lokalizacja punktu kontrolnego (wymagana dla każdego programu zapisywania). Zobacz Ustrukturyzowane punkty kontrolne przesyłania strumieniowego.
- Interwały wyzwalaczy. Zobacz Konfigurowanie interwałów wyzwalacza strukturalnego przesyłania strumieniowego.
- Opcje określające ujście lub format danych (na przykład typ pliku, ograniczniki i schemat).
- Opcje służące do konfigurowania dostępu do systemów docelowych (na przykład ustawień portów i poświadczeń).