Przesyłanie strumieniowe w usłudze Azure Databricks

Artykuł
03/01/2024

Usługi Azure Databricks można używać do pozyskiwania, przetwarzania, uczenia maszynowego i sztucznej inteligencji niemal w czasie rzeczywistym na potrzeby przesyłania strumieniowego danych.

Usługa Azure Databricks oferuje wiele optymacji na potrzeby przesyłania strumieniowego i przetwarzania przyrostowego. W przypadku większości zadań przesyłania strumieniowego lub przyrostowego przetwarzania danych lub ETL usługa Databricks zaleca tabele delta Live Tables. Zobacz Co to jest delta live tables?.

Większość obciążeń przyrostowych i przesyłanych strumieniowo w usłudze Azure Databricks jest obsługiwana przez przesyłanie strumieniowe ze strukturą, w tym tabele delta live i moduł automatycznego ładowania. Zobacz Co to jest moduł automatycznego ładowania?.

Usługa Delta Lake i przesyłanie strumieniowe ze strukturą mają ścisłą integrację z przetwarzaniem przyrostowym w lakehouse usługi Databricks. Zobacz Delta table streaming reads and writes (Odczyty i zapisy w tabeli delty).

Aby zapoznać się z obsługą modelu w czasie rzeczywistym, zobacz Obsługa modelu w usłudze Azure Databricks.

Aby dowiedzieć się więcej na temat tworzenia rozwiązań do przesyłania strumieniowego na platformie azure Databricks, zobacz stronę produktu do przesyłania strumieniowego danych.

Usługa Azure Databricks ma określone funkcje do pracy z częściowo ustrukturyzowanymi polami danych zawartymi w avro, buforami protokołu i ładunkami danych JSON. Aby dowiedzieć się więcej, zobacz:

Co to jest przesyłanie strumieniowe ze strukturą?

Przesyłanie strumieniowe ze strukturą platformy Apache Spark to aparat przetwarzania niemal w czasie rzeczywistym, który oferuje kompleksową odporność na uszkodzenia z dokładnie jednokrotnymi gwarancjami przetwarzania przy użyciu znanych interfejsów API platformy Spark. Przesyłanie strumieniowe ze strukturą umożliwia wyrażanie obliczeń na danych przesyłanych strumieniowo w taki sam sposób, jak wyrażanie obliczeń wsadowych na danych statycznych. Aparat przesyłania strumieniowego ze strukturą wykonuje obliczenia przyrostowo i stale aktualizuje wynik w miarę nadejścia danych przesyłanych strumieniowo.

Jeśli dopiero zaczynasz korzystać z przesyłania strumieniowego ze strukturą, zobacz Uruchamianie pierwszego obciążenia przesyłania strumieniowego ze strukturą.

Aby uzyskać informacje na temat używania przesyłania strumieniowego ze strukturą z wykazem aparatu Unity, zobacz Używanie wykazu aparatu Unity z przesyłaniem strumieniowym ze strukturą.

Jakie źródła i ujścia przesyłania strumieniowego obsługuje usługa Azure Databricks?

Usługa Databricks zaleca używanie automatycznego modułu ładującego do pozyskiwania obsługiwanych typów plików z magazynu obiektów w chmurze do usługi Delta Lake. W przypadku potoków ETL usługa Databricks zaleca używanie tabel delta live (które używają tabel różnicowych i przesyłania strumieniowego ze strukturą). Można również skonfigurować przyrostowe obciążenia ETL, przesyłając strumieniowo do i z tabel usługi Delta Lake.

Oprócz usług Delta Lake i Auto Loader przesyłanie strumieniowe ze strukturą może łączyć się z usługami obsługi komunikatów, takimi jak Apache Kafka.

Możesz również użyć funkcji foreachBatch, aby zapisywać dane w dowolnych ujściach danych.

Dodatkowe zasoby

Platforma Apache Spark udostępnia przewodnik programowania przesyłania strumieniowego ze strukturą, który zawiera więcej informacji na temat przesyłania strumieniowego ze strukturą.

Aby uzyskać informacje referencyjne dotyczące przesyłania strumieniowego ze strukturą, usługa Databricks zaleca następujące dokumentacja interfejsu API platformy Apache Spark: