Projektowanie integracji danych i rozwiązania analitycznego za pomocą usługi Azure Databricks

Zakończone

Azure Databricks to w pełni zarządzana, oparta na chmurze platforma danych big data i uczenia maszynowego, która umożliwia deweloperom przyspieszenie sztucznej inteligencji i innowacji. Usługa Azure Databricks udostępnia zespoły ds. nauki o danych i inżynierii z jedną platformą do przetwarzania danych big data i uczenia maszynowego. Zarządzana platforma Apache Spark w usłudze Azure Databricks ułatwia uruchamianie obciążeń platformy Spark na dużą skalę.

Informacje o usłudze Azure Databricks

Usługa Azure Databricks jest całkowicie oparta na platformie Apache Spark i jest doskonałym narzędziem dla użytkowników, którzy znają już platformę przetwarzania klastrów typu open source. Usługa Databricks jest przeznaczona specjalnie do przetwarzania danych big data. Analitycy danych mogą korzystać z wbudowanego podstawowego interfejsu API dla języków podstawowych, takich jak SQL, Java, Python, R i Scala.

Usługa Azure Databricks ma płaszczyznę sterowania i płaszczyznę danych:

  • Płaszczyzna sterowania: hostuje zadania usługi Databricks, notesy z wynikami zapytań i menedżerem klastra. Płaszczyzna sterowania ma również aplikację internetową, magazyn metadanych hive i listy kontroli dostępu zabezpieczeń (ACL) oraz sesje użytkowników. Firma Microsoft zarządza tymi składnikami we współpracy z usługą Azure Databricks.
  • Płaszczyzna danych: zawiera wszystkie klastry środowiska uruchomieniowego usługi Azure Databricks hostowane w obszarze roboczym. Wszystkie operacje przetwarzania danych i magazynowania istnieją w ramach subskrypcji klienta. Przetwarzanie danych nigdy nie odbywa się w ramach subskrypcji zarządzanej przez firmę Microsoft/Databricks.

Usługa Azure Databricks oferuje trzy środowiska do tworzenia aplikacji intensywnie korzystających z danych.

  • Databricks SQL: Usługa Azure Databricks SQL udostępnia łatwą w użyciu platformę dla analityków, którzy chcą uruchamiać zapytania SQL w usłudze Data Lake. Możesz utworzyć wiele typów wizualizacji, aby eksplorować wyniki zapytań z różnych perspektyw oraz tworzyć i udostępniać pulpity nawigacyjne.
  • Databricks Nauka o danych & Engineering: Usługa Azure Databricks Nauka o danych & Engineering to interaktywny obszar roboczy, który umożliwia współpracę między inżynierami danych, analitykami danych i inżynierami uczenia maszynowego. W przypadku potoku danych big data dane (nieprzetworzone lub ustrukturyzowane) są pozyskiwane na platformę Azure za pośrednictwem usługi Azure Data Factory w partiach lub przesyłane strumieniowo niemal w czasie rzeczywistym przy użyciu platformy Apache Kafka, usługi Azure Event Hubs lub usługi Azure IoT Hub. Dane są lądowane w magazynie typu data lake dla długoterminowego magazynu utrwalonego w usłudze Azure Blob Storage lub Azure Data Lake Storage. W ramach przepływu pracy analizy użyj usługi Azure Databricks, aby odczytywać dane z wielu źródeł danych i przekształcać je w przełomowe informacje przy użyciu platformy Spark.
  • Databricks Machine Learning: Usługa Azure Databricks Machine Learning to zintegrowane kompleksowe środowisko uczenia maszynowego. Obejmuje ona usługi zarządzane do śledzenia eksperymentów, trenowania modeli, opracowywania funkcji i zarządzania nimi oraz obsługi funkcji i modeli.

Scenariusz biznesowy

Przeanalizujmy scenariusz dla firmy Tailwind Traders w dziale produkcji ciężkich maszyn. Firma Tailwind Traders korzysta z usług w chmurze platformy Azure na potrzeby ich danych big data. Pracują one zarówno z danymi wsadowymi, jak i danymi przesyłanymi strumieniowo. Dział zatrudnia inżynierów danych, analityków danych i analityków danych, którzy współpracują, aby tworzyć szybkie szczegółowe raporty dla wielu uczestników projektu. Aby spełnić wymagania dotyczące danych big data, planujesz zalecić usługę Azure Databricks i wdrożyć środowisko Nauka o danych i inżynieryjne.

Sprawdźmy, dlaczego usługa Azure Databricks może być właściwym wyborem, aby spełnić te wymagania.

  • Usługa Azure Databricks udostępnia zintegrowany obszar roboczy analizy oparty na platformie Apache Spark, który umożliwia współpracę między różnymi użytkownikami.
  • Korzystając ze składników platformy Spark, takich jak Spark SQL i Dataframes, usługa Azure Databricks może obsługiwać dane ustrukturyzowane. Integruje się z narzędziami pozyskiwania danych w czasie rzeczywistym, takimi jak Kafka i Flume do przetwarzania danych przesyłanych strumieniowo.
  • Bezpieczne możliwości integracji danych oparte na platformie Spark umożliwiają ujednolicenie danych bez centralizacji. Analitycy danych mogą wizualizować dane w kilku krokach i korzystać ze znanych narzędzi, takich jak Matplotlib, ggplot lub d3.
  • Środowisko uruchomieniowe usługi Azure Databricks wyodrębnia złożoność infrastruktury i potrzebę specjalistycznej wiedzy w celu skonfigurowania i skonfigurowania infrastruktury danych. Użytkownicy mogą korzystać z istniejących umiejętności językowych dla języków Python, Scala i R oraz eksplorować dane.
  • Usługa Azure Databricks integruje się głęboko z bazami danych platformy Azure i magazynami, takimi jak Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage i Azure Blob Storage. Obsługuje ona różne platformy magazynu danych, które spełniają potrzeby magazynu danych big data firmy Tailwind Traders.
  • Integracja z usługą Power BI umożliwia szybkie i znaczące szczegółowe informacje, co jest wymaganiem dla firmy Tailwind Traders.
  • Usługa Azure Databricks SQL nie jest właściwym wyborem, ponieważ nie może obsłużyć danych bez struktury.
  • Usługa Azure Databricks Machine Learning nie jest również właściwym wyborem środowiska, ponieważ uczenie maszynowe nie jest wymaganiem w tym scenariuszu.

Kwestie do rozważenia podczas korzystania z usługi Azure Databricks

Usługi Azure Databricks można używać jako rozwiązania dla wielu scenariuszy. Zastanów się, w jaki sposób usługa może korzystać z rozwiązania integracji danych dla firmy Tailwind Traders.

  • Rozważ przygotowanie danych do nauki o danych. Tworzenie, klonowanie i edytowanie klastrów złożonych, nieustrukturyzowanych danych. Przekształcanie klastrów danych w określone zadania. Dostarczaj wyniki analitykom danych i analitykom danych do przeglądu.
  • Rozważ szczegółowe informacje w danych. Zaimplementuj usługę Azure Databricks, aby tworzyć aparaty rekomendacji, analizę zmian i wykrywanie nieautoryzowanego dostępu.
  • Rozważ produktywność w zespołach ds. danych i analiz. Tworzenie środowiska współpracy i udostępnionych obszarów roboczych dla inżynierów danych, analityków i naukowców. Zespoły mogą współpracować w całym cyklu życia nauki o danych z udostępnionymi obszarami roboczymi, co pomaga zaoszczędzić cenny czas i zasoby.
  • Rozważ obciążenia danych big data. Przećwiczyć usługę Azure Data Lake i aparat, aby uzyskać najlepszą wydajność i niezawodność obciążeń danych big data. Tworzenie potoków danych wieloetapowych bez mieszania.
  • Rozważmy programy uczenia maszynowego. Korzystaj ze zintegrowanego kompleksowego środowiska uczenia maszynowego. Obejmuje ona usługi zarządzane do śledzenia eksperymentów, trenowania modeli, opracowywania funkcji i zarządzania nimi oraz obsługi funkcji i modeli.